Skip to content

磁盘渐进式故障导致集群故障转移失败 #446

@zenghur

Description

@zenghur

描述:
Tendis集群在SSD磁盘发生渐进式故障时,无法及时检测节点健康状况,导致故障转移过程失败。具体表现为:当主节点的SSD磁盘开始出现物理损坏时,集群心跳机制,仍能正常响应,但节点实际服务能力已严重下降。直到磁盘完全故障导致进程异常时,集群才检测到故障,此时从节点的数据延迟已超过故障转移允许的阈值,无法完成切换,最终导致整个集群不可用。

期待行为:
集群应能及时检测到节点的性能降级(如磁盘I/O延迟增加、写入失败率上升等),而不仅仅是检测节点是否存活。
在节点出现性能降级但尚未完全故障时,应提前预警并准备故障转移。
故障转移机制应考虑数据延迟的实际情况,提供更灵活的阈值策略,避免因数据延迟过大而完全无法切换。

当前行为:
心跳检测过于简单:仅基于PING/PONG的网络响应时间判断节点健康,完全不检查磁盘状态、内存压力、AOF/RDB写入状态等关键健康指标。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions