-
Notifications
You must be signed in to change notification settings - Fork 340
Open
Description
描述:
Tendis集群在SSD磁盘发生渐进式故障时,无法及时检测节点健康状况,导致故障转移过程失败。具体表现为:当主节点的SSD磁盘开始出现物理损坏时,集群心跳机制,仍能正常响应,但节点实际服务能力已严重下降。直到磁盘完全故障导致进程异常时,集群才检测到故障,此时从节点的数据延迟已超过故障转移允许的阈值,无法完成切换,最终导致整个集群不可用。
期待行为:
集群应能及时检测到节点的性能降级(如磁盘I/O延迟增加、写入失败率上升等),而不仅仅是检测节点是否存活。
在节点出现性能降级但尚未完全故障时,应提前预警并准备故障转移。
故障转移机制应考虑数据延迟的实际情况,提供更灵活的阈值策略,避免因数据延迟过大而完全无法切换。
当前行为:
心跳检测过于简单:仅基于PING/PONG的网络响应时间判断节点健康,完全不检查磁盘状态、内存压力、AOF/RDB写入状态等关键健康指标。
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels