定义
Failover(故障切换)指当主系统、主网络或主节点发生故障时,自动或半自动切换至备用资源,以保障服务连续性与可用性。在 ICMP 中,Failover 涵盖 Carrier Fallback 运营商切换、Region Failover 区域容灾等,是保障 7×24 服务可用性的核心能力。
切换层级
Failover 可在多个层级实现:连接层——Carrier Fallback,主网不可用时切换至备用运营商;平台层——Region Failover,主区域故障时切换至备用区域;组件层——数据库主从、API 多实例、负载均衡健康检查。各层级可组合使用,形成多层冗余。切换可自动触发(基于健康检查、超时)或人工触发。
切换策略
Failover 策略需明确:触发条件(故障检测方式、阈值);切换顺序与优先级;RTO(恢复时间目标)、RPO(恢复点目标);是否自动回切、回切条件。跨境场景下,Region Failover 需考虑 Data Residency,确保备用区域满足合规要求;Carrier Fallback 需考虑 Geo-Based Pricing,避免切换至高资费网络。
在 ICMP 中的实践
达希物联 ICMP 采用 Multi-Region、Geo-Distributed 架构,支持 Region Failover;连接层支持 Carrier Fallback、Multi-Operator 冗余。平台通过健康检查、心跳、监控告警实现故障发现,通过 DNS、负载均衡、策略下发实现切换,保障客户业务连续性。