复杂故障转移恢复策略的示例

本主题描述了用于在出现较大区域范围灾难时,实现最大可用性的三层服务器方法。

通常,HDR 辅助服务器提供 SD 辅助服务器的备份,并支持在地理位置上距离主系统较远的高度可用系统。RS 辅助服务器为 HDR 辅助服务器提供附加可用性,并视为灾难可用性解决方案。如果必须使用 RS 辅助服务器确保可用性,那么将强制您通过执行备份与复原来手动重新构建其他系统,以恢复正常运行。要进一步理解此内容,将提供出现较大范围灾难的场景,例如风暴。

要提供最大可用性以免受区域性灾难的影响,需要分层可用性。第一层提供的可用性解决方案可处理短时间的本地故障。例如,这可能包括将一些刀片服务器连接到运行 SD 辅助服务器的单个磁盘子系统。将 SD 辅助服务器放置在校园内的多个位置可在发生本地中断时提供无缝故障转移。

您可能想要添加第二层,通过包含带有其自身磁盘副本的备用位置来提高可用性。要防护较大范围的灾难,您可能需要考虑配置位于较远位置(可能几百英里)的 HDR 辅助服务器。也可能想要使用远程系统作为刀片服务器或某些其他多服务器系统。如果发生故障转移并且远程 HDR 辅助服务器成为主服务器,那么通过提供第二层可轻松启动远程站点上的 SD 辅助服务器。

但是,即使是两层的方法也可能不够用。某个区域内的飓风会在几百公里外生成龙卷风。要防护这种情况,请考虑添加第三层保护,例如位于数千英里的 RS 辅助服务器。此三层方法提供了可很大程度减少中断风险的额外冗余。

图: 三层服务器可用性的配置


此图显示了三层冗余服务器配置。刀片服务器将主服务器安装在一起,并与 SD 辅助服务器共享镜像磁盘阵列。刀片服务器位于新奥尔良的建筑物 A 中。第二台刀片服务器将两台 SD 辅助服务器安装在隔壁的建筑物 B 中。HDR 辅助服务器被配置为距离孟斐斯的主服务器几百英里的第三台刀片服务器的一部分。对第四台刀片服务器配置了距离丹佛主服务器所在地一千英里之外的 RS 辅助服务器。
现在假设新奥尔良校园的建筑物 A 中发生了本地中断。可能是机房内的水管破裂使水对刀片服务器和共享磁盘子系统的主副本造成了损害。通过运行 onmode -d 以使主服务器名位于建筑物 B 中的刀片服务器上运行的某台 SD 辅助服务器上来将主服务器的角色切换为建筑物 B。这将导致其他所有辅助节点自动连接到新的主节点。

图: 第一层保护


在此图之前的段描述了此图的内容。
如果新奥尔良发生了区域性中断,导致建筑物 A 和建筑物 B 均丢失,那么您可以将主服务器角色切换至孟菲斯。此外,您也可能使丹佛进入到 HDR 辅助服务器,并可将附加 SD 辅助服务器添加到孟菲斯中的机器。

图: 第二层保护


在此图之前的段描述了此图的内容。
影响两个站点的更大型中断应需要切换至最远的系统。

图: 第三层保护


在此图之前的段描述了此图的内容。
表 1. 各种需求的建议配置
要求 建议配置
必须定期增大报告容量 请使用 SD 辅助服务器
您使用的是提供足够磁盘硬件可用性的 SAN 设备,但是担心发生服务器故障 请使用 SD 辅助服务器
您使用的是提供足够磁盘硬件镜像的 SAN 设备,但是也需要当主操作丢失(并且镜像磁盘的限制不是问题)时能够恢复联机状态的第二组服务器 考虑使用在两个站点上运行 SD 辅助服务器的两台刀片服务器中心
您需要具有距离适中的备份站点,但不能容忍故障转移期间出现任何数据丢失 考虑使用两台刀片服务器中心,SD 辅助服务器在主刀片服务器中心上,HDR 辅助服务器在远程刀片服务器上。
您需要具有未曾丢失事务的高度可用系统,但是还必须在世界的另一面上设置远程系统 考虑使用针对数据复制运行完全同步方式或接近同步方式的本地 HDR 辅助服务器,并同时在世界另一端使用 RS 辅助服务器。
您需要具有高可用性解决方案,但是因为您所在区域中的网络,ping 的最佳响应时间为大约 200 ms 考虑使用 RS 辅助服务器
您需要备份站点,但不具有与备份站点之间的任何直接通信 考虑使用带有备份与复原的“连续日志复原”
只要数据最终能够到达目的地,您就能够忍受数据交付过程中的延迟;但是在任何情况下都必须具有快速故障转移 考虑使用硬件磁盘镜像与 ER 相结合的 SD 辅助服务器。
您需要其他写处理能力,能够容忍这些写操作交付中有些延迟,需要高度可用的事务并能够分割工作负载 考虑使用带有 SD 辅助服务器的 ER