第一讲:双活容灾技术和方案概述

el/2024/4/13 13:34:19

 

容灾建设在我国已有十多年的历史了,尤其是2007年发布国标GB/T20988-2007《信息系统灾难恢复规范》后,各行各业对容灾建设都非常重视,各种新的容灾技术和产品也得到了快速的发展和应用。在我国容灾发展的前十年,主要都是基于保护IT系统本身的运行而考虑的,与业务需求的关系并不太紧密,甚至在设计容灾系统时都不需要业务部门的参与。

但实际上,灾备建设往往需要从存储层、网络层,安全层、计算层、传输层、应用层等6层考虑,每层之间都有着千丝万缕的联系。然而,近年来,存储层的容灾技术越来越受到客户青睐。

存储是一门既古老有现代的技术,纵观存储计算经历的一体,分离到融合的变迁,完美诠释了从服务器中来到服务器中去的存储服务思想,从DAS到如今的SDS/HCI最大的不同的就是可靠性和有效性的提升。如同宇宙,诞生于宇宙大爆炸前的一个黑洞或高质量天体,随着星系的演变、诞生和消失后,最终还是要被黑洞所吞噬再次回到起点。这两个风马牛不相及的事情都说明过程的重要性

回到存储,从EMC被收购,HDS被整合到传闻NetApp被收购来看,单纯的存储盒子是玩不动了。数据越来越多的被放在虚拟机、容器和公有/混合云上,未来的存储应该站在云平台上来考虑如何满足Cloudnative应用需求,而不是隔离单独拼存储盒子的性能和容量。应该更加专注数据云上云下流动,数据跨厂商共享,智能运维,服务质量遵从和存储即服务等。未来客户将更加青睐如同PayU和PayG的新商业模式,所以未来云计算的所有属性将被完全赋予存储。

但是传统存储盒子自从从大型机上独立出来,在整个漫长发展的过程中,确实给我们带来很多回忆和难以忘却故事,今天还是聚焦分析下数据中心双活部署网络相关要求

建设数据中心双活需要网络系统、存储系统、计算资源、应用系统等多个系统之间紧密合作才能实现。用户业务系统同时在两个数据中心运行,包括前端的全局负载均衡、服务器前端的负载均衡、服务器集群HA技术,后端的数据库系统和存储系统技术,同时为用户提供服务。

当某个数据中心的应用系统出现问题时,由另一个数据中心的应用来持续提供服务。

双活数据中心除了存储双活技术外,最需要考虑的技术因素就是数据中心之间网络互联需求,这些因素主要包括。

· 组网方式:裸光纤直连或DWDM设备;同一城域内通过城域网的核心层进行互联,不同城域间的DC通过骨干网进行互联;DC存储通过密集型光波复用DWDM或裸光纤进行直连。

· 集群心跳:集群心跳要求二层网络

· 虚拟机vMotion:在保持业务连续性的前提下,虚拟机可在跨数据中心间实现动态迁移

· 广播隔离:广播消息需在数据中心间实现隔离

由于VM需要在两个数据中心间漂移,一般情况要求这两个数据中心都是在一个大二层的物理架构里。

· 光纤链路直连,弱化距离,与传统网络架构相同;

· 采用大二层互联,实现大二层网络有多种解决方案。

· 与网络设备解耦,通过软件定义实现数据流的重定向,其原理就是VPN,底层网络只要IP可达,不管是在同一个VLAN还是不同的VLAN,通过再次封装,实现全新统一的隔离域,同时摆脱了VLAN数量的限制。数据中心互联网络一般采用光纤互联。对于大于25km的光纤链路,需要增加DWDM波分设备,用于提高带宽降低时延。DWDM对于数据传输的时延起着关键的作用。

数据复制通过存储实现,所以存储层双活网络时延的限制需要格外关注,要保证两地业务数据的同步复制,就目前的技术水平来看,两地双活数据中心最远支持100km。HDS宣传GAD双活实际部署距离支持500km,测试发现距离每增加100km,时延大约增加1ms。实际上双活距离一直都不是问题,主要看网络时延和误码率,以及应用对RTT时延要求和容忍度。如果当距离超过了500km时,其应用能容忍5ms以上的时延,那所有的问题都不是问题。

当然,数据中心双活除了网络,还要关注其他因素,这些因素我先大致列出来,在后续章节中,将逐一分析解释。

1. 脑裂风险问题:如何避免脑裂是每个双机系统都要重视的问题,存储双活系统尤其如此,脑裂会带来长时间的存储读写IO HANG住,造成重大影响。

2. 性能影响问题:因为双活系统在写入数据时,会写两次数据,尤其是通过复制功能写到远端存储的过程,传输链路的性能也会影响整体性能。

3. 数据一致性风险问题:当写入数据时,在复制过程中,数据传递是在缓存中进行的,这样做的好处是提升了性能,问题是当出现异常宕机事件时,就会导致缓存内的数据不能写入存储中,从而造成数据的不一致。

4. 双中心间通讯不可控问题:一是链路稳定状况不可控;二是IO延时指标不可控。这些不可控因素非常容易造成灾难性影响,轻则导致数据库读写性能灾难,重则导致数据库节点直接处于僵死状态。另外,链路的不稳定会导致存储链路频繁切换,甚至会导致集群仲裁频繁发生,这对于业务连续性更是一个灾难。

5. 数据同步逻辑错误问题:存储层面的复制技术基本以存储块为单位进行的数据复制,假设数据块发生了逻辑错误,那么存储是无法检测到的,它会继续将坏的数据块儿同步到灾备端,如果因此数据库发生宕机,那么灾备端的数据库也同样无法正常启动。

6. 存储网络故障泛滥问题:两个数据中心的SAN网络打通,整合为一张大的SAN网络,可能会因为局部的存储网络故障而波及到整个存储网络,造成重大影响。

7. 集群仲裁一致性问题:所谓的仲裁一致性问题,是指双中心之间的双活存储集群和数据库集群的仲裁结果是否能保证一致性。当不一致时,对业务系统将造成灾难性影响。

8. 存储多路径控制的策略问题:倘若采用存储厂商自己的多路径,可能存在兼容性问题,很多双活方案采用系统自带多路径缓和这一问题。

此外,业务层的等级划(RTO/RPO)分也是灾备方案设计的基础和前提。不同的业务连续性要求不同的容灾技术和等级,在本专题课程中,主要聚焦双活方案(存储层、网络层,安全层、计算层、传输层、应用层等6层双活),其实现的效果:RTO/RPO均为0.

本号专注技术架构和行业解决方案,构建专业交流平台,分享一线技术实践,洞察行业前沿趋势,内容覆盖云计算、大数据、超融合、软件定义网络、数据保护解决方案,订阅即可收听业界主流双活方案设计关键技术内容。

<专栏部分精华内容>

  • 剖析SVC Stretch Cluster双活方案
  • 剖析Clustered Metro Cluster双活方案
  • 剖析PowerHA/SVC HyperSwap双活方案
  • 剖析HAM/GAD双活方案方案
  • 剖析VIS/HyperMetro双活方案方案
  • 剖析Vplex双活数据中心存储方案方案
  • 剖析SRDF/Mtreo和MetroSync双活方案
  • 剖析HPE、Dell和Fujitsu双活方案

 


http://www.ngui.cc/el/4994468.html

相关文章

第二讲:双活灾备方案建设方法论

灾备建设的最终目的就是要保护业务的连续性运行&#xff0c;除了技术层面的支撑外&#xff0c;还有人员、规划和流程等非技术决策层面支撑。只有技术和规划通力配合&#xff0c;才能在真正发生灾难时保证业务连续性。 在灾难恢复方面&#xff0c;组织会考虑二个方面的目标恢复…

第三讲:如何构建双活数据中心方案

针对数据中心双活解决方案如何构建&#xff0c;笔者把大家常见的疑问和问题进行汇总&#xff0c;加上我个人的见解写成一篇比较全面的文章&#xff0c;分享出来供大家参考。由于工作原因&#xff0c;可能今后近一个月的时间不能给及时大家写文章了&#xff0c;但是过了这段时间…

RoCE网络技术和实现方式

在数据为王的时代&#xff0c;人们对网络的要求更加严苛。然而传统的TCP / IP以太网连接占用了大量的CPU资源&#xff0c;并且需要额外的数据处理&#xff0c;已无法再满足当前更快、更高效和可扩展性的网络需求。在这种情况下&#xff0c;RoCE&#xff08;RDMA over Converged…

干货:操作系统核心技术实战

都说操作系统&#xff08;简称 OS &#xff09;&#xff0c;是程序员的三大浪漫之一&#xff0c;我们经常会用“灵魂、大脑、内核、基石”等词来形容它&#xff0c;足以见得它对计算机而言有多么重要。 在实际工作中也确实如此&#xff0c;很多遇到的疑难杂症&#xff0c;都和操…

混合云市场现状与发展趋势研究

广义的混合云将涉及云计算的技术全部涵盖在内&#xff0c;包括同构云计算&#xff0c;异构云计算&#xff0c;传统 IT 和云计算的混合&#xff0c;以及包括多云在内的云计算能力。狭义的“混合云”定位在通过私有云确保 IT 服务交付和核心业务安全合规的同时&#xff0c;选择云…

并行计算与分布式计算原理

云计算是一种新的技术趋势&#xff0c;可以更好地利用IT基础设施、服务和应用。云计算采用了一种按使用付费的服务交付模式&#xff0c;用户无需拥有自己的基础设备、平台或应用&#xff0c;只在需要时使用这些服务即可。串行和并行是两种基本的主要计算模型。串行计算起源于 2…

高性能计算网络,RoCE vs. InfiniBand该怎么选?

高性能计算网络平台解决方案&#xff08;技术细节参考&#xff1a;从高性能计算(HPC)技术演变解析方案、生态和行业发展趋势&#xff09;&#xff0c;能够解决物探高性能计算中&#xff0c;基于GPU的程序必须调用 IB栈&#xff0c;而传统TCP/IP 堆栈应用无法支撑高性能计算网络…

数据中心硬件架构拆解分析

内容来自&#xff1a;全栈云技术架构&#xff0c;《IDC系列报告全集》 下载链接&#xff1a;IDC系列报告全集 IDC系列报告一&#xff1a;数字产业基石&#xff0c;关注核心IDC企业 IDC系列报告二&#xff1a;还原IDC行业的真实盈利能力 IDC系列报告三&#xff1a;数据中心中…

信创产业专题:突破核心技术,信创扬帆起航(2021)

文章来源&#xff1a;信创产业专题&#xff1a;突破核心技术&#xff0c;信创扬帆起航&#xff08;2021&#xff09; 信创行业产业链主要分为基础设施&#xff08;芯片、PC/服务器、存储等&#xff09;、基础软件&#xff08;操作系统、数据库、中间件等&#xff09;、外设、应…

Ceph分布式存储系统架构研究综述

Ceph项目是加州大学圣克鲁兹分校的 Weil于2006年开发的。当时他发现元数据的查询和维护严重影响了 Lustre等分布式文件系统的性能和扩展性&#xff0c;因此设计了一种利用算法来确定数据与存储节点对应关系的方法 CRUSH。2015年5月发布的 Linux内核2.6.34已开始支持Ceph。Weil也…