数据中心解决方案高可用技术白皮书

3/1/2008来源:华为网络人气:13800

要害词:HA,数据中心 摘  要:本文对数据中心解决方案中的高可用要害技术进行介绍。分别从设备本身和网络两个方面阐述了数据中心解决方案中的高可用技术实现方案。 缩略语清单:
缩略语 英文全名 中文解释 MTBF Mean Time Between Failure 系统平均正常运行时间 MTTR        Mean Time to Repair 系统平均恢复时间 RTO Recovery Time Objective 系统恢复实际目标 RPO recovery point objective 系统恢复点目标 ROI return on investment 投资回报率 VLAN Virtual Local Area Network 虚拟局域网 LACP Link Aggregation Control PRotocol 链路聚合控制协议 STP Spanning Tree Protocol 生成树协议 RSTP Rapid Spanning Tree Protocol 快速生成树协议 MSTP Multiple Spanning Tree Protocol 多生成树协议 VRRP Virtual Router Redundancy Protocol 虚拟路由冗余协议 BPDU Bridge Protocol Data Unit 桥协议数据单元 HRP Huawei Redundancy Protocol 华为冗余协议 IRF Inteligent relisent fibric 智能弹性架构 DLDP Device Link Detection Protocol 设备链路检测协议 GR Graceful restart 设备重启保护

1           总体介绍

1.1         技术应用背景

1.1.1       数据中心现状

1.1.2       高可用对数据中心的重要性

随着企业对信息访问依靠性的增加,数据中心对企业日常业务影响也越来越大。一旦企业数据中心出现故障,将对企业日常业务的正常运作造成极大的冲击,给企业带来巨大的损失。总的来看,数据中心出现故障时,企业的损失分为以下几个方面:对企业日常工作的冲击(员工无法正常工作)、直接财产损失(比如:订单丢失、企业合作伙伴损失赔偿等等)、企业声誉的损失(如:网络服务提供商可能失去部分用户)。 根据META Group的统计,各行业平均每小时因为数据中心故障造成$1,010,536.00的损失。其中能源、通信、制造业的损失分列前三甲。具体情况,详见下表:
Industry Sector Revenue/Hour Revenue/Employee Hour Energy $2,817,846.00 $569.20 Telecommunications $2,066,245.00 $168.98 Manufacturing $1,610,645.00 $134.20 Financial Institutions $1,495,134.00 $1,079.89
Information Technology $1,344,461.00 $184.03 Insurance $1,202,444.00 $370.92 Retail $1,107,274.00 $244.37 Pharmaceuticals $1,082,252.00 $167.53 Banking $996,802.00 $130.52 Food/Beverage Processing $804,192.00 $153.10 Consumer ProdUCts $785,719.00 $127.98 Chemicals $704,101.00 $194.53 Transportation $668,586.00 $107.78 Utilities $643,250.00 $380.94 Healthcare $636,030.00 $142.58 Metals/Natural Resources $580,588.00 $153.11 Professional Services $532,510.00 $99.59 Electronics $477,366.00 $74.48 Construction and Engineering $389,601.00 $216.18 Media $340,432.00 $119.74 Hospitality $330,654.00 $38.62 Average $1,010,536.00 $205.55
图表 1  各行业数据中心故障损失统计表   由上可数据中心的可靠性直接关系企业利益,处于非常重要的地位。一个高可靠的数据中心可以帮助企业在集中资源,提高业务服务水平的同时降低运行成本。可靠性已经成为衡量一个数据中心优劣的重要方面。

1.2         可靠性基本概念

传统意义上来说可靠性(AVAILABILITY )的涵义为系统正常运行时间占总运行时间的比例1(当前的总运行时间包括出问题以后修复所耗费的时间)。由以下两个基本概念组成: l         MTBF(Mean Time Between Failure) 系统平均正常运行时间 l         MTTR(Mean Time to Repair)           系统平均恢复时间 l         AVAILABILITY  = MTBF / ( MTBF + MTTR )       对现代企业数据中心来说,用户除了关心数据中心正常运转的平均时间(MTBF)以外,更为在意的是数据中心出现故障以后能否以很短的时间恢复正常运行,是否能对核心业务的影响减轻到最小。因此,针对MTTR业界又扩展出了另外几个指标: l         RTO :(Recovery Time Objective) RTO 表示完成应用(及其相关业务流程)并保证技术组件恢复到能够正常执行事务处理或业务职能的最长时间。但是,RTO 并不意味着“100%恢复”,它通常指的是降级处理模式(例如减少容量,降低性能)。 l         RPO :(recovery point objective): RPO 指某个时刻,应用数据必须恢复到这个时刻才能继续执行事务处理。它规定了需要将信息恢复到哪个数据流点,或者说,企业能够忍受丢失多少数据。 l         ROI (return on investment ) ROI 是指用户的投资回报。由于数据中心中各个部分的重要性有一定的差别。因此,各个分区出现故障后的影响各有不同。对高可用的要求也不尽相同。由于保证网络高可用意味着不菲价格,因此分区的构架可以满足区分用户业务,在保证用户数据中心整网高可用的目标的前提下,尽可能的为用户降低成本。

2           设计思路

2.1         数据中心可靠性设计所面临的挑战

对于数据中心,现代企业面临着两难的局面。一方面处于企业数据流通最核心地位的企业数据中心对于企业来说有着至关重要的作用,企业对数据中心的依靠性越来越强。另一方面由于影响数据中心网络环境的因素很多,数据中心出现故障的情况几乎不可避免。因此,数据中心解决方案需要着重关注如何尽量减小数据中心出现故障后对企业要害业务造成的影响。为了实现这一目标,首先应该要了解企业数据中心出现故障的类型以及该类型故障产生的影响。影响数据中心的故障主要分为如下几类: ?       硬件故障 ?       软件故障 ?       链路故障 ?       电源/环境故障 ?       资源利用问题 ?       网络设计问题

2.2         数据中心可靠性设计思路

2.2.1       数据中心可靠性设计的策略

由上(2.1)可以知道数据中心出现的故障类型较多,风险也无法避免。那怎样才能做到当故障发生时对企业要害业务造成的影响最小呢?其实,我们可以看出虽然数据中心的故障类型众多,但故障发生产生的后果却大同小异。即,导致数据中心中的设备、链路或server发生故障,无法对外提供正常服务。对于这些故障的缓解最简单的方式就是冗余设计,可以通过对设备、链路、server提供备份,从而将故障对用户业务的影响降低到最小。 但是否是一味的增加冗余设计就可以达到我们缓解故障影响的目的呢?有人可能会将网络可用性与冗余性等同起来。但事实上,冗余性只是整个可用性架构中的一个方面。一味的强调冗余性冗余性反而可能会降低可用性减小冗余所带来的优点,因为冗余性在带来好处的同时也会引入一些缺点: ?       提高网络复杂度 ?       加重网络支持负担 ?       增加配置和治理的复杂度 因此,数据中心的高可靠设计是一个综合的概念。我们在提高网络的冗余性的同时,还需要加强网络构架的优化,从而实现真正的高可用。一般来说设计一个高可用的系统,主要关心以下四个方面: ?       设计高可用的网络构架 ?       要害链路提供设备级、链路级冗余备份 ?       减少非计划性的宕机 ?       可用可靠的网络治理 ?       及时的故障检测定位

2.2.2       华为-3com 数据中心解决方案可靠性设计策略

华为3COM的数据中心解决方案从以下五个方面覆盖了上述的所有方面,保证了数据中心解决方案的高可用性: ?       先进的“分区”理念从网络构架上保证了数据中心的高可用性。 ?       独立的带内带外治理网,保证数据和治理分离,保障设备的可治理性 ?       要害链路,设备冗余备份 ?       负载均衡产品的引入保证4-7层的负载均衡 ?       高可用的网络设备支撑整个数据中心的高可用性

3           要害技术说明

华为-3com的数据中心解决方案全方位的涵盖了高可用性的设计思路,从基础网络到数据中心整网构架无不体现出设计高可用的数据中心的理念。详见下图:   数据中心解决方案高可用技术白皮书(图一)
点击查看大图

图表 2  数据中心解决方案高可用技术总图 下面我们分别介绍数据中心解决方案在基础网络和网络构架中所用到的具体技术。

3.1.1       基础网络

1.    设备级的可靠性设计

数据中心组网时一般会用到较多的设备。在实际运行过程中,各设备均面临着软件异常、硬件故障甚至外界影响(如:供电电路故障、自然灾祸)等各种意外的威胁。设备级的可靠性设计可以通过要害部件冗余,灵活快速的故障侦测和恢复来尽量减小意外发生的影响局限于故障发生的设备之内,尽量减小对数据中心整体的冲击减小数据中心MTTR。
1) IRF构架
和传统的堆叠技术相比,IRF是一种更为增强的堆叠技术,在多方面进行了创新或增强。与照传统堆叠相比IRF在高可靠性、冗余备份方面有了很大的提高。IRF技术可以容许全局范围内的跨设备链路聚合,提供了全面的链路级保护。同时IRF技术实现了跨设备的三层路由冗余,可以支持多种单播路由协议、组播路由协议的分布式处理,真正实现了多种路由协议的热备份技术,这些方面都是传统堆叠技术难以做到的。尤其是单播路由协议和组播路由协议的热备份技术,在业界一直都是一个难题,IRF技术的出现对高可靠性提出了全新的解决方案。此外,IRF技术实现了二层协议在fabric内的分布式运行,提高了堆叠内unit的利用率和可靠性,减少了设备间的协议的依靠关系。 l         路由的热备份 相对于传统的设备组网,IRF提供了真正的单播路由协议和组播路由协议的热备份。并且用户并不需要花一半的投资专门用在备份上面,IRF中所有的设备都实际参与业务运行。IRF是在提供业务的同时进行备份。 DRR实现了路由协议热备份的技术,做到了同一个fabric中各个unit上路由信息的严格同步,并且在其中一个或多个unit出现故障的时候,其它unit可以照常运行并迅速接管故障unit的功能,此时,域内路由协议不会随之出现中断,二三层转发流量和业务也不会出现中断,从而实现了真正意义上的不中断路由协议、不中断业务的故障保护和设备切换功能 数据中心解决方案高可用技术白皮书(图二) 图表 3 XRN的分布式弹性路由   l         链路的备份 分布式的聚合技术进一步消除了聚合设备单点失效的问题,提高了聚合链路的可用性。由于聚合成员可以位于系统的不同设备上,这样即使某些成员所在的设备整个出现故障,也不会导致聚合链路完全失效,其它正常工作的unit会继续治理和维护剩下的聚合端口的状态。这对于核心交换系统和要求高质量服务的网络环境意义重大。 数据中心解决方案高可用技术白皮书(图三) 图表 4  分布式链路聚合(DLA)   DLA技术答应XRN网络核心外的其他交换机等设备以多宿主的方式接入XRN网络核心,极大提高全网的可用性。通过多条聚合链路流向XRN网络核心的流量将均匀分布在聚合链路上,当某一条聚合链路失效时,DLA能够将流量自动重新分布到其余聚合链路以实现链路的弹性备份和提高网络可靠性。
2) 双主控板主备机制
华为3com中高端交换机支持双主控板。两块主控板分为主用板和备用板两个角色。主用板承担正常业务,备用板处于热备状态。一旦主用板出现故障无法正常工作,备用板能够在很短时间内完成状态切换。同时尽可能的保证业务不发生中断。
3) 灵活完备的配置恢复
华为3com系列交换机可以支持业务板以及子卡的插拔。在实现灵活的扩展的同时还充分考虑到了业务板/子卡插拔后业务快速恢复。华为3com各类业务板、子卡还支持热插拔。在业务板出现故障更换备份板或者重启业务板时,原业务板上的用户配置能自动恢复,从而恢复正常业务,极大的缩短了业务板/子卡在出现故障后的恢复时间,提高了设备的可靠性。
4) 设备要害部件冗余
华为3com系列交换机上,主控板、交换网板、电源系统等要害部件冗余热备份。 交流/直流电源采用N+1冗余热备份,保证系统正常运行。 而风扇系统1:1热备份,并且提供根据温度自动调速。
5) 完善的启动文件保护
华为3com系列交换机提供了三个手段全方位的防护启动文件的升级。防止因错误升级导致设备无法正常启动的情况发生。 l         对设备启动文件的检测功能。 设备可以检测用户指定的启动文件是否正常,其版本是否和本设备匹配。检测不合格的文件无法设置为启动文件。 l         支持主备属性启动文件 设备支持同时设置主备两个启动文件。设备启动时可以根据优先级(主优于备)选择启动文件。 l         启动文件缺失保护 用户执行reboot操作时,设备会检测当前的启动文件状况。假如当前无可用的启动文件,设备不答应重启。 l         启动文件搜索 设备在启动阶段假如发现当前用户没有设置启动文件,bootrom会在当前设备所保存的文件中搜索一个可用的启动文件来完成启动。
6) 高可用的网络机箱
不同地理环境量身定做的网络机箱,具有自动调节温度湿度以及防雷的功能,满足不同用户的需要。
7) 负载均衡设备双机备份
两台负载均衡设备互为备份。设备正常运行过程中可以手动同步配置信息和自动同步会话信息。当一台设备发生故障时,另一台设备可以快速感知设备故障,接管故障设备的业务,保证故障设备的当前业务不中断。
8) IPS设备的双机冗余设计
华为-3com 数据中心解决方案采用IPS设备的双机冗余设计。利用IPS设备之间的备份功能,完成当链路发生故障时可以切换到备份链路而不丢失现有IPS的过滤规则。  
9) HRP(Huawei Redundancy Protocol)
HRP协议承载在VGMP报文上,实现在Master和Backup防火墙设备之间备份要害配置命令和会话表状态信息。我们先来看一下HRP的应用场合:   数据中心解决方案高可用技术白皮书(图四) 图表 5 HRP协议应用示意图 上图为防火墙双机热备的基本组网图。其中,Eudemon防火墙是状态防火墙,对于每一个动态生成的会话连接,都会生成一个会话表项与之对应。当EudemonA防火墙(Master)出现故障或相关链路出现问题时,EudemonB防火墙(Backup)将会切换状态而变成新的Master,并开始承担转发任务。然而,假如在状态切换前会话表项和配置命令没有备份到EudemonB,切换前所有经过EudemonA的会话都会因为无法命中EudemonB的会话表而丢弃,从而导致业务中断。为了实现Master防火墙出现故障时能由Backup防火墙平滑切换,则需要在Master和Backup防火墙设备之间备份要害配置命令和会话表状态信息,这就是产生HRP协议的根因。 HRP有主备两种角色:配置主设备和配置从设备。指定HRP配置主从设备的原因主要是为了指定HRP备份的方向(主 -> 从)。 HRP的备份方式主要有以下三种: l         自动实时备份: 当配置主设备有新的命令配置或有新的状态信息产生时,系统自动将该命令和状态信息备份到配置从设备。 l         自动批量备份: 当接入新的配置从设备或旧有配置从设备重启时,由配置主设备将所有配置信息和状态信息批量备份到配置从设备。需要注重的是,批量备份时不答应实时备份。 l         手动批量同步: 用户可以在配置主设备上执行配置同步命令,手动将配置主设备上的配置信息和状态信息备份到配置从设备。 HRP备份防火墙的状态信息和配置信息,具体内容如下: 防火墙状态信息: l         防火墙生成的会话表表项 l         动态黑名单表项 l         ServerMap表项 l         No-PAT表项 防火墙配置信息: l         ACL包过滤命令的配置 l         攻击防范命令的配置 l         地址绑定命令的配置 l         黑名单命令的启用以及手工添加黑名单用户和对黑名单命令的删除操作 l         日志命令 l         NAT命令的配置 l         统计命令的配置 l         域的命令的配置,包括新域的设定,域内添加的接口和优先级的设置 l         aspF(应用层包过滤防火墙)的命令配置 l         清除会话表项命令(reset firewall session table)和清除配置的命令(undo XXX)
10)          AUX口拨号支持,实现双网(PSTN网+IP网)治理
11)          热补丁
HOT Patch支持实现BUG Fixing的功能。通过用新的函数替换旧有的存在问题的函数,实现设备bug的修正。由于当前补丁的实现还处于函数替换的层面,因此该特性不能支持新增特性的动态加载。由于该功能只需要在设备运行工程中替换内存中的代码,因此功能的实现无需重启设备,甚至支持在线打补丁,极大的保证了设备的可靠性。

2.    网络级的可靠性设计

当故障无法局限于故障发生的设备之内时,一方面数据中心解决方案利用网络级的要害设备冗余备份技术极大的减小了宕机对整个系统的影响,从而保证了整网的可用性。核心网络骨干层,汇聚层,接入层设备全采用双归属连接,多ISP接入,多服务器接入负载分担,实现全网的冗余备份负载均衡,保障数据中心业务的高效性和高可靠性。另一方面解决方案采用迅速准确的故障检测手段及时感知故障发生并自动采取动作缓解故障发生导致的不良影响。从而实现数据中心整体高可用性。
1) 链路层
a) 服务器网卡组双归属上行
网卡驱动将服务器中的多块网卡(业界比较流行的为支持2-8块网卡)组合起来形成一个网卡组。网卡组提供多种运行模式完成用户的不同需求。业界比较流行的运行模式有以下三种: l         冗余备份 这种模式提供服务器冗余备份的功能。网卡组中的所有网卡使用相同的IP和MAC地址,整个网卡组在外界看来作为一块虚拟网卡存在。备份组中的网卡有运行和备份两种状态。处于运行态的网卡(只有一块)负责报文的收发。当运行态的网卡出现故障后,处于备份状态的一块网卡会自动切换到运行态接管所有业务。一般来说,一个网卡组可以通过如下方式来检测运行态的网卡的当前状况,用以决策是否需要切换: ?         处于运行态的网卡的链路状况 ?         处于运行态的网卡是否发生硬件故障 ?         软件检测机制 这种模式其功能完全不依靠交换机提供支持,其稳定性是相对最高的。这种模式比较适合在对可靠性要求很高的场合中使用。但我们要看到的是由于这种模式不提供负载分担,因此在对单网卡不能满足性能要求的场合不推荐使用。 由于数据中心解决方案中用户对可靠性的要求更为关注。同时,单网卡已经能够满足数据中心解决方案的性能要求。因此,数据中心解决方案推荐该模式作为最佳模式。 l         负载分担 这种模式提供了网卡组内的负载分担功能。网卡组中的所有网卡均可以进行报文的收发,提高了网卡组的整体性能。网卡组发送报文时所用的IP相同,但MAC使用负责发送报文的网卡自己的MAC。其负载分担分为出入两个方面: ?         入方向的负载分担 由网卡组驱动利用免费ARP来实现。网卡驱动组会向服务器上连接的各个用户发送单播的免费ARP。ARP中所带有的IP地址为服务器的IP,MAC地址为网卡组中的某一个网卡的MAC地址。各用户收到该免费ARP后,会更新它自己的ARP缓存。等到该用户再向服务器发送报文时,其使用的目的MAC即为更新后的MAC。由此,来达到入方向的负载分担。但我们也可以看出,入方向的负载分担取决于用户端的实现。另外,入方向的负载分担的粒度为IP,也可以说是一个用户。 ?         出方向的负载分担 出方向的负载分担由网卡组驱动实现。网卡驱动收到发送的报文时,根据报文所携带的源目的ip和TCP/UDP端口信息进行hash,计算出该报文由网卡组中的哪一个网卡发送。因此,出方向的负载分担只能支持IP层以上的流量。由于参与hash的选项有IP和TCP/UDP信息,因此,可以保证一条流的出网卡接口相同。 l         链路捆绑 网卡组还支持链路捆绑,符合IEEE 802.3ad。实现链路的冗余备份和负载分担。但需要交换机很好的支持。具体聚合的内容在下面具体阐述。
b) 链路聚合
链路聚合Link aggregation也称主干(Trunking)或捆绑技术(Bonding),其实质是将两台设备间的数条物理链路“组合”成逻辑上的一条数据通路,提高链路的可用性,提高链路带宽,只要还存在能正常工作的成员,整个传输链路就不会失效,最大带宽等于各成员带宽之和链路级负载分担,按需增长的带宽。 数据中心解决方案高可用技术白皮书(图五) 图表 6  聚合技术层次结构 聚合类型分为三种: l         手工聚合:用户配置 l         静态聚合:用户配置,自动启用LACP l         动态聚合:系统创建,启用LACP 状态选择原则: 动态聚合端口状态,根据端口优先级确定 l         端口优先级:端口配置的优先级+端口号 l         系统优先级:系统配置的优先级+系统MAC  手工聚合端口状态,根据端口速率来确定 l         选择参考端口:速率最大的全双工端口-->半双工端口 l         与参考端口具有相同的操作KEY l         与参考端口具有的individual属性  静态聚合端口状态,根据端口速率来确定 l          选择参考端口:速率最大的非default的全双工端口-->非default的半双工端口-->default的全双工端口-->default的半双工端口 数据中心解决方案高可用技术白皮书(图六) 图表 7 聚合子层模块 聚合器:收发数据 聚合控制 l         创建/删除聚合组,决定组成员工作状态 l         监测和维护链路聚合组及聚合成员状态 l         通知聚合器连接或分离聚合成员端口 l         通知聚合器开始/停止收发用户数据   数据中心解决方案提供了三种链路聚合场景,可以有效的实现链路聚合的高可用方面的特性: l         普通设备提供跨线卡链路聚合 l         高端设备提供跨板链路聚合 l         IRF构架中提供跨设备链路聚合  
c) DLDP
DLDP(Device Link Detection Protocol)是一个单向链路检测协议,可以有效的防止网络中单通故障的发生。在实际组网中有时会出现一种非凡的现象——单向链路。所谓单向链路是指:本端设备可以通过链路层收到对端设备发送的报文,但对端设备不能收到本端设备的报文。单向链路会引起一系列问题,比如生成树拓扑环路等。 DLDP协议工作在链路层,能够检测两端端口的链路是否正常收发数据,保证两端链路状态的一致性,避免出现环路。DLDP协议可以监控光纤或铜质双绞线(例如,超五类双绞线)的链路状态。假如发现单向链路存在,DLDP协议会根据用户配置,自动关闭或通知用户手工关闭相关端口,以防止网络问题的发生。 DLDP协议有如下状态机:
状态 说明 Initial DLDP协议未使能时的初始化状态 Inactive DLDP协议已使能,但是链路Down时所处的状态 Active DLDP协议已使能且链路Up,或者清空邻居表项后所处的状态 Advertisement 所有邻居双向连通或者处于Active状态超过5秒后进入的状态,这是一种没有发现单向链路时的比较稳定的状态 Probe 发送探测报文检测链路是否为单向链路。该状态启动Probe发送定时器,为每个需要探测的邻居启动一个Echo等待定时器 Disable DLDP协议检测到单向链路,或在加强模式下邻居消失情况下的状态。此时DLDP协议不再接收和发送DLDP报文
  具体状态机的情况请参看下图: 数据中心解决方案高可用技术白皮书(图七) 图表 8 DLDP协议各状态的转换及触发状态转换的事件图 值得注重的是:DLDP协议处于聚合链路的层次之下,以端口为单位发送目的mac为0180-C200-008a的BPDU报文来实现两台交换机之间的互通。另外,DLDP协议为了防止单通状态的误判,要求在使能DLDP的时候设备两端必须保证不是单通,以便于顺利建立邻居关系。  
d) Loopback-detection
Loopback-detection工作在链路层。端口使能loopback-detection以后设备会从该端口发送源mac为设备桥MAC的广播报文。假如设备发现从该端口发送出去的广播报文又能够在该端口接收到,则认为该端口下接入环路,设备将向用户告警,同时做相应的动作将该端口置于受控工作状态,尽量减小接入环路对整网的影响。设备提供给用户根据具体情况选择配置发现环路后设备所做的动作的能力。现在的动作模式有三种: l         Block 这种模式禁止该端口的业务报文的转发(BPDU报文外)。 优点: 不对网络拓扑产生影响的同时可以过滤掉因环路而产生的额外广播报文,有效防止广播风暴的产生。 可以提供自动检测链路状态,自动恢复block动作的功能。 缺点: 设备所接子网或者用户业务不能正常使用。 一定程度上占用设备系统资源。 在本设备和对接的设备均不使能STP协议的情况下,可能会造成bpdu报文的广播风暴。 l         No-learning 这种模式不关闭端口正常的报文转发功能,但禁止该端口学习MAC地址。 优点: 不对网络拓扑产生影响。 设备可以实现报文的正常转发,不影响对接设备的正常业务。 防止MAC地址学习混乱,防止转发混乱。 可以做到设备自动检测,自动恢复。 缺点: 由于端口下不学习mac地址,造成更多的广播流量,加重系统负担。 端口下的环路依然存在,也没有做任何限制。必然产生广播风暴。 l         Shutdown 这种模式在端口下发现环路后,直接Shutdown该端口,需要用户手动恢复端口shutdown状态。 优点: 很好的防止了整网广播风暴的产生。 缺点: 影响网络拓扑。 用户的正常业务中断。 必须要用户手工干预。   Loopback-detection 一般在接入层设备使用配置在下行的用户侧的端口上。用来检测端口下因用户组网或者配置出错导致的环路。也可以防止黒客在端口下接入环路进行DOS攻击。需要注重的是,该特性由于需要向外发送较多的广播报文,因此会影响效率。三种动作模式各有自己的优缺点,需要用户根据具体情况进行配置。  
e) Smart LINK
Smart LINK实现两条链路冗余备份功能。两条链路分别以主备身份以 “活动/非活动”方式实现链路的备份。正常情况下,主链路承载业务流量,备份链路处于阻塞状态只负责链路故障备份工作。当主链路发生故障时,备份链路切换为活动状态承担业务流量转发工作。从而可以实现设备的双归属连接,在链路层有效防止单点故障,提高整网的可靠性。和实现相似功能的STP技术相比,Smart LINK在链路发生故障时的切换速度有明显优势,可以达到50ms~200ms。在简单组网模型下,其作为STP的替代方案提供了业务快速恢复的能力。Smart link 还提供了对上行链路的监控功能,防止在某些特定组网时由于无法及时感知上行链路故障而引起的业务中断。 在链路发生故障时为了实现业务流量从故障链路到备份链路的快速迁移,Smart Link还提供了一种MAC更新的机制。在链路发生切换时,部署Smart Link功能的设备会从新的链路中发送Flush报文,更新接收到该报文的设备的MAC表项。 另外,为了保持流量稳定。当原主用链路故障恢复时,将维持在阻塞状态,不进行抢占。   i       Smart link链路备份 数据中心解决方案高可用技术白皮书(图八) 图表 9 Smart LINK备份端口典型组网 如图,在A设备上建立两个互为备份的二层接口(或聚合组)A1和A2,其中A1处于活动状态,A2处于阻塞状态。此时,网络中的业务流量路径为蓝色线条所表示。假如A1链接的Link1链路故障,那么A2马上切换为非阻塞状态。当业务流量切换完成后,网络中的流量路径为图中的红色线条表示。 注:A2在从阻塞状态切换为非阻塞状态时,在VLAN内组播发送清除MAC地址的报文,网络内设备收到该报文后,清除本设备所有启动Smart LINK特性接口VLAN内的MAC地址。   ii    Smart link上行链路监控 数据中心解决方案高可用技术白皮书(图九) 图表 10 Smart LINK监控端口典型组网
  如图,在B设备上配置B1和B3为监控组,其中B1为上行口,B3为下行口。在A设备上建立两个互为备份的二层接口(或聚合组)A1和A2,其中A1处于活动状态,A2处于阻塞状态。此时,网络中的业务流量路径为蓝色线条所表示。当B1发生故障时,B将监控组里的下行端口B3 SHUTDOWN。B3 shutdown后导致A1发生状态变化,从而触发Smart link备份功能,实现流量路径的迁移,保证整网的业务的可用性。当业务流量切换完成后,业务流量路径为图中的红色线条所表示。  
f) STP
多生成树协议MSTP(Multiple Spanning Tree Protocol)是IEEE 802.1s中定义的一种新型生成树协议,它引入了“实例”(Instance)的概念。简单的说,STP/RSTP是基于端口的,PVST+是基于VLAN的,而MSTP就是基于实例的。所谓实例就是多个VLAN的一个集合,通过多个VLAN捆绑到一个实例中去的方法可以节省通信开销和资源占用率。MSTP各个实例拓扑的计算是独立的,在这些实例上就可以实现负载均衡。在使用的时候可以把多个相同拓扑结构的VLAN映射到一个实例里,这些VLAN在端口上转发状态将取决于对应实例在MSTP里的状态。MSTP的实例0具有非凡的作用,称为CIST,即公共与内部生成树,其他的实例称为MSTI,即多生成树实例。 MSTP协议引入了域的概念,域由域名、修订级别、VLAN与实例的映射关系组成,只有三者都一样的互联的交换机才认为在同一个域内。缺省时,域名就是交换机的第一个MAC地址,修订级别等于0,所有的VLAN都映射到实例0上。在同一个域内的交换机将互相传播和接收不同生成树实例的配置消息,保证所有生成树实例的计算在全域内进行;而不同域的交换机仅仅互相传播和接收CIST生成树的配置消息,MSTP协议利用CIST保证全网络拓扑结构的无环路存在,也是利用CIST保持了同STP/RSTP的向上兼容,因此从外部来看,一个MSTP域就相当于一个交换机,对不同的域、STP、RSTP交换机是透明的。 MSTP相对于之前的各种生成树协议而言,优势非常明显。MSTP具有VLAN认知能力,可以实现负载均衡,可以实现类似RSTP的端口状态快速切换,可以捆绑多个VLAN到一个实例中以降低资源占用率,并且可以很好地向下兼容STP/RSTP协议。 MSTP中的几个要害技术点: l         端口状态 STP协议通过在交换机之间传递非凡的消息(这个消息称为BPDU,桥协议数据单元,又成为配置消息Configuration Message),并进行分布式的计算,来决定一个有环路的网络中,哪台交换机的哪个端口应该被阻塞(Discarding),用这种方法来剪切掉环路。称这种被阻塞的端口为:其处在DISCARDING状态,处于DISCARDING状态的端口不会转发任何报文,只会接收特定的BPDU报文,对于其他的报文一律丢弃。需要注重的是,端口的状态是一个瞬时值,并非一成不变的. 除了处于DISCARDING状态的被阻塞的端口以外,还有一种正常转发数据报文的端口,其状态称为FORWARDING,与不启动MSTP协议的正常端口没有什么分别。 除了FORWARDING、DISCARDING、LEARNING状态以外,还有一种端口状态DISABLE,是指物理上LINK DOWN的端口和没有启动STP协议的端口。 l         根桥和上游桥 根桥就是那棵生成树的总根,整个网络中有且只有一个根桥。它是整个网络的逻辑中心,但不一定是物理中心。当MSTP协议开始运行时,就开始了选举根桥的过程,各交换机之间通过比较各自的桥ID来选举根桥,最后整个网络中桥ID最小的交换机成为根桥。桥ID(类似于OSPF中的Router ID)它由交换机的优先级+MAC地址构成,比较的时候先比较优先级,假如优先级相同则比较MAC,比较的原则都是值较小者优。 我们知道,树是一个由上至下分层的结构,比如WINDOWS的文件系统,而在MSTP中,总根就是最高的那一层“我的电脑”,各个盘符C、D、E相当于是它的子目录,而在MSTP中就称之为下游桥,总根就是下游桥的“上游桥”。可见一个上游桥可能会有多个下游桥,而一个下游桥,有且只有一个上游桥。那么这里是怎么判定一个交换机的上游桥或下游桥呢?在MSTP中的判定方法就是COST值(类似路由协议中的METRIX),也叫做开销,COST值从根桥时为0,在每经过一个接收端口就会累加该端口的COST。在非根桥交换机中距离总根桥开销最小的那个端口被称作Root端口,就是根端口。一台交换机在一个实例上有且只有一个根端口,根端口对端相连接的交换机就是这台交换机的上游桥。 l         端口角色 在上一节中所描述的“根端口”其实就是说的端口角色。MSTP中共有四种端口角色,分别为:Designed、Root、Alternate、Backup;简称为DESI、ROOT、ALTE、BACK。 端口角色和端口状态之间存在一定的联系,一般情况下,DESI和ROOT端口的状态都为FORWARDING(LEARNING);而ALTE和BACK端口的状态永远为DISCARDING。 这样就很好理解了,根端口的角色是怎样选举产生的,ALTE端口和BACK端口其实就是我们所说的被阻塞的端口,而与ALTE、ROOT、BACK端口相连接的对端就是DESI端口(对端只有一个端口的情况下)。在网段上抑制其他端口(无论是自己的还是其他网桥的)发送BPDU的端口,就是该网段的指定端口。在收敛后,只有指定端口和根端口可以处于转发状态。这个定义比较难懂,简单说来,MSTP启动以后,每个端口都会发送自己的配置消息,这个消息是端口当前认为的最优消息,此时就会发生比较。假如某端口发送的消息优于对端,那么此端口就是DESI端口,对端则为其他三种端口角色之一。 MSTP协议从开始运行起,一边发送消息通过比较产生根桥,同时根端口和DESI端口也被选举出来,剩下的端口就是ALTE和BACK端口。 l         域与多实例 域就拥有相同域信息的一些相连通的交换机所组成的区域,可以理解为一个自治系统。MSTP中的实例与VLAN采取“映射”的概念,一个实例可以对应多个VLAN,而一个VLAN只能对应一个实例。几个交换机处于同一个域内,就是他们的域信息完全一致:包括域名,格式前缀(一般都为0不会有什么变化),修订级别,VLAN和实例之间的映射关系。 在MSTP的生成树算法中,一个域被当作一台交换机来处理,这样计算生成的树叫做CST(公共生成树)。每个域内同样运行MSTP协议,对每一个实例都计算出一棵生成树,叫做MSTI(多生成树实例),MSTI是域内才有的概念。此外域内的实例0是一个非凡的实例,实例0的生成树和CST一起组成了一个包含全网内所有交换机的树,叫做CIST(公共内部生成树)。域和域之间的数据流量通过CIST来实现,域内则根据MSTI来实现,从而实现了RSTP与VLAN的完美结合。 虽然多了域与实例,其实并不复杂,在全局来看,一个域就是一台交换机,和刚才介绍的算法没有什么本质区别。而在域内,就相当于是一个运行RSTP的小型网络,只不过根桥被域根桥所取代。域内各MSTI之间各自独立计算自己的生成树,互相之间互不干扰。 域也将路径开销分为了内部路径开销和外部路径开销. 内部路径开销也称IRPC,指本交换机到所在域的域根桥的开销;外部路径开销也称ERPC,是指从域根到总根的路径开销。在MSTP中选举指定端口和根端口时,比较的先后顺序依次为:根桥ID,外部路径开销,域根ID,内部路径开销,指定桥ID,指定端口ID,接收端口ID 。  
2) 网络层
a) OSPF GR
在网络拓扑没有发生任何改变的前提下,双主控的设备在主备主控板发生切换时,由于主备切换不会影响业务板的硬件转发表项,其所有转发表项均正确。因此此时网络是可以做到业务不中断的。但实际上在设备发生主备切换时,业务经常都会发生中断。这是什么原因呢? 我们都知道为了防止单通现象,假如OSPF V2标准流程收到了不含自己Router ID的Hello报文,会把自己的OSPF连接初始化,拆除已建立的邻接关系。当双主控设备的主备主控板之间没有备份OSPF 的状态时,主备切换后设备发送的第一个Hello报文中肯定不含邻居的RouterID。因此,邻居必然拆除与该设备的邻居关系,从而导致业务中断。 为了解决上述问题,RFC 3623定义了OSPF 的Graceful Restart标准,对标准OSPF V2协议进行了扩展,在尽量保持前向兼容的情况下对协议处理过程作了一定程度的变动。从而极大的减缓了设备在主备切换时业务中断的时间。OSPF GR的基本原理如下: l         设备主备切换后立即发送报文通知邻居:自己发生了主备切换但保留了转发表项,请邻居不要重置和自己的的OSPF会话,继续往自己转发报文 l         和主备切换前的所有邻居重新建立邻接关系,并完成LSDB同步,学习到主备切换前完整的协议状态。通过分析自己主备切换前生成的Router LSA或Network LSA能知道主备切换前的邻居关系。 l         重建和所有主备切换前邻居的邻接关系并到达full状态后,开始构建当前控制平面,即重新生成自己的LSA并通过给邻居,同时清除主备切换前生成的LSA,这虽然会引起整个区域的LSA同步,但不会引发SPF计算。 l         主备切换设备和其邻居,需要启动SPF计算,根据计算结果,对保留的老FIB表项进行检查,作必要的更新。 GR可以极大的缩短主备切换导致的业务中断时间(可以减小到3秒以内)。但需要注重的是,在下面三种情况下,发生主备切换时,设备最好不要启动GR或应该从GR中退出: l         设备的备板上没有完成转发表项的备份。假如备板上转发表项不存在,根本就无法转发报文,假如启动GR让邻居继续沿原路径转发报文,会导致路由黑洞。 l         网络拓扑发生变化。因为启动GR会让报文沿原路径转发,在网络拓扑发生变化时,假如继续沿变化前计算的路径转发报文,极可能导致路由环路。因此,假如GR过程中发生网络拓扑的变化,最好中断GR过程,转入正常的OSPF处理过程。 l         设备不能保存“cryptographic sequence number”。标准中没有强制要求这种情况下不启动GR,但这种情况会导致GR收敛时间至少在RouterDeadInterval以上。在RFC2328附录D关于OSPF的安全性考虑中,在启用md5认证时,为了防止报文重播,引入了“cryptographic sequence number”概念,设备假如收到了一个“cryptographic sequence number”为0的OSPF报文,在RouterDeadInterval以内会拒绝接收对端发送的任何OSPF报文。假如设备不能保存这个序号,那么在切换后发送的第一个报文的序号会是0,邻居在RouterDeadInterval以前不会处理对端发过来的OSPF报文,导致收敛时间过长。
 
b) 路由快速收敛
i       等价多路径(ECMP) 对于ECMP来说,静态和动态情况下其收敛时间基本相同。ECMP中某条路径出现故障时,故障路径上的流量被重新分布到其他等价路径。流量恢复时间为故障发现时间和软硬件转发表项更新的时间,可以在10ms量级恢复。至于ECMP的故障路径恢复的过程,为新的路由学习和软硬件转发表项更新的时间。由于在设备新学到的路由和转发表项下发生效前,流量并不会重新分布,所以等价路由恢复的时间为0。 等价多路径有很好的收敛速度,在网络设计中,假如核心网基于纯IP架构,那么使用ECMP来保障高可用性是很好的一个选择。   ii    浮动静态路由 所谓浮动静态路由(floating static route)是指对同一个目的网络,配置下一跳不同,且优先级不同的多条静态路由。正常情况下,只有优先级最高的静态路由起作用。当优先级最高的静态路由失效时,次优静态路由被启用….,以此保障目的网络总是可达,提高网络可用性。 在路径故障的情况下,浮动静态路由在收到路径故障信息后,设备首先删除出错的软硬件转发表项,接着启用次优路由,并下设软硬件转发表项。时间大致在10ms到100ms量级。 路径恢复时,其收敛过程和收敛时间和路径故障时类似。   iiiOSPF快速收敛 对于IGP,收敛速度是衡量其优劣的一个重要指标。数据中心解决方案中只涉及OSPF协议运用,因此这里我们只对OSPF的快速收敛进行分析。对于OSPF来说,缩短hello报文时间间隔可以有效加快故障检测速度;当然缩短hello报文时间间隔也可以提高邻居关系的建立.(要注重的是存在冗余路径时,因为会计算选路切到冗余路径,快速Hello对于加快邻居关系建立的意义不大); 快速Hello的设计目标是用于多路访问网络,比如以太网,ATM网络,当多个路由器通过一个二层以太网交换机或者ATM交换机相连时,链路的UP/Down被二层交换机隔离,邻居检测不到,这导致邻居丢失需要靠软件Hello机制来保障。而以OSPF为例,缺省的Hello interval为10秒,路由器缺省情况在4个Hello interval内收不到对端的Hello报文,认为邻居丢失。这导致需要至少40秒才能检测到邻居丢失,然后引发SPF计算,重新选路。 对于一个注重高可用性的网络来说,40多秒的收敛时间显然难以接收。因此,快速Hello特性应运而生,设备通过答应把Hello Interval设到最小50ms,从而提高邻居丢失的检查速度。 但是,另一方面需要注重的是快速Hello也同时会带来很多负面影响。由于Hello报文本身会携带较多信息,同时部署环境是多路访问网络,邻居往往较多,OSPF Hello报文发送过快,会给路由器的CPU带来沉重负担,过载时,会导致路由故障误报,反而引起不必要的路由振荡。因此,在部署快速Hello时,必须由有经验的工程师根据设备CPU处理能力和网络部署情况,谨慎调整Hello 间隔时间。  
c) 自动侦测功能
自动侦测(Auto detect)通过验证网络一组目的IP是否可达,从而给设备提供一个判定本设备的一条链路是否正常的依据。其他网络功能可以通过该依据实现对相关链路的监控,当相应链路发生状态切换时可以根据具体情况做相应动作。自动检测支持侦测组的设置。每一个侦测组是多个目的IP地址的集合。用户可以设置这些IP地址集合之间的关系(或还是与)。自动检测利用ICMP的Request/Reply报文,定期检测侦测组的IP的网络连通状况,保证设备能够及时感知到网络中发生的故障。 目前,静态路由、VRRP、接口备份、均可以实现与自动侦测的联动。从而保障网络中故障的及时恢复,尽可能的缩短MTTR。比如,用户可以将某条静态路由和某个侦测组进行绑定,利用自动侦测来监控网络中某条链路的状况。在链路正常时,静态路由不可用。假如该链路一旦发生故障静态路由则自动起用。对于VRRP和接口备份的具体联动方式,我们在后面的章节中再具体阐述。  
d) VRRP
VRRP全称Virtual Router Redundancy Protocol(虚拟路由冗余协议)。简单来说,VRRP是一种容错协议,它保证当主机的下一跳设备坏掉时,可以及时的由另一台设备来代替,从而保持通讯的连续性和可靠性。为了使VRRP工作,首先要创建一个虚拟IP地址和MAC地址,这样在这个网络中就加入了一个虚拟网关。而这个网络上的主机与虚拟网关通信,无需了解这个网络上物理设备的任何信息。一个虚拟网关由一个主设备(Master)和若干个备份设备(Backup)组成,主设备实现真正的转发功能。当主设备出现故障时,备份设备成为新的主设备,接替它的工作。 VRRP中只定义了一种报文——VRRP报文,这是一种组播报文,由主设备定时发出来通告它的存在,使用这些报文可以检测虚拟设备各种参数,还可以用于主设备器的选举。 VRRP中定义了三种状态模型:初始状态(Initialize)、活动状态(Master)、备份状态(Backup)。其中,只有活动状态可以为到虚拟IP地址的转发请求服务。 VRRP协议是在Cisco的私有协议HSRP协议的基础上制定出来的,对应的RFC是2338。 VRRP简化了HSRP提出的机制,尽量减少了由提供冗余功能给网络带来的额外负载,例如HSRP规定虚拟设备有六种状态,而在VRRP中只有三种;HSRP中有两种状态可以发送报文,且报文类型有三种,而VRRP中只有Master状态的设备可以发送报文,而且报文也只有一种。HSRP报文是封装在UDP报文上的,而VRRP报文是封装在IP报文上的,支持各种上层协议。同时VRRP还支持将真实接口IP地址设置为虚拟IP地址。 由于VRRP通过检测报文监控VRRP备份组中的主设备的活动状况,因此对主设备的上行链路发生故障所导致的链路故障就无能为力了。这时将导致主设备正常运转,但业务中断的情况。华为-3com的VRRP提供了对上行链路的监控功能,从而避免了这种情况的发生,提供了更为可靠的    组网方案,极大的减小了MTTR。 VRRP提供了两种监控上行链路的方式。 l         利用自动侦测功能 VRRP可以与自动侦测的多个侦测组的状态实现联动。当某一个侦测组的状态变为不可达后,VRRP的优先级降低一定的数值(用户可以设置)。通过优先级的变化从而影响到VRRP备份组中主备状态的切换。 优点:可以随意监控网络中的链路状态,组网灵活 缺点:监控通过监控报文来实现,对切换速度有一定影响   l         直接监控三层接口的状态 VRRP直接监控设备中的多个三层接口的状态,当某一个三层接口DOWN掉后,VRRP的优先级降低一定的数值(用户可以设置)。通过优先级的变化从而影响到VRRP备份组中主备状态的切换。 优点:直接响应接口状态变化,提供了更快的切换速度。 缺点:只能监控本机的接口状态,对链路的监控有一定局限  
e) 接口备份
接口备份是一种利用自动侦测来实现三层接口备份的功能。一个接口备份组中包含两个到达同一目的设备的两个三层接口,一个主接口,一个备份接口。主接口负责业务流量的转发,备用接口处于down状态。备份组通过侦测组来监控网络中的某一链路的状况。当链路出现故障时,设备能自动启用备份接口,保障业务的畅通。当侦测组的链路恢复正常,主接口随之恢复,备份接口重新切换为standby状态。这种接口备份适用于两条链路不希望负载分担,只希望提供链路备份的情况。
3) 4-7层
a) 负载均衡设备完成对业务的优化
数据中心解决方案引入负载均衡设备对数据中心服务器群访问的负载均衡和冗余备份,以及网络加速,流量工程等一系列优化措施都是针对目前的数据中心,考虑到数据中心是整个网络系统的核心,需要优化各项业务的运行,使整个网络达到最佳状态; 如同第二层交换跨越到了第三层交换一样,为了进一步提高网络的QoS引入了第四层交换的概念。第二层与第三层交换在解决局域网和网络互联的QoS问题了发挥了很好的作用,但是对于当前的网络来说还是不够的,还需要进一步提高性能,这就需要在更高层上引入交换的概念。 我们知道OSI协议参考模型定义了7层结构,网络层上也就是第四层是传输层。传输层主要是负责端对端的通信。传输层有很多的协议,常用的有TCP,UDP协议。这些协议承载了许多不同的业务。这些业务通常由一些诸如HTTP,FTP,NFS,Telnet等协议来表示,而协议的类型由TCP或UDP端口地址来决定。就如同第二层的传输是依靠MAC地址来寻址,第三层的传输是依靠IP地址来寻址,那么第四层的主要表示就是端口地址,只有端口地址可以区分数据包是由哪个协议传送的。分配端口号的清单可以在RFC1700中找到。TCP/UDP端口号提供的附加信息可以为网络交换机所利用,这是第4层交换的基础。 第四层交换中数据包的传输不仅仅依据MAC地址(第二层交换)或源/目标IP地址(第三层路由),还要依据TCP/UDP端口地址(第四层地址)。也就是说第四层交换除了考虑三层的逻辑地址外还要考虑对端口地址的交换。如同上面所描述的一样,端口地址代表了不同的业务协议,所以第四层交换不仅仅进行了物理上的交换,还包括了业务上的交换;第四层交换的交换域是由源端和终端IP地址、TCP和UDP端口共同决定的,因此,第四层交换机是真正的“会话交换机”。 在第四层交换大大提高了网络性能和QoS保证之后,在更高的层次上同样引入了交换的概念,也可以称之为第七层交换技术,或者高层智能交换。 第七层交换技术可以定义为数据包的传送不仅仅依据MAC地址(第二层交换)或源/目标IP地址(第三层路由)以及TCP/UDP端口(第四层地址),而是可以根据内容(表示/应用层)进行传送。 这时候的交换突破了一般意义上的交换概念,开始进入以进程和内容级别为主的交换范围。高层由于和应用相关,这时候的交换就有了智能性,交换机具有了区别各种高层应用和识别内容的能力。这时的交换机不仅能根据数据包的IP地址或者端口地址来传送数据,而且还能打开数据包,进入数据包内部根据包中的信息作出负载均衡、内容识别等判定。 对于某一个端口来说,在第四层交换时可以通过对端口进行交换来获得较好的QoS,但是对于通过这个端口的传输流没有办法识别,只能对所有通过这个端口的传输流统一对待,而服务提供商或许需要其中的某些传输流具有高的QoS优先处理权或者将某些流引向性能高的处理机中。而第七层的智能性交换能够实现进一步的控制,即对所有传输流和内容的控制。这种交换机可以打开传输流的应用/表示层,分析其中的内容,因此可以根据应用类型而非仅仅根据IP和端口号做出更智能的流向决策。其中的一个典型例子就是根据URL的具体内容的识别交换。  

3.1.2       网络构架

1.    先进的“分区”理念

在设计高可用性时,很轻易将网络可用性与冗余性等同起来。但事实上,冗余性只是整个可用性架构中的一个组件,一味的提高网络冗余性反而会降低可用性。可以从下面几个方面来阐述:
l         增加冗余性提高网络的复杂度,还同时增加了网络的配置和治理的复杂度。增加了因误操作导致网络问题的可能性。 l         增加冗余性,也增加了各冗余层面之间的配合联动要求。当网络发生故障后,反而可能增加切换的时间。   数据中心解决方案在数据中心架构设计中突出了对数据中心网络“分区”的理念。没有一味的强调整网的冗余性,而是在根据数据中心中各种业务应用的区别将网络划分为不同的区域。采用这种分区的网络架构设计可以有效的提高整网的可靠性: l         分区的结构简化了网络设计,避免了复杂的网络拓扑。 l         分区的结构可以很轻易复制和重构。随着数据中心的发展在网络扩展时,也不用重新规划整个网络,只需要重新设计一个分区或者增加新的分区,保证了网络的稳定性。 l         分区的结构可以很方便的实现分区间的网络隔离。给网络运行中的故障隔离和定位提供了极大的便利。 l         分区的结构可以隔离不同分区之间的故障,尽可能的保障核心业务的可治理性。 l         分区的结构可以让用户能够根据单个分区的业务对核心业务的影响制定有针对性的可靠性策略。在保证整网可靠的前提下,尽最大可能的节约用户成本。  

2.    高可用的设备治理

本数据中心解决方案独立的带内带外治理网,数据和治理分离,保障所有设备的可治理性。数据和治理分离是方案的一大特点,这样可以确保对网络的治理不受数据的影响,使各网络设备实时出于网络系统治理之中,不受任何攻击的干扰,同时对网络情况进行监控,网络故障能得到实时处理。   4           典型应用组网 数据中心解决方案高可用技术白皮书(图十)
点击查看大图
  图表 11 数据中心解决方案的典型组网   数据中心解决方案高可用技术白皮书(图十)
点击查看大图
图表 12 数据中心解决方案中HA特性部署总图