《企业同城灾备系统解决方案建议书.pdf》由会员分享,可在线阅读,更多相关《企业同城灾备系统解决方案建议书.pdf(61页珍藏版)》请在三一文库上搜索。
1、XX集团同城灾备系统 解决方案建议书 赛门铁克软件(北京)有限公司 2012 年 5 月 2 / 61 目录 1 前言 . 3 2 XX建立灾备系统的意义分析 4 3 XX集团灾备系统总体设计 5 3.1 本次灾备系统覆盖的范围. 5 3.2 灾备系统建设目标. 5 3.3 本次灾备系统的整体建议. 5 4 XX集团灾备系统的具体实现 9 4.1 第一步:本地备份整合. 9 4.2 第二步:同城灾备建议方案一(NBU 远程备份 ) 13 4.2.1 方案一的详细设计. 13 4.2.2 AIR技术的特点和优势 18 4.2.3 远程数据的验证. 19 4.2.4 灾备系统的统一监控和管理. 2
2、1 4.2.5 方案一的优势 . 23 4.3 第二步:同城灾备建议方案二(Storage Foundation VVR 远程复制 ) 24 4.3.1 方案二的详细设计. 24 4.3.2 VVR的实现原理和特点 . 29 4.3.3 网络故障条件下的复制模式切换. 31 4.3.4 本地存储系统的加固(可选 ) 32 4.3.5 应用级容灾初步探讨. 34 4.3.6 灾备系统的统一监控和容灾演练. 38 4.3.7 方案二的优势 . 40 5 财务公司灾备系统的实现. 41 6 方案所需的产品和初步报价. 42 7 主要涉及的产品简介. 45 7.1 NetBackup 备份软件 45
3、7.2 Storage Foundation 容灾软件 54 8 赛门铁克灾备成功案例列表. 60 3 / 61 1 前言 十分感谢XX 集团的领导和专家对赛门铁克公司的信任和支持,给我们一个机会参与 贵处容灾系统方案的设计。赛门铁克将全力以赴为本次项目的顺利实施做出贡献。 作为全球一流的计算机软件公司和开放系统的领导者,赛门铁克公司拥有完善的信息 处理技术和丰富的应用经验。赛门铁克公司在存储管理及灾备领域有着丰富的经验,并熟知 灾备建设相关的国家标准 信息系统灾难恢复规范-GB/T 20988-2007,严格按照国 家标准和行业法规,赛门铁克公司充分利用自身的产品与技术优势,设计适合XX 集
4、团的灾 备系统。 赛门铁克公司为XX 集团提供的灾难恢复方案具体以下特点和优势: 深刻理解灾备建设相关的国家标准 信息系统灾难恢复规范-GB/T 20988-2007,并严格按照其规定设计解决方案,为客户达到国家及行业的灾备 建设规范提供可靠的条件 赛门铁克根据多年容灾项目经验总结归纳了业务连续和灾难恢复建设方法论, 可以系统的指导灾备系统的建设 完整详尽的数据远程备份和灾难恢复方案,赛门铁克能够提供从服务器、网络、 存储、 SAN 等全面容灾解决方案 大量实施案例, 经过验证的容灾系统实施和支持能力,丰富的实施经验和人员, 强大的专人支持 赛门铁克公司在国内已经成功地为众多客户实施了容灾系统
5、。希望以我们在灾备系统建 设中积累的丰富经验和技术,为XX 集团本次灾备系统的建设做出贡献。 4 / 61 2 XX 建立灾备系统的意义分析 XX投资公司( XX 集团)是中央直接管理的国有重要骨干企业之一,下设11 个全资子 公司和 13 个控股子公司,拥有三级以上全资和控股投资企业176 家,其中包括5 家控股上 市公司,公司在国民经济发展中发挥着重要的作用。 对于总公司来说,管理这么大规模企业的难度不小,挑战也很多。在信息化方面, 当越 来越多的员工已经习惯于、依赖于IT 技术的环境下,任何关键信息系统运转的中断或者数 据的丢失都将导致不可估量的损失和广泛的影响。 当然, XX 的信息管
6、理部门早就有了危机意识,也已经通过多种技术手段尽力避免危机 的产生。 比如采用了本地双机热备、数据备份等, 增强了业务系统的高可用性和数据的安全 性, 在一定程度上避免了由于软硬件故障、人为操作失误等因素引起的系统停机或数据丢失。 但是,在目前的数据中心,如电源(UPS) 故障、空调故障、管道漏水、消防喷嘴故障、 烟感探测系统故障、火灾等不可预测的灾难时有发生,这时建立远程灾备系统,利用各种技 术和管理手段将这些致命的灾难化解就具有重要的意义。 建立灾备系统可以给XX集团带来如下的价值: 重要业务数据在灾难发生后得以保护。 重要业务在灾难发生后可以在一定的时间内恢复,连续运行。 业务计算机系统
7、抵御灾难的级别提高。 提升了关键业务系统的高可用性,减少计划性停机对业务的影响。 在生产系统正常运转的情况下,容灾系统还可以被用来开展诸如数据挖掘、经营分 析等增值业务。 5 / 61 3 XX 集团灾备系统总体设计 3.1 本次灾备系统覆盖的范围 本次灾备系统将集团公司的IT 系统和财务公司的IT系统一并考虑,但鉴于集团公司和 财务公司不同系统的RPO和 RTO要求不同,建议的灾备技术也具有各自的针对性。 据初步统计,集团公司目前有2 台 IBM P570 小型机, 20 台左右的Windows PC服务器 和 1台 Linux PC服务器;财务公司目前有2 台 IBM P520 小型机和
8、6-7 台 Windows PC 服务器。 本次针对这些服务器和应用系统将设计不同的灾备技术和策略。 3.2 灾备系统建设目标 容灾系统在实践中主要表现为两个方面:一是保证企业数据的安全;二是保证业务的连 续性。 通过在生产站点和灾难恢复站点运行同样的系统,包括操作系统、 基础数据库和应用 软件,并通过IP 或 FC通道完成实时或异步的数据复制。 假如生产站点突发灾难,不能再继续工作, 这时容灾中心会将业务数据及时恢复到备用 服务器上,并迅速将业务系统加载到备用服务器,然后实现业务的远程切换(Fail-over),恢 复应用系统不间断的运行;在此基础上,在灾难过后,生产系统恢复正常后,再将业务
9、运行 切换回正常的生产系统,实现业务系统的灾难恢复(Fail-back) 。 本次项目, XX 集团重要数据的异地保存是首要需求,首先要保证数据的远程可用,另 外对于总公司和财务公司的一些关键业务系统,将考虑一定程度的应用级容灾。 3.3 本次灾备系统的整体建议 一个较为完善的灾难恢复系统主要包括三个部分:数据容灾系统、 应用容灾系统和容灾 演练系统。可以说,数据容灾是抗御灾难的基本保障,应用容灾则是灾难恢复系统建设的 最终目的,而容灾演练系统最终保证容灾系统的正常运行。 考虑到不同系统RPO和 RTO的需求不一样,本次灾备系统的整体建议如下: 6 / 61 对于 XX总部,我们提供两个方案供
10、您选择,这两个方案的效果和投资成本均不同: 1.使用 NetBackup 软件整合本地所有数据的备份,再把备份的数据自动复制一份到 远程保存,具体的指标见下表: 系统名称型号数量灾备技术选择参考的 RPO范围参考的 RTO范围容灾级别 ERP核算、 人力 IBM P570 16Core 4 个分区 2 NetBackup 本地备份 整合 +远程备份 RPO 24 小时 1 小时 -24 小时 RTO 48 小时 2 小时 -48 小时 国标第 4 级 ERP数据库 测试系统 资金管理 集团 OA 数 据库 Windows 应用服务 器 PC服务器 10 个应用 +10 个数 据库 20 Net
11、Backup 本地备份 整合 +远程备份 RPO 24 小时 1 小时 -24 小时 RTO 48 小时 2 小时 -48 小时 国标第 4 级 培训系统 Linux PC 服务器 1 NetBackup 本地备份 整合 +远程备份 RPO 24 小时 1 小时 -24 小时 RTO 48 小时 2 小时 -48 小时 国标第 4 级 2.使用 NetBackup 软件整合本地所有数据的备份,同时包括 2 台小型机在内的所有 关键服务器利用Storage Foundation 的 VVR复制软件将重要的数据准实时的复制 到远程,如果需要,Storage Foundation 的 GCO功能还能
12、实现业务的远程切换。 关键服务器暂定为2 台 Unix 小机和 10 台应用服务器 (5 个应用 +5 个数据库 ),数 量可根据需求进一步调整。其余服务器上的数据通过NetBackup 的远程备份来实 现数据级的灾备。 另外,方案二还可以利用Storage Foundation 的镜像功能在本地数据中心对关键 7 / 61 服务器实现双机双柜,加强本地存储系统的高可用性。 具体的指标见下表: 系统名称型号数量灾备技术选择参考的 RPO范围参考的 RTO范围容灾级别 ERP核算、 人力 IBM P570 16Core 4 个分区 2 NetBackup 本地备份 整合 Storage Foun
13、dation + VVR远程复制 RPO 30 分钟 1-30 分钟 RTO 8 小时 2 小时 -8 小时 国标第 5 级ERP数据库 测试系统 资金管理 Windows 关键应用 服务器 PC服务器 5 个应用 +5 个数据 库 10 NetBackup 本地备份 整合 Storage Foundation + VVR远程复制 RPO 30 分钟 1-30 分钟 RTO 8 小时 2 小时 -8 小时 国标第 5 级 Windows 非关键应 用服务器 PC服务器 5 个应用 +5 个数据 库 10 NetBackup 本地备份 整合 +远程备份 RPO 24 小时 1 小时 -24 小时
14、 RTO 48 小时 2 小时 -48 小时 国标第 4 级 培训系统 Linux PC 服务器 1 NetBackup 本地备份 整合 +远程备份 RPO 24 小时 1 小时 -24 小时 RTO 48 小时 2 小时 -48 小时 国标第 4 级 对于财务公司,鉴于业务的连续性要求较高,我们建议在利用NetBackup 本地备份整 合的基础上,直接使用Storage Foundation VVR远程灾备的方式,具体的指标如下: 系统名称型号数量灾备技术选择参考的 RPO范围参考的 RTO范围容灾级别 集团 财务管理 IBM P520 2 NetBackup 本地备份 整合 Storage
15、 Foundation + VVR远程复制 RPO 30 分钟 1-30 分钟 RTO 8 小时 2 小时 -8 小时 国标第 5 级 8 / 61 Windows 前置机 PC服务器 7 NetBackup 本地备份 整合 Storage Foundation + VVR远程复制 RPO 30 分钟 1-30 分钟 RTO 8 小时 2 小时 -8 小时 国标第 5 级 9 / 61 4 XX 集团灾备系统的具体实现 4.1 第一步:本地备份整合 本地数据备份的整合是建立灾备系统的基础,因为数据同步复制技术不能完全代替备份 的功能,即使使用了数据同步复制技术,也有可能需要将数据恢复到历史的时
16、间点。 XX集团现在已经对关键的数据库系统进行了在线备份,但OA 和 ERP等不同的业务系 统采用了不同的备份技术,而且操作系统和部分服务器上的文件还没有进行备份,建议XX 建立一个统一的数据备份和管理平台,将所有的PC服务器和小型机都纳入进来,涵盖包括 文件、操作系统和数据库等全部重要的内容,作为灾备系统的建设的后备保障力量。 目前,集团公司有2 台 P570 小型机,每个小型机分为4 个分区,运行着ERP核算、人 力、预算合并、数据库、测试系统等;2 台小机为主备集群。数据库为Oracle 数据库,版本 为 9i,由于数据库版本较低,近期准备升级到11g。 另外还有大约20 台 Windo
17、ws PC 服务器,约10 个应用系统,架构均为1 台应用服务器 +1 台数据库服务器,数据库有SQL Server、Oracle 和 Domino 等。之外还有1 台 Linux 服务 器作为培训系统。 本地备份整合的拓扑如下所示: 10 / 61 结合 XX 集团的实际情况,建议是利用SAN 和 LAN 的存储架构, 采用目前最先进的新 型 LAN-Free备份技术并结合LAN 的备份技术,来减轻局域网的压力,是目前最成熟的技 术解决方案。推荐采用Symantec Netbackup (以下简称NBU) 企业级备份软件作为统一 的备份和管理平台来满足用户的需求。 NBU 是目前业界市场占有
18、率第一的备份软件,其主要模块如下: NetBackup主服务器( Master Server)负责管理制定全域内的备份策略和跟踪客户 端的备份,能够管理磁盘空间和磁带库,实现多个客户端的数据备份。NetBackup主服务 器是备份域内集中管理的核心。一般一个备份域配置1 台 Master Server即可。 企业客户端(Enterprise Client )可以让备份的客户端直接连接和管理备份设备,具 有介质管理服务器的角色,这样客户端可以自己备份自己,不用再向备份服务器传送数据。 可用利用效率更高的SAN 网络,而不用占用LAN 网络带宽。企业客户端上如果有数据库 11 / 61 需要在线备
19、份,还需要安装数据库代理模块(Database Pack)。 标准客户端 (Standard Client) 可以让备份的客户端通过LAN 网络进行备份。所有备 份的数据均需发送到备份管理服务器,由备份管理服务器写入备份设备。标准客户端上如果 有数据库需要在线备份,也需要安装数据库代理模块。 本次建议采用NBU5220备份一体机实现备份环境的整合和统一备份,NBU5220的 本质是” NBU管理服务器 + 备份设备”,既承担了整合备份域的统一管理功能,又提供高 性能大容量的磁盘备份空间,并且完全集成NBU 的重复数据删除功能,优化了整个数据中 心的备份性能。 如上图所示: XX 集团原有的系统
20、架构无需做任何改变,只需要增加1 台 NBU5220备份一体机设备, 该设备前端连接以太网,后端连接SAN 网络,提供LAN 和 LAN-FREE等多种备份模式的 支持。 NBU5220提供新型的LAN-FREE备份技术 ( 又叫做 SAN Client技术 ) ,使用这种技 术进行备份, LAN-FREE的客户端无需连接和管理备份设备,只需要利用SAN 网络将备份 数据备份到NBU5220即可。由于无需客户端管理备份设备,降低了对客户端本身资源的 占用,也减少了备份设备变更对客户端的影响,客户端的备份效率和整个备份系统的扩展能 力大大增强。 备份的客户端只需安装NBU 客户端代理, 进行 L
21、AN-FREE备份的客户端安装NBU 企 业客户端代理,进行LAN 备份的客户端安装NBU 标准客户端代理,所有的数据库和应用 程序服务器再安装数据库代理模块,提供对数据库进行在线的热备份。 12 / 61 NBU5220预装了 NBU 备份软件,支持NBU 软件的所有新功能,包括NBU7.5最新 的备份加速功能,可将文件系统的备份速度最高提高100倍以上。另外,使用NBU5220 内置的重复数据删除功能,可对整个备份域进行全局消重,降低了对备份空间的占用,可以 让 5220存储更多的备份数据。NBU5220的硬件指标如下: 产品规范 形态构架2U 主柜 +3U扩展柜 CPU 双 Intel
22、E5620 CPU 内存24GB或 48GB DDR 内存 存储设备 主柜 : 2 x 1TB SATA系统盘 , 8 x 1TB SAS 数据盘 扩展柜 : 16 x 2TB 或 16 x 3TB SAS 磁盘 服务端口 6 个 1Gb 以太网端口 可扩展为 2 个 10Gb 以太网端口 可扩展为6 个 8Gb FC 端口 使用 NBU5220构建统一的备份域具有以下明显的优势: (1)提供管理服务器和备份空间等一体化方案,简单易用 (2)内置 NBU 备份软件,支持NBU 所有的新功能和新技术 (3)内置重复数据删除功能:支持10-50倍的压缩,节省最多99% 的带宽 (4)提供源端和目标
23、端的重复数据删除位置,方便用户的灵活选择 (5)高可用硬件设计,提供99.95%的可用性 (6)操作和配置简单易用:只需要几分钟时间就可以完全配置好 (7)支持磁带的出库,可与磁带库完美配合 13 / 61 整个集团公司的统一备份平台所需的软硬件模块列表整体如下: 所需硬件: NetBackup 5220 名称主要描述数量 NBU5220备份一体机提供备份管理和磁盘备份空间的一体化硬件设备1 所需软件 :NetBackup 7.5 Enterprise Server 备份管理服务器授权,Linux平台1 Enterprise Client LAN-Free备份客户端,Unix 平台2 LAN-
24、Free备份客户端,Windows平台10 Standard Client LAN 备份客户端,Windows/Linux平台11 Database Pack 数据库和应用在线备份模块,Unix 平台2 数据库和应用在线备份模块,Win/Linux平台10 Data Protection Optimization 重复数据删除模块,1TB 容量授权10 4.2 第二步:同城灾备建议方案一(NBU 远程备份 ) 4.2.1 方案一的详细设计 方案一建议利用Symantec Netbackup 备份管理平台实现备份数据的远程复制,整个复制 过程基于容灾链路完全自动化运行,这样基本达到国标第3 级的
25、容灾目标;另外,建议在容 灾中心设立若干台应用服务器,例如可以为每一类服务器(Unix 和 Windows)配置 1 台备机, 定期把备份数据在远程的应用服务器上进行恢复,以进行验证或使用,这样可达到国标第4 级的容灾目标。国标第4 级的具体要求如下: 第 4 级:电子传输及完整设备支持 要素要求 14 / 61 A.4.1 数据备份系统a) 完整数据备份至少每天一次; b) 备份介质场外存放; c) 每天多次利用通信网络将关键数据定时批量传送至备用 场地。 A.4.2 备用数据处理系统a) 配备灾难恢复所需的全部数据处理设备,并处于就绪状 态或运行状态。 A.4.3 备用网络系统a) 配备灾
26、难恢复所需的通信线路; b) 配备灾难恢复所需的网络设备,并处于就绪状态。 A.4.4 备用基础设施a) 有符合介质存放条件的备用场地; b) 有符合备用数据处理系统和备用网络设备运行要求的场 地; c) 有满足关键业务功能恢复运作要求的场地; d) 以上场地应保持7*24 运作。 A.4.5 技术支持在备用场地有: a) 7*24专职计算机机房管理人员; b) 专职数据备份技术支持人员; c) 专职硬件、网络技术支持人员。 A.4.6 运行维护支持a) 有介质存取、验证和转储管理制度; b) 按介质特征对备份数据进行定期的有效性验证; c) 有备用计算机机房运行管理制度; d) 有硬件和网络
27、运行管理制度; e) 有电子传输数据备份系统运行管理制度。 A.4.7 灾难恢复预案有相应的经过完整测试和演练的灾难恢复预案。 为保证灾备机房设备运行环境的正常,需要为灾备机房增配机房环境监测、UPS 电源、 机柜等基础设施,保证机房条件满足设备运行环境。 整体拓扑如下所示: 15 / 61 方案一建议在灾备中心配置1 台 NBU5220备份一体机设备,生产机房和灾备机房之 间通过 IP 链路连接即可。 灾备机房的NBU5220设置为 Master Server的角色,利用 NBU 的 AIR 技术把生产机房的Master Server上的备份数据复制到灾备机房的Master Server 上
28、。 生产机房的NBU5220与灾备机房的NBU5220需要能够正常通信,但彼此的通信并 不频繁, 只有在需要复制数据的时候才会互相通信,减少了由于通信问题或者网络问题影响 复制的隐患,确保了整个复制架构的稳定性。另外由于远程的NBU5220构成了一个单独 的备份域,这样一旦本地的备份域完全瘫痪也可以在远程进行恢复。 下面就灾备系统的实现过程做一个简单的描述: 复制的功能通过NBU 存储生命周期策略来实现。首先在生产机房的NBU5220上建立 一个存储生命周期策略,在这个策略中将主站点的NBU5220作为第一级备份设备,将远 16 / 61 程的 NBU5220作为第二级备份设备。然后在生产机房
29、的NBU5220上创建针对于每个备 份客户端的备份策略,在这个备份策略中,调用存储生命周期策略。这样在备份时,客户端 的数据会先发送给本地的NBU5220,写入完成后不久便会自动复制到远程的NBU5220 上,整个过程完全自动化执行。在灾备机房的NBU5220上面创建一个同样名称的存储生 命周期策略,生产机房的NBU5220和灾备机房的NBU5220互相验证,这样,复制过来 的数据会自动导入灾备机房的NBU5220上。 当生产机房的业务系统发生故障导致数据丢失时,优先从本地的NBU5220中进行还 原。如生产机房遭遇重大灾难时,无法从本地进行还原,可以在异地重建业务系统,从异地 数据备份进行还
30、原,以保证数据安全和信息系统及时恢复正常运行。这种情况, 需要在远程 为每一类操作系统主机设置1 台或多台备机,以便在远程恢复和验证数据。目前,NBU 的 AIR 技术不仅支持对数据的远程复制和异机恢复,还支持对操作系统的远程复制和异机恢复, 这样,整个灾备系统的RTO 值将进一步降低。 备份管理员可以决定客户端的数据是否复制到远程,因为在很多时候,非重要的客户端 上的数据, 或者是重要的客户端上的非重要数据是没有必要复制到远程的,只在本地备份磁 盘上保存即可。 这样,一方面是减轻备份管理服务器备份和复制的压力,另外也节省了对灾 备链路带宽的抢占,保证灾备链路的带宽主要用于重要数据的复制。 提
31、到灾备链路的带宽,一个基本原则是要保证一个全备份在合理的时间内(比如说12 小时,时间越长,RPO 就越大 )可以复制过去。 目前集团公司的数据总量还不算大,全备份大约在几百GB ,关键数据库的增量每天大 约 5GB ,建议租用一条10Mb以上的 SDH 备份专用线路作为灾备数据传输线路。生产机 房和灾备机房各需要1 套路由交换设备接入灾备专用网络。 17 / 61 以 10Mb SDH 链路举例,假如链路带宽有效地传输效率为80% ,每小时可以复制的 数 据 为 : 10/8*0.8*3600/1024=3.5GB, 那 么24小 时 可 以 复 制 的 数 据 为 : 3.5*24=84G
32、B。实际的传输效率可能会更小一点。因此,我们认为在这种灾备链路的条 件下,假如不使用重复数据删除技术,全部的灾备数据应控制在100GB左右,这就要求管 理员需要明确区分重要和非重要的数据。 如果结合备份软件的重复数据删除功能,那么可以在本地备份时消除备份的重复数据。 这个功能非常好,这意味这需要复制的数据大幅减少。以平均1:8的消重率计算,假如原 来备份的数据为800GB ,那么使用消重技术之后,实际占用的空间仅为100GB ,这意味 着在 10Mb的窄带链路下,可以承担的数据复制总量将提高8 倍,达到800GB 。 在灾备系统当中,最可能成为备份瓶颈的就是灾备链路带宽,今后如果数据传输的时间
33、 过长,可考虑进一步增加链路带宽。 采用 NBU5220构建灾备系统,简单易用,优势明显: 1.NBU5220即插即用,配置非常简单( 最快几分钟即可完成配置) ,对现有环境改 造的影响极小。 2.直接支持基于IP 灾备链路进行复制,对复制带宽的要求不高。 3.NBU5220支持 NBU7.5最新的各种功能,没有任何兼容性问题。 4.可以本地备份的数据和需要容灾的备份数据分开,减轻对灾备网络资源的占用。 5.NBU5220的网络穿透能力很强,可以用在一个备份域内部复制,也可以用在多 个备份域之间复制。 6.在远程灾备中心的部署简单,不需要额外的介质服务器,管理和配置也很便捷。 方案一所需的软硬
34、件模块列表如下: 18 / 61 所需硬件: NetBackup 5220(用于灾备 ) 名称主要描述数量 NBU5220备份一体机提供备份管理和磁盘备份空间的一体化硬件设备1 PC 服务器用于远程恢复和验证数据,暂定2 台2 所需软件 :NetBackup 7.5(用于灾备 ) Enterprise Server 备份管理服务器授权,Linux平台1 Data Protection Optimization 重复数据删除模块,1TB 容量授权10 Standard Client LAN 备份客户端,Windows/Linux平台 用于远程的异机恢复 2 4.2.2 AIR 技术的特点和优势
35、上节提到,方案一是用NBU AIR技术实现备份数据的远程灾备。AIR是 NBU7.1 的新功 能,全称是Auto Image Replication ,主要的作用是将一个备份域的备份数据复制到另外一个 备份中,然后可以在另外一个备份中恢复和验证数据。NBU 是唯一支持该技术的产品。 19 / 61 其主要特点如下: 1.自动的在两个独立的备份域间复制备份映像 2.数据自动的导入到目标备份域的目录库,无需人工干预 3.与重复数据删除技术集成,优化复制带宽 4.支持对数据和BMR(操作系统裸机恢复)的远程复制和异机恢复 5.数据可进一步在容灾站点复制到磁带及出库保存 4.2.3 远程数据的验证 由
36、于重要应用系统对数据可恢复性以及RTO 指标要求较高,建议在灾备中心定期将复 制的备份数据在恢复环境中进行恢复测试,一方面验证数据的可恢复性,另一方面对恢复操 作进行演练,以保证RTO指标。 在管理上, 建议将业务级别与恢复演练策略结合起来,根据业务的重要行规划恢复演练 策略。例如,针对高级别的业务系统,加大演练频率;对于低级别的业务系统,适当延长演 20 / 61 练频率。 建议 XX集团对一级业务系统,每一个月进行一次恢复演练;二级业务系统,每一季度 进行一次恢复演练;三级业务系统,没半年进行一次恢复演练。 普通的文件类数据的验证比较简单,在灾备中心的服务器上安装NBU 的客户端,直接 将
37、复制过去的数据恢复到远程的客户端上即可。 数据库的恢复略微复杂,需要在远程的服务器上部署与生产中心相同的数据库系统,建 立相同的数据库结构和参数,可手工配置,也可以利用NBU 的 BMR 功能做异机恢复,然后 再利用 NBU 的数据库代理恢复数据库数据,并将数据库Mount 进行读写验证。 另外,针对Oracle 数据库,可以利用NBU 独有的 Oracle 克隆功能进行验证。Oracle 克 隆功能能通过向导式图形界面将Oracle 恢复到其他目录或其他服务器,用于测试等目的, 极大地降低了数据库管理员的工作难度,参见下图。这个功能要配合生产中心的OpsCenter 监控平台来实现。 21
38、/ 61 4.2.4 灾备系统的统一监控和管理 对于 XX 集团来说, 可通过 NBU OpsCenter 平台来统一监控和管理生产机房和灾备机 房的 2个 NBU5220 备份域。OpsCenter是一个基于Web的管理平台, 可以安装在1台 Windows 服务器上,部署在生产机房,对整个灾备系统进行集中的管理和监控,如下图所示: 22 / 61 OpsCenter 提供了全面的功能: 监控和报告的内容: - 备份作业运行情况 -备份成功率 -备份数据量大小 - 备份策略设置情况 -备份介质使用情况 -备份设备 ( 驱动器 ) 状态 - 备份成功率 -备份客户端的配置 搜索、保留和恢复:
39、23 / 61 ?基于保管人、用户组、日期、文件位置和文件类型创建查询条件 ?跨备份域联合搜索扩大搜索范围 ?搜出的文件可以立即永久保留用于法规遵从或诉讼 ?能够恢复到不同位置用于:异机测试、灾难恢复演习 OpsCenter 基本功能为免费的。在OpsCenter 的基础上仅需要一个License 授权即可升 级到 OpsCenter Analytics 。 OpsCenter Analytics 属于 NetBackup 平台的一部分,可以提供高 级备份报告,以验证公司的关键任务数据库受到保护,以及RTO(恢复时间目标)和RPO (恢复点目标) 要求可以得到满足。另外还帮助备份管理员深入了解
40、数据保护基础架构,为 备份操作进行有效的业务计划。 OpsCenter 可以为 XX集团带来如下价值: 对多个备份域的备份和恢复进行报告 对生产系统和灾备系统的NetBackup 备份 和恢复环境进行集中统一的报告,每天针对所有的客户端的情况生成报告 准确评估备份成功率和可恢复能力 提供了全面的成功率报告,可有效评估关键 业务数据和应用程序的可恢复能力 长期保留数据以供趋势研究和分析之用 可通过随时了解增长率更好地预测备份 和归档存储的消耗情况。无论 XX集团是需要逐年分析趋势,还是分析很早以前的趋 势,都可以使用OpsCenter Analytics 在可配置的时间范围内保留的数据来实现 4
41、.2.5 方案一的优势 方案一通过备份软件实现备份数据的远程容灾是数据级容灾系统最基础的组成部分,也 是最简单和有效的方式。这种方式有以下一些明显优点: 1.对容灾链路的要求不高,省去了高昂的链路租用费用(容灾链路的投资占到容灾基 24 / 61 础设施投资的50%以上,而且需要持续的投资)。 2. 完全支持基于IP 网络的复制,不局限于FC 网络,降低了对FC 转 IP 设备的需求。 3. 在容灾中心无需昂贵的存储和网络设备,只需要普通的备份管理服务器和备份设备 即可,如果不需要远程应用接管,连应用服务器也可以省掉。 4. 对现有的应用系统的没有影响,复制过程完全基于备份后的数据,不需要对本
42、地应 用系统进行大规模的改造。 5. 最重要的是管理和配置简单,在容灾中心可以无人值守或只派驻少量的管理人员。 4.3 第二步:同城灾备建议方案二(Storage Foundation VVR远程复制 ) 4.3.1 方案二的详细设计 方案二与方案一并不是完全替代的关系,而是在方案一的基础上利用Symantec Storage Foundation VVR软件来对关键的数据库系统和应用系统实现更高RPO和 RTO要求的灾难备 份。关键服务器暂定为2 台 Unix 小机和 10 台应用服务器 (5 个应用 +5 个数据库 ),数量可根 据需求进一步调整。 其余服务器上的数据建议任然采用方案一Ne
43、tBackup 的远程备份来实现 数据级的灾备。 利用 Storage Foundation VVR软件来实现灾备可达到国标第5 级的容灾目标。国标第5 级的具体要求如下: 第 5 级:实时数据传输及完整设备支持 要素要求 A.5.1 数据备份系统a) 完全数据备份至少每天一次; b) 备份介质场外存放; c) 采用远程数据复制技术,并利用通信网络将关键数据实时 复制到备份场地。 25 / 61 A.5.2 备用数据处理系 统 a) 配备灾难恢复所需的全部数据处理设备,并处于就绪或运 行状态。 A.5.3 备用网络系统a) 配备灾难恢复所需的通信线路; b) 配备灾难恢复所需的网络设备,并处于
44、就绪状态; c) 具备通信网络自动或集中切换能力。 A.5.4 备用基础设施a) 有符合介质存放条件的备用场地; b) 有符合备用数据处理系统和备用网络设备运行要求的场 地; c) 有满足关键业务功能恢复运作要求的场地; d) 以上场地应保持7*24 运作。 A.5.5 技术支持在备用场地有: a) 7*24专职计算机机房管理人员; b) 7*24专职数据备份技术支持人员; c) 7*24专职硬件、网络技术支持人员。 A.5.6 运行维护支持a) 有介质存取、验证和转储管理制度; b) 按介质特性对备份数据进行定期的有效性验证; c) 有备用计算机机房运行管理制度; d) 有硬件和网络运行管理
45、制度; e) 有实时数据备份系统运行管理制度。 A.5.7 灾难恢复预案有相应的经过完整测试和演练的灾难恢复预案。 具体实现的拓扑架构如下图所示: 26 / 61 利用 Storage Foundation VVR 软件来实现灾备,从技术本身来说并不复杂,以Unix 数据 库服务器为例,简单描述下实现的过程: (1) 先配置本地的双机集群: 在本地的 2 台 Unix 小机上安装Storage Foundation HA/DR 软件 (包括 VVR 模块 ),由 于这两台小机上都有分区,因此需要在每个分区上分别安装和配置。并利用 Storage Foundation 管理存储设备上的数据卷,然
46、后在2 台小机上利用Storage Foundation 的 HA 模块配置双机集群关系。 本地可使用单存储设备,也可以再增加一台同档次的存储设备实现存储的镜像, Storage Foundation 本身就提供这样的功能,新增的存储设备无需与原设备同品牌同 型号。 详见 4.3.4 节 配置完成后, 原有的 AIX双机软件和卷管理功能由Storage Foundation HA/DR 来替代。 (2) 配置远程的服务器 27 / 61 在远程的小机上设置分区,安装相应的数据库和应用软件,然后在每个分区安装 Storage Foundation HA/DR 软件 (包括 VVR模块 ),由于远
47、程只有1 台服务器,可设置 成单节点集群模式,其他步骤与步骤一相同。 (3) 配置远程复制关系 将本地的数据卷与远程的卷通过VVR配置成复制关系, 复制时间间隔取决于数据的 变化量,由于XX的数据变化量不大,基本可以控制在30 分钟以内。 (4) 应用级灾备切换 如果需要实现应用的切换,首先需要灾备中心的网络情况满足远程访问的要求(如 DNS转换等 ),在此基础上可以通过Storage Foundation 的 GCO模块将本地的服务器 集群和远程的单节点集群统一管理,并可以实现一键式的故障切换。详见 4.3.5 节 Windows 服务器的配置与Unix 基本相同, Storage Foun
48、dation VVR 并不要求卷必须位于 SAN存储上, VVR也支持复制服务器内置硬盘卷,对于XX来说,这样更方便不同架构的灾 备的实现。 另外,关于灾备链路的带宽问题,根据目前XX总的数据量和每日数据增量的情况,初 步推荐 50Mb 专网 (这个带宽需要进一步计算和讨论)。由于 VVR直接支持基于IP的复制, 因 此,灾备链路和内网的连接直接通过IP 网络设备连接即可,无需连接SAN 网络,网络架构 更加简单,投资成本也更少。 50Mb 带宽每分钟可以传输的数据量为50/8*0.8*60=300MB , 30 分钟传输的总量为8.8G, 如果 XX在峰值情况下的30 分钟 I/O 不超过
49、8.8G,50Mb 的带宽即可以满足灾备要求。如果 灾备链路不是专用的,还有应用数据需要传输,则链路带宽还需要进一步的测算和调整。 Symantec 提供一个免费的图形化工具VRAdvisor 用于测算灾备链路带宽。VRAdvisor 是 28 / 61 一个智能化网络带宽测算工具,通过定时采集运行系统数据I/O 访问的数值,测算出VVR 需要的网络带宽。VRAdvisor 的现场测算结果可作为网络带宽设计的依据。 方案二在方案一的基础上所增加的软硬件模块列表如下: 所需硬件: 名称主要描述数量 IBM 小型机 用于灾备中心,可比P570配置略低,支持分区 技术 1 PC 服务器 作为生产机房Windows服务器的灾备机,可将 每个业务和对应的数据库安装在1 台灾备服务器 上,暂定 5 个业务需要复制级灾备,服务器可利 旧 5 FC 交换机 8 口 FC 交换机, 用于灾备机房, 如果灾备存储直 接连接服务器,则不需要配置FC 交换机 1 灾备磁盘阵列 用于存放灾备数据,可比生产机房的DS5000存 储配置略低 1 镜像磁盘阵列( 可选 ) 用于本地存储镜像,可配置1 台容量相当、性能 相仿的磁盘者阵列,无需同一品牌同一型号 1
链接地址:https://www.31doc.com/p-5576385.html