1、NetApp技术报告集群模式DataONTAP8.2的SnapMirror规模估算指南NetApp公司AmitPrakashSawant2013年10月ITR-423Ii摘要本文档面向内部NetAPP现场和渠道合作伙伴,介绍了在NetApp集群模式Data。NTAP8.2操作系统中配置复制时可以参考的SnapMirror性能信息和规模估算指导原则。不得将本文档直接分发给客户。目录1简介32范围33现场规模估算要求31.1 现场人员通常可从客户处获取的指标31.2 现场人员估算数据保护解决方案规模时需要的性能数据和指标34 SnapMirror规模估算因素45 SnapMirror性能特征55.
2、1 不同平台上的峰值SnapMirror吞吐量55.2 零传递55.3 计量65.4 NetApp性能快速参考(PQR)查看器66 RPO模型66.1 RPO建模的应用76.2 对SnapMirror性能进行微调的一般建议97基于性能数据的规模估算指导原则98附录10表格目录表1)不同平台上的SnapMirror吞吐量限制。5表2)零传递:在源控制器FAS6080上创建了500个卷,大小为5G;每个源卷具有100个Snapshot副本,这些副本均不含数据。5插图目录图I)SnaPMinor规模估算-SnapMirror目标控制器载入数据的速度有多快?41简介SnapMirror是NetApp最
3、成功的软件产品之一。NetAppSnapMirror技术为局域网(LAN)和广域网(WAN)内的数据复制提供了一个快速而灵活的企业解决方案。它是NetApp企业数据保护(DP)策略的重要组成部分。通过这项技术,您可以在同一集群内进行复制(集群内复制),也可以远程复制到另一个集群(集群间复制)。NetAppDataONTAP可以利用集成数据复制技术创建用来支持灾难恢复(DR)的副本,减轻主存储磁带备份过程的负担,将数据集分布到其他位置,并为测试和开发环境创建读/写克隆。SnapMirror是一款成熟的经济高效型解决方案,可以高效地利用存储和网络带宽,同时能够让客户在数秒钟内根据最佳恢复点目标/恢
4、复时间目标(RPO/RTO)恢复整个数据卷。有关集群模式DataONTAP中的SnapMirror的更多信息,请参阅: TR-4015:集群模式DataoNTAP8.2的SnaPMiITOr配置和最佳实践指南 集群模式DataONTAP的SnaPMirror常见问题解答2范围本报告就前几节所阐述的要点,解答了一些基本问题。估算存储平台规模时,不应完全依赖本文档进行操作,只能将其作为一个大致的参考。本报告提供的大多数结果并未考虑应用程序负载。这是不合实际的,因为所有存储系统都具有主客户端工作负载。但是,这些数据提供了一些基线衡量指标,用于衡量特定配置下SnapMirror对给定存储系统产生的影响
5、现场人员会使用SystemPerformanceModeler(SPM)来估算SnapMirror源控制器的规模。因此,在本文档中,我们会介绍如何估算SnapMirror目标控制器的规模。3现场规模估算要求估算SnapMirror解决方案的规模是设计阶段中重要的一步,它确保了在计划的时间段内完成“副本生成”或“增量更新”,同时满足RPO,且不会对用户I/O性能产生不利影响。我们对多位系统工程师(SE)和咨询系统工程师(CSE)进行了调查,就合理估算数据保护解决方案规模以及具体构建所需的性能数据和指标向他们征求了意见。3.1 现场人员通常可从客户处获取的指标这些指标包括: 数据集大小、要传输的
6、数据量以及保留期限 数据变更率 WAN链路带宽 网络带宽,而不是延迟 RPO和RTO方面的服务级别协议(SLA)3.2 现场人员估算数据保护解决方案规模时需要的性能数据和指标这些数据和指标包括: 控制器、网络链路等的饱和点是什么? 大多数客户都用过7-模式,那么,估算集群模式DataONTAP规模的调整系数又是什么? 根据平台的硬件限制,例如CPU、内存等,应推荐哪一种可以满足客户需求的复制平台? 在给定客户环境中,可以实现的最小RPO是多少?SnapMirror发送源数据的速度有多快(以MB/秒为单位),一组控制器的开销又是多少?不同控制器使用SnapMirror载入数据的速度有多快(以MB
7、/秒为单位)?我们来了解一下两个规模估算方案。图I)SnaPMirrOr规模估算-SnapMirror目标控制器栽入数据的速度有多快?SnapMirror目标载入 数据的速度有多快? 一位系统工程师想要销售FAS6280对,希望了解在镜像时可以有多少个FAS2240指向此目标FAS6280对。典型的使用情形是,从多个远程站点向一个中央数据中心复制。FAS6280可以从一组较小的系统中处理多少个流? A公司将工作外包给B公司,由B公司为A公司构建数据保护云产品或服务。B公司需要估算其存储控制器的规模,并希望了解是否构建P0D、可以使用哪些指标来确定给定POD中支持的内容量以及限制因素。他们如何知
8、道FASXXXX控制器是否饱和呢?4SnapMirror规模估算因素在集群模式DataONTAP中估算SnapMirror解决方案的规模时,切记以下几个因素。1 .数据集大小2 .数据集使用期限3 .要复制的每个卷的数据变更率4 .并发SnapMirror流数5 .SnapMirror更新频率和不同的计划6 .可用于传输已更改数据的网络带宽7 .目标卷必须大于或等于源卷;应保证目标卷在聚合中具有足够空间,否则复制传输可能会失败8 .使用存储平台进行复制;不同的平台具有不同的SnapMirror吞吐量限制9 .系统状态新系统(SnaPMirTOr源、目标或两者)现有系统+新SnapMirror关
9、系现有系统+现有SnapMirror关系+新SnapMirror关系扇入、扇出(针对上述三种情况之一)10 .复制操作限制:请查看集群模式DataoNTAP的SnaPMiITor常见问题解答第8页11 .主工作负载(客户端I/O影响)5 SnaPMirTOr性能特征本文档提供的性能数据来自数据保护工程部门、性能工程部门和工作负载工程部门。5.1 不同平台上的峰值SnapMirror吞吐量如果没有发生网络或磁盘瓶颈,而CPU利用率却很高,则表示平台吞吐量已达到峰值。吞吐量峰值主要取决于源系统的卷数。如果卷的数量很少,则CPU利用率将会不足,因为缺乏并发能力。而源系统上的大量卷、大量小文件和磁盘使
10、用期限会不太理想,进而会降低吞吐量。随着卷数增加,我们需要考虑设置和卸载时间。由于磁盘布局不如卷数量较少时理想,因此,我们还要考虑布局。表1)不同平台上的SnapMirror吞吐量限制。I并发传输数ISnapshot创建时间(秒)完成所有零传递的总时间(秒)1009742001415730018212邛毁:本数据来自集群模式DataGHtap8.2的内部T程布为布丽#90可能会有更改,、仅供叁者.文些缮晶是在系统中没有应用程序负*t魏情况下获得的。根据所用数据】济结果会有所不同。Sy唯!IADR吞吐量(MBps)M动|靠腋量舱瞰9瞥懒袅呆蹲前部赣解,因为它不会:务应用程序负载或SnapMirr
11、or:辘陋系统ONTAP8.11专防到目标獭。它悬得:在源稔甯和目标赣皖之间设置和断开这叱时间非常漫长C而在集群模式DataONTAP8.2中,至接。在集群模式Data也置和卸载会快得多。下表聊与卷数;相西零传潘布吐量媾发传物A5。815表2)零传递:在源控制器FAS6080上创建了500个卷,大小为5G.每个源卷里有100个Sn叩Shot副本,这些副本均不含数据。ISnaPShot创建时间(秒)有零传递的总时间(秒)发自集群模式DataADR吞吐量因母二程预发布版本,可3岩果是在系统嬲用数据集和控制茸初始化36547081010101100更新310450700985815,会有更改。仅供参
12、考。这些借,这些结果会有所不同。图2)端到端更新操作的总时间与关系数在集群模式DataONTAP8.2中,可以高效地处理整体零传递并进行扩展。如图3所示,零传递时间呈线性分布,每个卷大约为1秒,而在集群模式DataONTAP8.1中则为每个卷15秒。5.3 计量集群模式DataONTAP8.2中的SnapMirror引入了一种“计量”方式,可寄存和跟踪SnapMirror和/或SnapVauIt操作的数量。计量值取决于平台和内存。超过8GB内存的高端平台的计量值为100.小于8GB内存的中低端平台的计量值为20o可以为SnapMirror预留部分计量值,并为SnapVauIt预留部分计量值C默
13、认情况下不进行预留。5.4 NetApp性能快速参考IEQP)查看器PQR是一款可以自动生成自定义性能快速参考(PQR)表的工具。表3)集群模式DataONTAP8.1.1的PQRNFS吞吐量,吩做MTU大小模式IO5!传大小PQR齐at,(MBPS)FAS6240TMS62MFAS2220FAS224OFAS3240FAS3270FAM2WISOOBX1C00T聚合读Bi32C23A7746896UXM23472890130165合5人32K14818122531818729539241407692ITS理W37|409,机B入4K2TLn12614423123131注意:PQR吞吐量不适用
14、于集群模式DataC)NTAP8.2,仅适用于集群模式DataONTAP8.1.2及更低版本。但是,根据各个团队针对SnapMirror所测试的平台,集群模式DataONTAP8.1.1的PQR吞吐量的相关性最高。如果我们将高端和中端平台在表3中的聚合写入(顺序写入)PQR吞吐量与表1中的SnapMirror吞吐量限制相比较,可以发现它们非常接近。6 RPO模型“在客户环境中,可以实现的最小RPO是多少?在客户环境中,如果我希望RPO的时间为5分钟,是否可以实现?如果不能,那么要对环境进行怎样的更改才能实现?”本节将解决这些问题。轮翼解嫩的用论J飒irroBiJ会瘫完成每懒输的时间内停酒意雌翻
15、阚所费妓输蹄薛也就较少。但是,RPO的值越小,开始下次传输前需要经过的时间会越短。针对给定容量的存储完成传输所需要的时间由多种因素决定。最重要的因素如下: 卷数(V):卷越小,给定大小的存储所需的卷数就越多。由于为卷设置传输的开销是固定的,因此,卷越小,完成传输的时间就越长。 平均变更率:指的是客户端载入(CI)速率(以MBps为单位)。对数据的更改越大,完成传输的时间就越长。 计量大小(M):该值取决于平台-如果系统大于8G,则值为100,如果系统小于8G,则值为20。 零传递时间(N)(以秒为单位):完成M次并发零传递的时间。根据各种实验,我们假设N为90秒。 客户端的CPU利用率(C)(
16、以百分比为单位):建议C低于50%(C0.5)o 带宽(B)(以MBps为单位):平台的写入更新带宽。 误差范围(E)(以百分比为单位):建议误差范围为25%;因此,E=0.25o可以按以下方式计算RPO:RPO=2N1-60(I-C)B6.1 RPO建模的应用我们利用两个真实示例对RPO模型进行了验证。客户名称未公开。6.1.1 客户X的环境表4)客户X的环境。变量|测试环境WAN链路 IOGbps1控制器上启用了巨型帧(9K帧) 80毫秒往返延迟 无数据包丢失集群使用FAS6280控制器的2节点集群均为SAS驱动器无SATA驱动器载入率40个卷(已复制),数据载人速度为IoOGB/小时 数
17、据载入速度较高的8个卷(大约8GB/小时) 数据载入速度较低的其他卷(1GB/小时到7GB/小时) 平均客户端载入速度为305MBps每日数据变更率每日变更率为10%24TB:每天2400GB的变更率快照和重复数据删除每个卷20个快照已启用重复数据删除CPU利用率为源聚合增加负裁,使其接近50%的磁盘和50%的CPU负载我们对以上数据应用了RPO模型,从而计算出此环境可支持的最小RPOoI变量测试环境WAN链路 1Gbps 80毫秒往返延迟数据包丢失率为000001%集群源系统是一个FAS6280HA对:每个控制器具有1个SSD卷,其中包括一个11磁盘聚合/11磁盘RAID组目标系统是一个FA
18、S3270HA对:每个控制器具有1个SASDP卷,其中包括一个44磁盘聚合/2个22磁盘RAID组教入率写入更新吞吐量为30MB/秒每日数据变更率=载入率快照和重复数据删除不适用彳公雨IP刷JWEI插入上述值:源系统和目标系统的平均利用率大约为45-50%f1三*除了复制之外,还会有一些其他活动,例如,多个故障情形-磁盘和/或控制器故障。尽管这些过程/故障对主机延迟会产生不同程度的影响,但似乎不会影响SnapMirrorRPO0而。=60分钟I值遏为髓獭、踊得参数。经过测试确定,计算图修小FPO与实际测试的RPO一致。6卷数(溶户Y的环境40:斗物翻端戴皈率境Cl)(以MBps为单位)305计
19、量大小(M)(取决于平台,值为100或20)100带宽(B)(以MBps为单位)650每个控制器具有1个SSDf11磁盘RAID组:每个控制器具有1个SAS噩合/2个22磁盘RAID组误差范围(E)(以百分比为单位)25%零传递时间(N)(以秒为单位)90RPO(分钟)60目标系统是一个FA532Ura对DP卷,其中包括一个44磁盘?载入率写入更新吞吐量为30MB/秒每日数据变更率=载入率快照和重复数据删除不适用CPU利用率源系统和目标系统的平均利用率大约为45-50%其他变量除了复制之外,还会有一些其他活动,例如,多个故障情形-磁盘和/或控制器故障。尽管这些过程/故障对主机延迟会产生不同程度
20、的影响,但似乎不会影响SnapMirrorRPO2E们对以上数据应用了RPO模型,从而计算出此环境可hRPOo客户端的CPU利用率(C)0.5NetApp机密-仅供内部使用卷数(V)40平均客户端载入率(CI)(以MBps为单位)305计量大小(M)(取决于平等值为100或20)100a集群模式DataONTAP8.2的SnapMirror规馍估算指南带宽(B)(以MBps为单位)650误差范围(E)(以百分比为单位)25%变量值客户端的CPU利用率(C)0.5卷数(V)1平均客户端载入率(CI)(以MBps为单位)30计量大小(M)(取决于平台,值为100或20)100带宽(B)(以MBps
21、为单位)200误差范围(E)(以百分比为单位)25%零传递时间(N)(以秒为单位)90RPO(分钟)5在RPO等式中插入上述值:R7守(1-0.5)200RPO=5分钟表6显示了各个客户环境参数。经过测试确定,计算得出的最小RPO与实际测试的RPO一致。6.2 对SnapMirror性能进行微调的一般建议平均磁盘利用率应小于50%(使用Statit命令),CPU利用率也应小于50%(使用sysstat-M命令)减少每个控制器的关系数 减少快照数;这样可减少设置延迟(每个源卷的快照数小于20个) 减少OnCOmmanehSnaPMirror的显示频率,例如,大于30分钟 错开计划时间(例如,一些
22、计划在某小时后1分钟启动,另一些则在之后3分钟启动)7基于性能数据的规模估算指导原则第4节讨论了构建SnapMirror解决方案和估算该解决方案规模时需要考虑的不同因素。第5节讨论了各种类型的性能特征,包括各个平台上的吞吐量限制。第6节介绍了如何计算给定客户环境的最小RPOc现在,要正确估算SnapMirror解决方案的规模,我们需要考虑上述所有问题。让我们来解决第3.2节中讨论的一个问题。“一位系统工程师想要销售FAS6280对,希望了解在镜像时可以有多少个FAS2240对指向目标FAS6280对。典型的使用情形是,从多个远程站点向一个中央数据中心复制。FAS6280可以从一组较小的系统中处
23、理多少个流?”这里我们假设:系统上没有主客户端工作负载。 网络和磁盘不会出现瓶颈。 CPU利用率低于50%o 所有传输并发进行。 数据统一分布于集群各节点的卷中。SnapMirror源 源系统是一个FAS2240HA对,其中,从每个节点并发传输20个卷。我们从表5中看出,一个FAS2240节点上的更新峰值吞吐量为370MBpso 因此,FAS2240HA对将以2x370(“源推送速率”)=740MBps的速率推送数据。SnapMirror目标 我们从表5中看出,一个FAS6280节点上的更新峰值吞吐量为850MBpso 因此,对于FAS6280HA对上的40个卷,“目标载入速率”=2X850=
24、1700MBPs。如果源推送速率小于目标载入速率,则目标不会成为瓶颈。一旦添加了更多的源控制器(FAS2240HA对),源推送速率就会增加,而如果源推送速率大于目标载入速率,则目标就会成为瓶颈。之后,我们会发现SnapMirror性能有所下降。解决方案是,添加更多的目标控制器,以便目标载入速率可以跟上源推送速率的增长。8附录八个流的峰值吞吐量FAS6240 2节点集群 源系统,48个IOkSASHDD(含PAMII) 目标系统,48个SSD 集群网络,2个10Gb,直连FAS3270 2节点集群 源系统,60个IOkSASHDD(含PAMII) 目标系统,60个IokSASHDD 集群网络,2
25、个IOGb.直连FAS2240 2节点集群 源系统,24个SSD 目标系统,24个SSD 集群网络,1个WGb1直连大文件数据集包括40个7.5GB文件小文件数据集包括3,636,360个22KB文件每次更新都会向现有数据集(大文件数据集和小文件数据集)添加10%的数据要聆证您的特定环境是否支持本文档所述的确切产品和功能版本,请参见NetApp支持站点上的互操作性表工具(IMTLNetAppIMT中定义的产品组件和版本可用于构建NetApp所支持的配置.具体的配置结果取决于每个客户如何依照所发布规格进行安装.NetApp对本报告中提供的任何信息或建议的准确性、可靠性或适用性以及因采用在此提供的
26、信息或建议而可能导致的任何后果不做任何声明或担保。本文档中信息按原意发布,对此类信息的使用或对此处任意建议或技术的实菸均由客户承担责任.并取决于客户评估和将其融入客户运作环境的能力。本文档以及文档中所含信息仅可用于本文档中所讨论的NetApp产品.Gofurther,faster,NetApp02013NetApp.Ic.保留所有权利.未及NetApp.Inc.事先书面同意不得复制本文中任何内容.规格如有史改知不另行通知“NetApp,NetApp标识、Gofurther,fasterDataONTAP.OnConwnand.SnapMirror和Snapshot是NetApp.Inc.在美国和域其他国家或堆区的商标或注册商标.所有其他品牌或产品均为其各自所有者的商标或注册商标,应予同样对待。TR-4231i-