NetApp 技术报告存储子系统故障恢复能力指南.docx
《NetApp 技术报告存储子系统故障恢复能力指南.docx》由会员分享,可在线阅读,更多相关《NetApp 技术报告存储子系统故障恢复能力指南.docx(17页珍藏版)》请在三一文库上搜索。
1、NetAppGofurther,faster技术报告存储子系统故障恢复能力指南NetApp公司MohammadJawwadMemon2013年7月|TR-3437摘要本文档提供了与NetApp存储子系统中数据可用性和故障恢复能力相关的技术建议和最佳实践。在规划和构建可满足客户需求和期望的NetApp存储环境时,了解本文档中所涉及的主题十分重要。目录1简介41.1 数据可用性41.2 范围42可靠性42.1 衡量可靠性52.2 系统可靠性62.3 可靠性最佳实践63错误和故障63.1 单点故障.732S区苍力W74更正操作和预防性功能74.1 RAID重建84.2 RAID快速恢复84.3 维护
2、中,84.4 失写保护94.5 后台介质扫描94.6 RAID奇偶校验擦除95其他注意事项95.1 磁盘架级别故障恢复能力95.2 RAID组105.3 RAID选项105.4 备件策略115.5 混合配置125.6 MYAUTOSUPPORT系统风险126数据可用性层136.1 笫1层:任务关犍型136.2 笫2层业务关键型146.3 第3层:存储库156.4 第4层归档156.5 第5层多用途16表格目录表1)确定建议的备件数11表2)任务关键型数据可用性的建议和最佳实践。13表3)业务关键型数据可用性的建议和最佳实践。14表4)存储库数据可用性的建议和最佳实践。15表5)归档数据可用性的
3、建议和最佳实践。15表6)多用途数据可用性的建议和最佳实践。16插图目录图1)MTBF公式。5图2)根据MTBF计算驱动器故障率。5图3)根据MTBF和驱动器数量,运行寿命内预期的故障次数。51简介本文档的前身在探讨存储故障恢复能力时,将重点放在主要功能和选项上,借助这些功能和选项,您可以在一组预定义的数据可用性层范围内配置存储系统,以实现最高的存储故障恢复能力。本文档是在此基础上编写的,根据给定存储配置的目的和要求,不一定总是可以甚至需要配置系统以实现最高的故障恢复能力。而且,不一定所有存储配置的最终目标都是确保存储故障恢复能力,也有可能是确保数据可用性C如果系统发生的故障影响到整个系统的性
4、能,以致于即使系统在技术上仍然响应前台I/O,但依赖存储系统的应用程序却停止运行,则该系统故障恢复能力如何?由于诸如上述描述的情形,仅仅强调故障恢复能力是不够的。在探讨故障恢复能力时,必须考虑数据可用性及其对整个系统的影响C1.1 数据可用性NetApp存储系统的一个核心测评指标是数据可用性。在本文档中,将基于以下三个因素评估数据可用性: 性能:从数据可用性的角度,性能可分为两个主要方面。第一个方面是,客户有具体的性能要求,客户需要满足这些性能要求,才能满足需要随时访问存储系统数据的应用程序的需求。从这个角度来看,数据可用性中断意味着,存储系统仍然可以响应前台I/O,但已无法满足依赖该系统的应
5、用程序正常运行必须达到的要求第二个方面是,如果系统性能受到影响,以致于停止响应前台I/O,则表示出现数据可用性中断的情况, 故障恢复能力:从数据可用性角度而言,故障恢复能力是指系统在遇到一个或多个故障时以降级状态继续响应前台I/O的能力。系统承受故障的能力取决于多个选项和功能;本文档将通篇讨论这些选项和功能C 可恢复性:可恢复性用于定义系统从故障中自动恢复以及在存储系统中执行恢复操作期间继续响应前台I/O的能力。数据可用性的三个层面又进一步受到以下三个因素的影响: 存储子系统:存储子系统层提供与存储系统内部相关的所有硬件组件及软件功能。从物理角度而言,这一层主要可视为从HBA向下贯穿到所连接的
6、存储阵列;也可视为与DataONTAP中的存储和RAID软件层相关:简言之.系统支持控制器从内部与所连接的存储阵列进行通信的能力。 系统:系统层可为存储系统提供抵御故障的能力。这一层主要侧重于控制器级别的故障,这一级别的故障会影响系统继续进行外部通信的能力。这一层适用于单控制器和高可用性(HA)对配置以及用于进行外部控制器通信的组件(如网络接口)。 站点:站点层可为处于同一位置的一组存储系统提供抵御故障的能力。这一层主要侧重于与分布式存储系统架构相关的功能,这一架构可以抵御整个存储系统的故障,此类故障可能与站点级别意外事件(如自然灾害或恐怖活动)相关C为了进一步量化最佳实践和建议,必须将此信息
7、应用于一组定义的数据可用性层。该步骤是必需的,因为例如无法在不在某种程度上影响的性能的情况下实现最高的故障恢复能力和可恢复性,根据每个数据可用性层的要求,上述三个因素之间的平衡会发生更改,这会在定义的数据可用性层之间产生不同的最佳实践和建议。本文档第6节“数据可用性层”将介绍数据可用性层及对各层的建议。1.2 范围本文档主要介绍了数据可用性的存储子系统层,同时考虑到第1.1节“数据可用性”中所述的三个因素(性能、故障恢复能力和可恢复性)。2可靠性目前业内公开的最常用的可靠性衡量指标是平均无故障时间(MTBF)。问题在于,MTBF可靠性衡量指标不如平均退货率(ARR)或平均故障率(AFR)准确,
8、这两个指标均由各公司进行跟踪,但在大多数情况下不会公开。NetApp确实跟踪重要存储组件的ARR和AFRo虽然ARR和AFR优于MTBF,但是也不是完美的。如果使用统计学来计算可靠性衡量指标,则只有在应用于大量设备时,计算才有意义。2.1 衡量可靠性目前,通常硬件组件有三个可靠性衡量指标。分别为平均无故障时间、平均退货率和平均故障率。下文详细介绍了这些衡量指标,此处概要说明了本节要点: 企业驱动器的预期运行寿命为五年“NetApp强烈建议替换运行寿命超过五年的驱动器,这也与所提供的驱动器五年保修一致。 配置中的驱动器越多,在驱动器服务寿命内发生驱动器故障的可能性就越大。 MTBF是准确性最低的
9、可靠性衡量指标。 AFR是最佳的可靠性衡量指标,但需要花费时间来建立准确的数据集C本节主要侧重介绍驱动器,但相同的方法和信息同样适用于存储子系统中存在的其他设备等。平均无故障时间MTBF是准确性最低的可靠性衡量指标。人们通常会将MTBF误解为硬件设备的使用寿命。由于硬件厂家无法在发布之前合理地测试设备的整个预期寿命,因此他们会测试许多设备,以尝试得到设备预期寿命内的故障率。最常用的公式如下:测试时长*测试的驱动器效/测试失败的驱动器数=MTBF图1)MTBF公式。存储子系统设备最常引用的MTBF值是针对驱动器而言的。SSD.SATA、SAS和FC驱动器具有不同的MTBF值,如下所示: SSD(
10、SLC)驱动器为200万小时 SAS和FC驱动器为160万小时 SATA驱动器为120万小时驱动器保修五年(43,800小时),远远低于160万甚至120万小时。再次重申,MTBF也不是驱动器使用寿命的衡量指标,而是驱动器使用寿命内的错误率。如果单纯基于MTBF进行数学计算,则对于SATA驱动器(120万小时MTBF),每年大约应有0.73%的已部署驱动器出现故障,对于FC和SAS驱动器(160万小时MTBF),每年大约应有0.55%的已部署驱动器出现故障,对于SSD驱动器(200万小时MTBF),每年大约应有0.44%的已部署驱动器出现故障。SATA1,200,0小时MTBF/每年8,760
11、小时=136.9863年1个故障/136.9863年=0.00730*10O=每年0.73%的故障率FC和SAS1.6,000小时MTBF/每年8.760小时=182.6484年1个故障/182.6484年=0.00547*100=每年0.55%的故障率SSD2,0.0小时MTBF/每年8,760小时=228,3105年1个故障/228.3105年=0.00438*100=每年0.44%的故障率图2)根据MTBF计算驱动器故障率。为了进一步应用此计算方法,让我们考虑以下两个配置示例: 30个预期使用寿命为5年的SAS驱动器 300个预期使用寿命为5年的SAS驱动器 3,000个预期使用寿命为5
12、年的SAS驱动器现在,可以应用数学计算来确定这些配置的运行寿命内预期会发生多少次故障:30个SAS驱动器*0.55%=0.165个故障/年*5年=5年内0.825个故障300个SAS驱动器*0.55%=1.65个故障/年*5年=5年内8.25个故障3000个SAS驱动器*0.55%=16.5个故障/年*5年=5年内82.5个故障图3)根据MTBF和驱动器数JT运牙钿脚脚糊滕就磁.从以上的内容可概括出一点,即,所拥有的驱动器越多,使用期间其中一个驱动器出现故障的可能性就越大,根据目前适用于企业驱动器的五年保修(三年标准保修加两年延保),我们大可以表述为,驱动器的预期可靠寿命为五年,五年之后,驱动
13、器处于使用状态的时间越长,其出现故障的可能性会显著增加。平均退货率设备的ARR是一种优于MTBF的可靠性衡量指标,因为它基于服务中和使用设备的系统中设备的实际退货率:遗憾的是,这仍然不是最佳的可靠性衡量指标,因为该指标不能区分因与故障无关的原因而退货的设备,与故障无关的退货示例包括因误报(作为预防措施)或由于发货错误而退货的驱动器:虽然ARR不是确定可靠性的最佳方法,但是对于要跟踪该指标以了解运营效率、可用性或其他与业务相关的原因是否存在问题的公司,该方法非常有用,平均故障率这是最为准确的设备可靠性衡量指标,因为该衡量指标基于已退货并经过验证确有故障的设备C遗憾的是,由于AFR是基于一段时间的
14、平均值,因此建立AFR需要时间,也正因如此,AFR会随着时间的推移而更加准确。设备出现故障的原因可能有多种,其中一些原因将在本文档后面的部分中进行介绍C本文档的目的不是解决NetApp所售出的各种设备的ARR或AFR问题(因为这不是公开信息),而是说明NetApp客户可公开获得或可能获得的衡量指标并介绍具体示例。2.2 系统可靠性许多人会问,对于控制器或存储架来说,MTBF是什么。没有为大量设备发布MTBF有多种原因: MTBF计算取决于单个设备或集成设备组的使用。控制器和存储架包含多个可选组件(扩展卡、磁盘架模块等等)和本身是更小设备的集合的组件。因此,在整个系统所涉及的组件方面,这些配置非
15、常多变。 MTBF值需要考虑所有使用中的组件,但是对于控制器和存储架,并非所有的组件都十分重要。例如,如果存储架上的LED出现故障,存储架会继续发挥访问驱动器的主要作用。 如第2.1节“衡量可靠性”所述,MTBF是准确度最低的可靠性衡量指标.添加其他设备会进一步降低已提取的计算和结果的准确性。更重要的是,公司会跟踪ARR和AFR,这就不再需要了解MTBFo在存储架、磁盘架模块和驱动器中,一般将驱动器视为存储子系统中可靠性最低的组件。但这并不意味着存储架和磁盘架模块比驱动器更加可靠,这背后的逻辑如下所示: 存储架中存在的驱动器比其他设备多。例如,一个DS4243具有2到4个PSUx2个I0M3磁
16、盘架模块1个架机箱和24个驱动器 驱动器与龚他组件包含相同数量的电子元件,而且其复杂性相同,此外还都包含移动部件(但SSD除外)。出于这一考虑,在介绍存储子系统可靠性时,通常主要围绕驱动器C2.3 可靠性最佳实践在试图最大程度地提高存储子系统组件的可靠性时,需要遵循下面的一些重要最佳实践: 快速移除出现故障的硬件组件,这样故障才不会传播到系统中正常运行的组件。 替换或停用已超过保修期的硬件组件。 处理硬件组件以防止物理损坏和静电放电(ESD)损坏时,采用安全的方式. 了解故障是技术所不可避免的.确保重要组件的备件随时可用。这意味着要遵循热备件和冷备件的最佳实践,并了解所在站点的部件周转情况。
17、使用冷备件时仍需要热备件。硬件组件在磁盘架上的时间越长,其遭受物理损坏或者彻底无法工作的可能性就越大。安装在存储系统(热备件)中并且正在运行的驱动器所处的状态具有高可靠性,因为该驱动器可随时接替其他驱动器的工作。3错误和故障本节详细介绍了有关存储子系统中可能发生的一些主要错误和故障的其他详细信息。其中未涵盖对于可能发生的故障的所有可能的错误信息,而是重点介绍放在影响系统故障恢复能力操作(如RAID重建)的各种情况。还介绍了单点故障(SPOF),因为这会影响系统故障恢复能力。NetApp强烈建议尽快将发生故障的组件从活动系统中移除,以便降低该故障传播到系统中正常运行的组件的风缸3.1 单点故障一
18、些潜在的SPOF已通过本机系统配置加以消除。例如,每个NetApp存储架使用多个单磁盘架模块、供电设备和驱动器*根据选定的系统配置,可能存在其他SPOF:控制器:NetAPP支持单控制器配置,其中控制器本身就是一个SPOFo如果使用包含两个控制器的HA对存储配置,则不会再将该控制器作为SPOFo1 主机总线适配器(HBA):这包括板载端口和独立的HBA,也称为端口组。端口组是指任意一组互连端口。例如,板载端口A和B可能与端口C和D使用不同的ASIC,但是它们都依赖于系统主板才能运行。一个四端口HBA通常也具有两个ASIC,但HBA本身是SPOFo因此,NetApp通常建议将您的存储环路(FC-
19、AL)和堆栈(SAS)连接到多个端口组。例如,可以是两个HBA,或者板载端口与一个或多个HBA的组合。NetApp始终建议至少在ASIC之间分担连接.电缆:用于连接存储系统的电缆有多种类型。有些电缆对物理损坏的故障恢复能力比其他电缆强,例如与以太网电缆相比,光缆更容易发生物理损坏。为避免您的存储配置中电缆成为SPOF1NetApp建议(目前许多情况下也要求)采用多路径高可用性(MPHA)布线“MPHA为连接到系统的所有存储架提供了辅助路径连接.架机箱:虽然整个架机箱故障非常少见,但也可能出现。实践中用于防止这种情况的方法是,确保单个磁盘架上任意RAID组中的驱动器不超过两个(具体体现是RAID
20、DPe)o这种方法不是磁盘架故障恢复能力解决方案C丢失磁盘架后(无镜像)导致的系统降级会使系统继续运行的能力下降,为防止出现磁盘架故障.建议使用本地SyncMirror或其横像方法使数据在故障情形下快速可用.镜像解决方案还可解决多种故障情形。请注意,DataONTAP8.1集群模式系统当前不支持SyncMirrortl32驱动器与驱动器相关的错误和故障非常复杂。因此,在所发生故障的类型及其解决方法方面存在许多误解C在某些情况下,人们可能会认为NetApp存储系统使驱动器大量失败的原因不一定是什么严重问题*例如,检测到单个块错误后,NetApp会使驱动器失败,这可能看似极端。术语块错误在这里具
21、有一般含义。实际上,驱动器返回的错误代码与驱动器操作失败相关,该错误可能表明存在严重问题,根据从驱动器返回的错误的重要性,可能表明驱动器上的其他块也可能受到影响。在这种情况下,使驱动器失败并将其从活动文件系统中移除更加安全,这样数据才不会进一步受到影响。以下五种情况通常都会导致系统使驱动器失败并启动更正操作: 驱动器自身返回致命错误。 DataONTAP的存储层报告驱动器无法访问。 驱动器向DataONTAP返回建议,建议应使驱动器失败。 DataONTAP的存储和RAID层建议,基于驱动器超过的各个错误阚值,应使驱动器失败。 失写保护(LWP)o4更正操作和预防性功能遇到问题时,DataON
22、TAP会检查当前RAID状态和错误情况。这样可能会导致执行以下三种操作之一: 启动RAID重建。 启动RAID快速恢复(还可能会使用维护中心)。 忽略错误。下文将详细介绍RAID重建和RAID快速恢复。只有已处于降级状态的RAID组才可能忽略错误。这是因为DataONTAP已了解到目前存在问题,并可能正在解决降级状态“对于通常通过预防性操作(如RAID擦除)检测到的与驱动器故障无关的错误,可能会导致执行以下操作之一: 将可疑数据块重新写入新块(数据块修复)。 为块重新写入奇偶校验数据(奇偶校验修复)。了解DataONTAP执行数据块修复和奇偶校验修复对于本文档来说就已足够,因为这些操作并不特定
23、于驱动器故障,而是文件系统中各个数据库块的问题C重点是DataONTAP会执行多个步骤以确保数据完整性,并且这些步骤不一定会导致驱动器失败。4.1 RAID重建驱动器失败并启动RAID重建后,多种因素确定了重建流程所需的时间,以及因此将如何影响系统的性能。在降级模式下运行时影响系统性能的一些因素包括: 系统工作负载性能特征(随机/顺序和读/写混合) 当前CPU和I/O带宽利用率 RAID组大小 使用中的存储架和磁盘架模块技术 驱动器类型(SSD、SATA、FC或SAS) RAID选项设置 驱动器路径分配 驱动器在各个堆栈/环路上的分布 单驱动器和双驱动器故障和重建由于这些因素,很难准确地预测对
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- NetApp 技术报告存储子系统故障恢复能力指南 技术 报告 存储 子系统 故障 恢复 能力 指南
