NetApp 高可用性 (HA) 对控制器配置概述和最佳实践.docx
《NetApp 高可用性 (HA) 对控制器配置概述和最佳实践.docx》由会员分享,可在线阅读,更多相关《NetApp 高可用性 (HA) 对控制器配置概述和最佳实践.docx(33页珍藏版)》请在三一文库上搜索。
1、NetApp技术报告高可用性(HA)对控制器配置概述和最佳实践NetApp公司MeghanLiese2013年4月|TR-3450摘要NetApps高可用性(High-AVaiIabiMy,HA)对控制器配置为业务关键型环境提供了强劲可靠的高可用性数据服务。在正常操作期间,高可用性对配置中两个相同存储控制器中的每一个存储控制器都独立提供数据。一个存储控制器出现故障时,数据服务进程会从出现故障的存储控制器转移到无故障的配对存储控制器上。高可用性对控制器配置也可以防止出现其他硬件故障,包括网络接口卡、FC-AL环路、磁盘架I/O模块C目录1简介41.1 范围41.2 本文档中使用的术语52高可用性
2、对控制器概述52.1 互连的工作原理52.2 高可用性对如何处理NVRAM62.3 用于高可用性对同步信息的邮箱磁盘存储72.4 高可用性对与集群模式DataONTAP的关系72.5 集群故障转移(ClusterFailover,CFO)和存储故障转移(StorageFailover,SFO)82.6 集群模式DataONTAP.高可用性对和集群仲裁92.7 高可用性对控制器网络概述122.8 高可用性对和基础架构故障恢复能力133高可用性对和集群可扩展性153.1 单节点到双节点无交换机集群(Two-NodeSwitchlessCluster,TNSC)153.2 双节点集群(有交换机或无交
3、换机)到四节点集群154可满足各种业务需求的高可用性对解决方案164.1 选择满足业务需求的高可用性对解决方案164.2 标准高可用性对控制器174.3 多路径高可用性对控制器184.4 高可用性对控制器(含SyncMirror)204.5 光纤MetroCIuster215了解客户端影响235.1 最大限度减少客户端影响的最佳实践236高可用性对控制器配置的无中断升级(NDU)266.1 无中断升级概述266.2 无中断升级的要求286.3 无中断升级的DataoNTAP支持列表296.4 无中断升级的限制296.5 无中断升级的最佳实践296.6 无中断升级的注意事项和考虑因素297命令行
4、界面(CLI)30结论30参考资料31版本历史31表格目录表1)本技术报告中使用的术语5表2)存储故障转移和集群故障转移事件9表3)在高可用性对控制器配置中可能触发故障转移的硬件组件13表4)根据业务需求建议采用的高可用性对解决方案17表5)多路径高可用性对配置选项比较20表6)高可用性对控制器互连适配器的特性和距离限制23表7)适用于高可用性对配置的常见CLI用法30插图目录图1)正常操作下的高可用性对控制器配置6图2)故障转移中的高可用性对控制器配置7图3)在一个集群中连接四个节点的集群网络8图4)高可用性对控制器和集群仲裁10图5)移动Epsilon以保持集群仲裁11图6)以7-模式运行
5、的系统的网络层次结构12图7)集群模式DataONTAP的网络层次结构13图8)标准高可用性对控制器配置的硬件和布线概览18图9)多路径高可用性对配置的硬件和布线概览19图10)使用SyncMirror的高可用性对控制器配置的硬件和布线概览21图11)光纤MetroCIuster配置的硬件和布线概览22图12)高可用性对的NDU步骤26图13)在集群模式DataONTAP中运行的操作系统的滚动升级步骤281简介在当今环境下,企业需要保证数据全天候可用。存储行业为所有业务应用程序和目标所需的数据存储基础架构提供了基础组件。因此,要保证不间断地提供数据,首先要构建有利于无中断运行(Nondisru
6、ptiveOperations,NDO)的存储系统。无中断运行具有三个主要目标:硬件故障恢复能力、硬件和软件生命周期操作以及硬件和软件维护操作。本技术报告重点介绍硬件故障恢复能力以及硬件和软件维护操作,其中,在无中断运行期间实现持续数据可用取决于以下构成要素C性能。从数据可用性角度,性能可分为两个主要方面。第一方面就是客户有具体的性能要求,客户必须满足这些性能要求,才能满足需要随时访问存储系统数据的应用程序的需要。数据可用性中断意味着,存储系统仍然可以响应前台I/O,但已无法满足依赖该系统的应用程序正常运行必须达到的要求。第二方面是,如果系统性能受到影响,以致于停止响应前台I/O,则表示出现数
7、据可用性中断.、 故障标复能力。从数据可用性角度而言,故障恢复能力是指系统在遇到一个或多个故障时以降级状态继续响应前台I/O的能力。系统承受故障的能力取决于大量选项和功能;本文档将通篇对它们进行讨论。.可恢复性。可恢复性用于定义系统从故障中自动恢复以及在存储系统中执行恢复操作期间继续响应前台I/O的能力。数据可用性的三个层面又进一步受到以下三个因素的影响。 存储子系统。存储子系统层提供了与存储系统内部相关的所有硬件组件及软件功能。从物理角度而言,这一层可视为从HBA向下贯穿到所连接的存储阵列;也可视为与NetAppDataONTAP操作系统中的存储和RAID软件层相关。从根本上说,这一层让系统
8、能够支持控制器与所连接的存储阵列进行内部通信。 系统。系统层可为存储系统提供抵御故障的能力。这一层主要侧重于控制器级别的故障,这一级别的故障会影响系统继续进行外部通信的能力。这一层适用于单控制器和高可用性(HA)对配置以及有助于进行外部控制器通信的组件(如网络接口)。 站点。站点层可为处于同一位置的一组存储系统提供抵御故障的能力。这一层主要侧重于与分布式存储系统架构相关的功能,这一架构可以抵御整个存储系统的故障。此类故障可能与站点级别事故(如自然灾难或恐怖活动)有关。NDO的核心基础是高可用性对控制器配置,此配置可在计划内和计划外停机事件期间提供高可用性解决方案。本报告的其余部分对高可用性对配
9、置的技术概念进行了概述和说明,并针对不同业务要求提出了建议的最佳实践和解决方案。1.1 范围在系统级别,NetApp为任务关键型环境提供了强劲可靠且高度可用的数据解决方案,称为高可用性对控制器配置。在正常操作期间,高可用性对配置中两个相同存储控制器中的每一个存储控制器都独立提供数据。一个存储控制器出现故障时,数据服务进程会从出现故障的存储控制器转移到无故障的配对存储控制器上。高可用性对配置也可以防止出现其他硬件故障,包括网络接口卡、FC-AL环路和磁盘架I/O模块。本文档包括以下内容: 高可用性对配置的硬件及软件组件概述 用于评估满足客户环境需求的高可用性对解决方案的最佳实践 故障转移和交还操
10、作期间的客户端交互 最大限度降低客户端中断的最佳实践 无中断升级(NOndiSnJPtiVeUpgrade,NDU) 7-模式下运行的DataONTAP与集群模式DataONTAP之间命令行界面(COmmandlineinterface,CLI)之对比有关存储子系统的故障恢复能力和可恢复性的信息,请参见TR-3437:存储子系统故障恢复能力指南o1.2 本文档中使用的术语表1)本技术报告中使用的术语术语所指:可互换术语控制器的物理实体存储控制器、FAS系统、节点、配对节点某一节点在其配对节点因计划内或计划外事件而停机时接管其磁盘的功能接管,故障转移某个节点在其配对节点经历计划内或计划外事件后重
11、新启动时,交还其配对节点的磁盘的功能交还,故障恢复高可用性对控制器配置内的控制器节点,配对节点对7-模式DataONTAP中的卷进行故障转移或对集群模式DataONTAP中的CFO策略卷(节点根卷)进行故障转移的机制控制器故障转移,CFO对集群模式DataONTAP中的卷进行故障转移的机制存储故障转移,SFO更新系统及相关存储中DataONTAP软件和固件的机制无中断升级,NDU在集群内的多个高可用性对控制器上以并行方式执行DataONTAP升级的过程滚动升级,滚动批处理升级2高可用性对控制器概述高可用性对控制器配置由一对匹配的FAS存储控制器(本地节点和配对节点)组成;这些节点中的每个节点都
12、必须连接到另一个节点的磁盘架。两个节点上的DataONTAP和固件版本必须相同。同样,每个节点上的互连适配器也必须相同且配置有相同的固件版本,互连适配器必须通过相应的互连缆线正确连接。有关布线详细信息,请参见高可用性配置指南。在高可用性对控制器环境中,每个节点上的DataONTAP都通过在存储控制器间通过互连卡和缆线进行传输的检测信号来监控其配对存储控制器的可用性状态。然后将此信息存储到专门的邮箱磁盘上。FAS存储控制器使用电池后备非易失性RAM(NonvolatileRAM,NVRAM)来防止在创建最近一致点后可能会丢失任何数据输入/输出请求。高可用性对中各控制器节点的NVRAM数据始终会镜
13、像到配对节点上。发生故障转移时,无故障节点会接管故障节点上的磁盘控制权,并保持与镜像NVRAM间数据的一致性。有关NVRAM的更多详细信息,请参见TR-300LNetAppFAS2000和FAS3100版本系列控制器不使用互连卡。检测信号和NVRAM数据通过集成的以太网端口在节点间传输。2.1 互连的工作原理互连适配器属于高可用性对控制器中最关键的组成部分。DataONTAP使用这些适配器在配对节点间传输系统数据,进而维护两个控制器上NVRAM内的数据同步。其他重要信息也通过互连适配器进行交换,其中包括检测信号、系统时间以及由于待定磁盘固件更新而导致磁盘临时不可用的相关详细信息。下面一节解释了
14、两个节点上的NVRAM必须相同的原因。由于NVRAM5和NVRAM6卡提供集成的互连硬件功能,因此,除非使用光纤MetroCIuster-配置(在本文档下文中介绍),否则在使用NVRAM5或NVRAM6卡时不会(或不需要)使用独立互连卡。2.2 高可用性对如何处理NVRAMDataONTAP使用WAFL(WriteAnywhereFileLayout,任意位置写入文件布局)文件系统来管理数据处理,并通过NVRAM确保在向磁盘提交写入前数据保持一致。NVRAM中的数据通过直接内存访问(DirectMemoryAccess,DMA)复制到系统内存。如果存储控制器遇到电源故障,NVRAM会保护最新的
15、数据并维护文件系统的完整性。在高可用性对控制器环境中,每个节点都会为配对节点的数据预留NVRAM总大小的一半,以保证两个存储控制器上的NVRAM具有完全相同的数据。因此,在高可用性对控制器中,本地节点只使用一半的NVRAMc将NVRAM一分为二来提供数据一致性会导致性能降低约2%到3%o发生故障转移时,如果无故障节点接管故障节点,则NVRAM中存储的所有WAFL检查点都会转储到磁盘。无故障节点随后会合并拆分的NVRAM并恢复损失的性能C无故障节点将磁盘控制和数据处理恢复到已恢复的故障节点后,属于配对节点的所有NVRAM数据都会在交还操作期间转储到磁盘。单节点集群可扩展性和NVRAM单节点集群可
16、以在其自身的集群中具有一个节点。单节点集群不具备高可用性故障恢复能力;因此,单节点集群不会拆分节点的NVRAMo随着时间的推移,单节点集群可能无法满足业务需求,这就需要从单节点转换到故障恢复能力更强的双节点集群。为此,每个存储控制器上的NVRAM将就进行划分,以便正确镜像配对节点的数据。要进行相应更改,以便将每个节点转换为HA配置并重新划分结构,NVRAM需要重新启动控制器。在单节点转换为双节点集群后,就会具备HA控制器配置所提供的所有NDO功能。下图说明了NVRAM和高可用性对控制器配置间的关系。图1)正常操作下的高可用性对控制器配置A环跪珠路所分第髭对节点NVRAM M姻 的NVRAM主机
17、务本图2)故障转移中的高可用性对控制器配置A环络B球路拆分的配对节点NVRAM M 的NVRAM主机IC本2.3 用于高可用性对同步信息的邮箱磁盘存储为使高可用性对控制器配置中的两个节点维护彼此的最新正确状态,节点状态和检测信号信息会存储在各节点的邮箱磁盘中;在协调接管或交还操作时会使用一组冗余磁盘。如果一个节点停止运行,无故障的配对节点会使用邮箱磁盘上的信息执行接管处理,从而创建一个虚拟存储系统。邮箱检测信号信息会防止在互连失败时出现不必要的故障转移。此外,如果邮箱磁盘上存储的HA信息在启动时不同步,高可用性对节点会自动解决这一问题。FAS系统的故障转移过程极为强劲可靠,可以防止出现“脑裂”
18、间氤2.4 高可用性对与集群模式DataONTAP的关系DataONTAP8.0引入了新一代的存储系统,可将大量的高可用性对横向扩展到一个集群中。以前,集群这一概念与高可用性对同义,但集群模式DataONTAP对高可用性对和集群进行了明确区分。高可用性对由两个配对节点组成,而集群则由许多高可用性对构成。高可用性对通过一个后端网络(称为集群网络)连接在一起。高可用性对是构成更大的逻辑实体(称为集群)的物理组成部分。高可用性对在系统级别提供存储故障恢复能力,以提高集群的整体可用性。高可用性对控制器配置具有与7模式系统相同的故障恢复能力。每个高可用性对直接通过缆线连接存储,并利用多路径布线来实现更强
19、的故障恢复能力。下图显示了一个四节点集群,其中包括节点1、节点2、节点3和节点4。节点1和节点2构成高可用性对;节点3和节点4构成高可用性对。所有四个节点均通过集群网络进行连接。图3)在一个集群中连接四个节点的集群网络集群网络HA虽然传统7-模式高可用性对控制器配置的物理架构是集群的基础组件,但是横向扩展架构不但具有传统7模式架构的优点,而且还可提供更多优点。高可用性对中的每个节点均链接到集群网络中,以便于集群中各节点之间进行通信。后端集群网络是节点间前台和后台I/O的通信基础。例如,集群模式DataONTAP可提供的另一项优点是,可以在集群中无中断地移动数据,从而增强高可用性对解决方案的能力
20、以及NetApp存储系统的NDO能力。对于集群中的任何节点,都可以通过集群网络执行卷移动和数据复制操作。有关数据移动性解决方案的详细信息,请参见TR-3975:WataMotionforVolumes概述o2.5 集群故障转移(ClusterFailover,CFO)和存储故障转移(StorageFailover,SFO)存储资源与网络资源之间还存在一个虚拟化层,这两种资源均与集群中的存储控制器相连。利用集群网络,可以通过集群中的网络资源访问存储资源。因此,要访问所需的数据,可以通过集群中任何节点上的网络接口接收前台I/O请求,然后将该请求定向到适当的存储控制器(和关联的存储资源)。集群故障转
21、移是指与7-模式系统中的卷相关的策略。存储故障转移是指与集群模式DataONTAP系统中的卷相关的策略C但是,集群模式DataONTAP系统中的节点根卷将保留CFO策略。在7-模式系统中,所有聚合将一起进行故障转移和交还操作。只有所有聚合均返回到配对节点之后,故障转移或交还过程才完成。或者,在集群模式DataONTAP中,聚合将按顺序交还到配对节点:首先交还的是卷策略为CFO的聚合(全部并行进行)。节点根聚合最好不包含用户数据。使根聚合恢复联机的过程涉及将某些信息与集群中的其他节点进行同步,可能需要一些时间;因此,转换期间根聚合无法提供数据。如果所有用户数据都位于采用SFO策略的聚合中,则配对
22、节点仍会继续为包含用户数据的卷所在的所有聚合提供数据,直到节点根卷恢复联机,并且节点恢复到集群中且可以接收剩余聚合。此时,每个聚合将按顺序返回到配对节点,在配对节点(原主节点)上恢复联机时,每个聚合都会发生短暂的转换。从DataONTAP8.2开始,集群模式DataONTAP的高可用性对控制器的计划内接管事件将应用此过程。下表总结了集群模式DataONTAP的故障转移和交还顺序。表2)存储故障转移和集群故障转移事件高可用性事件事件说明计划外事件所有聚合并行故障转移到配对节点。计划内事件(集群模式DataONTAP8.1)所有聚合并行故障转移到配对节点。计划内事件(集群模式DataONTAP8.
23、2)每个聚合均按顺序进行故障转移,根聚合在所有包含用户数据的聚合故障转移到配对节点之后进行故障转移。交还首先交还根聚合;在节点恢复到集群中之后,会按顺序将包含数据的每个聚合交还到配对节点。2.6 集群模式DataONTAP,高可用性对和集群仲裁集群可以包含一个节点、两个节点或更多节点。单节点集群的可用性取决于单个节点是否持续正常运行。如果此单个节点发生了计划内或计划外事件并导致该节点关闭,则位于相连存储中的任何数据都不可用。对于包含两个或更多节点的集群,每个节点可通过与故障转移和交还相关的高可用性功能来提高可用性。如果发生节点故障,将进行故障转移,而数据仍可继续通过配对节点来访问。节点间的通信
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- NetApp 高可用性 HA 对控制器配置概述和最佳实践 可用性 HA 控制器 配置 概述 最佳 实践
