Lustre解决方案.docx
《Lustre解决方案.docx》由会员分享,可在线阅读,更多相关《Lustre解决方案.docx(22页珍藏版)》请在三一文库上搜索。
1、可编辑NetAppNETAPP存储说明March20,2024O2013NetAppAllrightsreserved本文档包含NetApp公司的商业及技术机密。未经NetApp公司许可,不得向第三方泄漏或使用。目录1E5460概述22高性能42.1 外部性能因素42.2 E5400硬件性能注意事项42.3 E5400针对性能的固件和配置参考52.3.1 RAID等级52.4 Lustre高性能计算解决方案112.5 E系列性能估算123高可靠性134案例分析144.1 性能184.1.1 MetaData性能184.1.2 读写性能191E5460概述高带宽应用和HPC平台需要高性能、高可靠
2、性和可扩展的存储系统。基于E5400的存储系统满足这些要求,它支持: 每控制器标准的4个8Gb的主机接口 每个控制器可选的主机接口模块o4端口8GbFC模块o2端口40GbIB模块说明:如果使用旧模块,板我的FC端口会被禁用 每套存储最大支持384块磁盘 多种RAlD级别(0、1、10、3、5和6)以及DDP(动态磁盘池) 不同容量、转速的磁盘 数据保证(TlO-PI数据完整性检查) 介质校验和纠错能力强 丰富的事件记录 恢复大师自带的系统诊断和恢复能力 硬件冗余 每个控制器6GB的高速缓存内存(12GB可选),以最大限度地提高读/写性能 NVSRAM和内置的USB驱动器在停电时保存系统配置如
3、下图所示,E5400控制器提供三种规格(E5460,E5424和E5412)o它们都支持双控制器、双电源和风扇以确保硬件冗余。这些控制柜分别支持60个、24个或12个磁盘。多个磁盘扩展柜(DE6600、DE5600和DE1600)可以连接到控制柜以扩展额外的存储容量。CE5460-4U60个磁盘,每抽屉12个双E5400控制器前视图背视图在默认情况下,E5400的每个控制器有4个板载的8GbFC端口,用于主机连接。此外,E5400还支持一个扩展模块,4个8GbFC端口或者2个40GblB端口(如果安装了IB模块,板载的FC端口会被禁用)。下图说明了E5460控制器及可选的扩展模块:E54604
4、咖箱背视图及双E5400控制器E5400控制器及4端口 8Gb FG扩展模块E5400控制器及2堵口 40GblB扩展模块2高性能2.1 外部性能因素存在以下外部的因素会影响E5400存储系统的整体性能,其中包括物理组件,比如网络架构,存储本身底层的设定和配置。通常情况下存储调优可被定义成以下的40/30/30原则,40%是在存储级别的调整和配置,30%在文件系统层面,最后30%在应用层面。以下部分主要描述和存储特性有关的40%。在一个高的层面,必须包括文件系统和应用层的考虑: I/O大小。E系列存储系统主要是响应系统,需要一台主机来提出I/O请求操作,以完成它的操作。从主机来的单个I/O请求
5、的大小极大的影响每秒的I/O操作(IOPS)或者吞吐率(通常描述为兆字节每秒MB/S或者千兆字节每秒GBs).更大的I/O通常会导致更低IOPS,反过来也成立(即更大的I/O吞吐量会导致更低的IOPS)这种关系被定义为等式吞吐率=K)PSXI/O大小。 请求的读和写。除了I/O大小外,在存储系统层面处理的I/O请求里面读写的比例也会潜在的影响存储系统,这些在设计方案的时候也必须考虑进去。 数据流是随机还是顺序的。主机针对磁盘底层介质的逻辑地址(LBAS)请求的顺序性(或者缺失)会明显的影响存储系统层面的性能。在物理介质的效能方面,能最低延迟有效的响应请求,同样的有效的还有存储系统的缓存算法。可
6、能是由于固态介质设备的原因,会有增加随机请求延迟的例外情况,这不会是机制上导致的延迟。 当前I/O操作的数量。针对特定卷的未响应的I/O操作数量会因为下面因素而不同。即文件系统是否应用了原始的,缓冲式的,或者直接I/O。通常,大部分的E系统存储系统的卷会条带化方式跨几个硬盘。每个磁盘个体提供最小数量的突出IO将导致磁盘资源的低利用率,在结果上就会导致低于预期的性能特征。2.2 E5400硬件性能注意事项磁盘数量和介质类型对于任何存储系统来讲(包括E系列),在最重要的因素中有2个是来获取存储性能的,它们是存储控制后端的磁盘数量和对应的磁盘的转速。存储系统最大的可能达到的性能主要依附于这些特定的物
7、理资源,到某种程度要么总线达到饱和或者是存储控制的CPU成为抑制的因素。RandomRandom Sequentai SequentaiWrte Rd VWite Read Single 15K RPM disk driveSingle 7 2K RPM disk drive如上图显示,IO大小为16KB的时候,单个7200转的NL_SAS硬盘可以提供单个15000转SAS硬盘的大概45%左右的IOPS性能,同时IO数值越大,它们顺序的传输速度性能更加接近。提示:请基于预期的负载和容量需求来选择硬盘类型。主机接口类型E5400支持多种的主机接口类型,包括一个可选的8Gb光纤通道主机卡和一个40
8、GblnfiniBand(IB)主机通道卡。InfiniBand具有更高的主机接口带宽。2.3E5400针对性能的固件和配置参考23.1 RAlD等级E5400支持RAID0、1、10、5、6,随着NetAPPSANtriCitylO.83和相关控制器固件的发布,一种取名为动态磁盘池(DDPS)新的逻辑磁盘组发布了。RAIDO概览RAlDO将数据条带分散在多块磁盘上,并且至少需要1块磁盘来组成。RAlDo通过使用多个磁盘将写性能最大化,同时因为没有数据校验保护算法而最小化了过载。不过,如果1个磁盘故障发生的话,存储在该卷上的数据将丢失。因此关键业务数据不应该被存储在RAIDO卷组上。在下图中可
9、以看到,在卷组中的每个磁盘上的条带中都承载了用户的数据,并没有提供任何校验和保护措施。Segment根据以下原则来使用RAID0: 选择RAIDO当卷组中有1个或者多个磁盘的时候; 选择RAIDO当存储非业务核心数据; 卷组中RAIDO的最大磁盘数量依赖于硬件型号; 虽然在大多数应用中RAIDO并不适用,但是RAIDO可以在同样硬件上获得磁盘数量最多的卷组。 RAID1/10概览RAIDl通过镜像磁盘提供了一对一的数据镜像拷贝;至少需要2块磁盘来组成。在E系列系统中,如果4个或更多的磁盘被选择来组成RAIDl卷组,则RAID级别会自动提升到RAID100那就意味着数据被条带化分布在4个或者更多
10、的镜像磁盘上。如果发生1个磁盘故障,存储系统可以立即切换到镜像磁盘。在这个阶段,卷组将被降级但是仍旧可以提供数据存取。如果镜像的2个磁盘同时故障的话则数据将丢失。如果在RAID1/10卷组中当1个磁盘故障时有热备磁盘存在,E系列存储系统会自动的将热备磁盘顶替故障磁盘,并从镜像磁盘中恢复数据到该热备磁盘上。一旦故障磁盘被更换好以后,存储管理员可以设定之前的热备磁盘为卷组中的成员,而更换好以后的磁盘为新的热备磁盘。或者,管理员可以使用ucopyback,功能把数据从之前的热备磁盘上拷贝到更换好以后的磁盘上,恢复热备磁盘的功能。在下图中,每个条带被镜像到了卷组中另一个磁盘上。根据以下原则来使用RAI
11、D1/10: 选择RAID1/10当卷组中拥有2个或者更多的磁盘; 选择RAID1/10来满足高性能的写操作同时又能实现镜像的数据保护; RAID1/10的最大磁盘数理论上为该存储系统最大支持磁盘数量的一半。然而卷组并不会经常如此配置; 在手工创建卷组的时候需要考虑磁盘柜的故障保护。 RAID5概述RAID5是将数据条带化后,跨多个磁盘存储,当数据写入条带时,通过异或(XoR)运算生成校验位(P,如下图)。系统为每个卷组并行的存储校验数据和生产数据。因为RAID5这种数据保护方式需要生成校验位,所以需要使用额外的存储空间。这个额外空间我们称为“开销”,在规划存储容量时需要考虑在内。一个RAID
12、S卷组至少需要3块硬盘,因为每个卷组的保护数据会使用相当于一块硬盘的容量。理想情况下,当一次全条带写的时候生成校验数据,此时该条带的所有数据均位于控制器的内存中,这种情况下,异或(XOR)操作无需从底层物理介质中进行额外的读取操作。而当全条带写不可能的情况下,条带中的其余数据必须先读入内存,然后进行校验数据的计算,这个过程我们称为读-改-写或部分写,这两种情况就会对写的性能造成负面的影响,因为对于一个主机I/O会带来一些磁盘I/O(需要从磁盘读写数据),会引起额外的等待而且针对底层介质的其他请求可能会造成延迟。出于这个原因,通常对于那些主要为随机的、小块的数据写的应用不建议使用RAlD5.E系
13、列系统使用校验数据来恢复当单个磁盘故障造成生产数据的丢失。在这些场景中,受到影响的卷组会被置为降级模式,直至坏盘被替换而且数据重建完毕。此时,数据对于应用仍然是可用的,如果在一个RAID5卷组中有两块盘故障,那么数据就会丢失。如果在RAlD5卷组中有热备盘,那么当单磁盘故障发生时,E系列存储会自动的将热备盘加入到受影响的卷组,并且立即通过校验数据启动数据重建。而一旦故障盘被新的盘替换,存储管理员可以将之前的热备盘(也就是重建盘)永久的加入卷组,而将新的盘作为新的热备盘。或者管理员也可以使用“copyback”功能将之前的热备盘(重建盘)的数据拷贝到新的磁盘,然后将重建盘重新作为全局热备盘。在下
14、图中,请注意每个条带中的一段用于存放校验信息。而且条带中的校验段的物理位置是在整个卷组的磁盘中循环存放。根据以下原则来使用RAID5: RAID5卷组至少有3块或以上硬盘。 当需要高性能I/O时,选择使用RAID5. RAID5提供单盘故障数据保护能力 在一个RAID5卷组中不要超过30块磁盘。 当手动创建卷组时,需要考虑当一个磁盘柜或磁盘抽屉故障时的情景。 不要创建超过需要大小的卷组,否则当卷组中单盘故障后,卷组的数据重建时间会被延长。 RAID6概览RAID6组合条带功能跨多个磁盘,采用在写数据的时候生成2个校验位的保护机制(P和Q,如下图所示)。在每个阵列的卷中系统并行的存放校验数据和生
15、产数据。因为这个级别的保护产生的校验位会额外的占用存储空间。和运用在RAID5上的一样,P值由一个XOR运算得到。而Q值由一个里德所罗门复正交多项式计算获得。在RAID6卷组中最小硬盘数量是5个,因为数据保护使每个卷组会消耗2个硬盘容量。理想状况是,P和Q校验在一个完整的条带写中生成,其中特定条带中的所有数据同样以这种方式位于存储控制器的缓存中,这样无须为了保证条带的完整性而需从底层物理介质来执行单个读或者多个读操作来计算获得这2个校验值。在某些整条带写不可能实现的的情况下,为了计算校验某些过程中的特定条带数据必须先读入缓存,这被称为读-改-写或部分写这两种情况都对写性能有负面的影响,因为某些
16、磁盘I/O可能被用于处理单个的主机I/O,潜在的会引起延迟并且可能会使其他请求延缓到底层的介质层。由于这个原因,RAID6通常不被推荐到用于那些由小的随机写组成的应用场景。在某些双硬盘失效场景下E系列系统应用校验数据去恢复生产数据。在这些场景,当失效磁盘被更换掉且当数据重建时,受影响的卷组被置于降级模式。在这段时间,数据对应用程序依旧可用。在RAID6卷组中如果超过2个硬盘失效,将发生数据丢失。当一个磁盘失效时,在RAID6卷组中如果热备盘可用,E系列存储系统会自动指定可用的热备盘和受影响的卷组从现存的校验数据中重建数据。一旦失效磁盘更换,存储管理员就可以永久的指定前面的热备盘(即,重建的那个
17、磁盘)到这个卷组,将更换的磁盘指定为热备盘。另外一种选择,管理员可以应用“Copyback功能将数据从重建的磁盘拷贝到新的磁盘,将重建的那个磁盘返回给热备磁盘池中。在下图中,RAlD6的布局类似于RAID5的布局,但它有另外-一段的校验信息,在每个条带中,由字母Q来表示BTn二三根据以下原则来使用RAID6: RAID6卷组至少包括5个硬盘 当有高性能的I/O需求的时候选择RAID6 当需要在双硬盘失效的场景下保护数据的时候选择RAID6 RAID卷组的最大磁盘数量是30在手工生成卷组的时候考虑磁盘柜和磁盘抽屉失效时的保护不要创建大于实际需求的卷组,这样就会在磁盘失效发生的时候需要更长的时间重
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Lustre 解决方案
