Net 客户案例 NVIDIATechCaseStudy0214zhCNHI.docx
《Net 客户案例 NVIDIATechCaseStudy0214zhCNHI.docx》由会员分享,可在线阅读,更多相关《Net 客户案例 NVIDIATechCaseStudy0214zhCNHI.docx(8页珍藏版)》请在三一文库上搜索。
1、11VIDIA走向成功的推动力,同时也是决定NVIDIA成败的关键。作为 视觉计算领域公认的领导者,我们力求产品多元化并迅速打 入新的市场。我们的图形处理单元(GPU)技术正在推动着医疗保健、科技、交通、娱乐等领 域的发展和进步,同时也为NVIDIA带来大量新的机遇.我们的工程计算场的性 能和可靠性无疑是NVIDIA率先向市场推出新款芯片设计、最终增加创收并为我 们的合作伙伴和客户提供价值的关键。要实现我们当前及未来的业务目标,我 们必须拥有一个高性能的存储平台。NetAppv技术案例研究将计算场打造成创新工厂NVIDIA如何借助NetApp存储实现工程计算容量翻倍,并加快创新步伐以开辟新市场
2、作者:NVIDIACorporation不懈的创新以及将新处理器设计快速推向市场的能力是NVIDIAIT存雌理,PethurajPerumal*尚KnTh的蚱升十)=lRd+三三Mn忧曲的芋罐件由NetApp实现NVIDIA计算工厂转型的结果通过瞰昧用基于控制器的智能缓存技术的 NetApp FAS6290 和 FAS6280 存储 系疣,优化处理器削工作流的存简境,NVIDIA实现了以下目标:计管工厂的整体处理效率提高到原来 的两倍多,每天的计算作业量从200万 墙0口到450万 编译性能提高多达19%且模拟运行次 数增加多达25% 可在任何指定时间同时执行60,000项 计算作业,实现工作
3、流提速 在不增阅预算且减少IT人手的情况下, 嬲更多操作和支持支持世界级的研发NVIDIA工程师设计了一系列的处理器,从为智能手机和平板电脑提供处理动力的微芯片到包含70亿个晶体管的巨型超级计算处理器,一应俱全。设计和模拟这些芯片是一项日益繁重且具有技术挑战性的任务。我们不断地生成文件,文件数量越来越多且文件越来越大。在过去的九个月里,我们的工程师创建了24亿份文件一相当于每天将近IooO万份文件.我们已积累超过15PB的工程数据,且蟾量几乎是每两年翻一倍.在预雕持不变而需求却持续增长的情况下,要应对这样的数据增长水平极具挑战.我们不希望产品工程团队在测试设计的同时还要分神去考虑存储问题,我们
4、当然也不希望存储成为研发(R&D)工作流程中的瓶颈。在任何情况下,我们的电子设计自动化(EDA)工作流都不能被延误或中断.计算作业一旦停止,就必须从头开始重新运行,可能会影响整个测试周期并推迟上市时间.所幸的是,我们基于NetApp存储的计算工厂能紧跟我们数千名工程师的创新步伐,帮助他们快速可靠地完成芯片设计、模拟和逻辑验证.为使我们工程师的创新工作不出现中断或延误,IT必须为他们提供具有最高性能的可用存储平台,专门用来为文件驱动式I/O密集型工程工作硒供暂存空间”和数据卷。随着数据的增长,我们团队的主要目标之一是最大限度地提高”CPU时间与实际时间”的比率,其中实际时间表示处理计算作业所需的
5、总时间,而CPU时间计算的是CPU主动处理任务所花的时间.t辟越高,我们计算工厂的效率就越高;不过,提高此比率需要一个I/O速度极快的存储平台。CPU等待存储响应所花费的时间属于空闲时间,会阚氐我们的整体效率.对存储层的技术要求几年前,我们曾尝试使用其他供应商的存储技术,即将所有磁盘呈带状分布到一个更大的阵列中去,致使我们遭遇了以下三个问题: 系统无法提供我们所需的线性性能。 小文件随机I/O成为瓶颈. 稳定性和可靠性不够.存储控制器故障可能会导致延迟上市;工作流中的所有活动作业可能要从头开始再来一遍.在评估问题解决方法的同时,替换当前的系统成为明智之举.鉴于以下原因,我们的团队选择了NetA
6、pp作为我们研发计算操作的支持后盾:性能.我们的册发计算操作具有很高的并发性,同时会有超过5000个计算节点访问存储,因此性能高低在很大程度上取决于存储控制器。我们始终希望存储控制器能用上最快的处理器,这样存储控制器就能以最多的并行网络线程来处理I/O请求。我们还需要高效处理小文件随机I/O操作的能力,因为这也是影响我们工作负载性能的主要决定因素.可扩展性。NetApp可让我们以模块化方式添加更多的控制器,从而在数据增长的同时确保最佳性能.我们可以水平扩展存储,这种模式对我们来说非常有效。同时还会降低风险,因为我们不会受单点故障的影响。打造一个经优化的自定义工程工NetApp积t接洽半导体市场
7、上的供应商以实现处理器设计工作流提速并梃一个能支持整个芯片设计生命周期的存储平台,NVIDIA对此深表感谢.我们经常与可靠性.我们需要类似NetAPPDataoNTAP8这样的成熟可靠的数据管理平台。使用高可用性对中的NetApp存储控制器集群可使我们在出现硬件故障的情况下提供无缝故障转移并执行更新,而不会对计算工厂中正在运行的作业造成任何中断。即使某个域发生故障,也不会让整个集群崩溃.效率.我们不断努力控制整体能耗和硬件占用空间,并尽可能地提高密度.NetApp提供许多能实现效率最大化的技术,包括与占用最少存储空间的NETAPP与Red Hat通力合作,并就如 何使用Linux内核中的预读算
8、法以及如 何优化客户端和存储间的1.0请求提供 培训,时间点Snapshot-副本保持数据一致性的功能。默认情况下,NetApp卷已经过精简配置,能减少初始存储空间使用量.像许多半导体设计公司一样,我们使用IBM Platform计算负载共享设施(LSF)作精简性。能否灵活使用网络文件系统(NFS)和通用Internet文件系统(CIFS) 快速配置存储并对工程文件提供共享访问非常重要.凭借NetApp统一存储 架构中的多协议支持,我们可以使用以下两种协议(见图1 ).业计弼件.NVIDIA期里借助NetApp 开发的存储骸知型插件来监控计算工厂 中提交的作业的可用存信资源并迸行报 告.这有助
9、于LSF计划程序在提交作业 时做出合适的决策,进而阳历出现作业 故障的几率.不冏的电子设计工具有不同的存储要求,NetApp针对各款工具提供了详细 的建议和指导.其中包括触实践、存 储架拖、配置和规模估筒,例如有关基 于NetApp Data ONTAP存储解决方案 部署的SynopsysVCS验证工作负载和 Perforce软件配置管理的信息.Data ONTAP 8.2NetApp FAS6290FAS6280如何借助NetApp存储使容量翻倍截至2012年,以NetApp存储为后盾,我们的工程计算基础架构基本能够满足需求。为了保证创新工作有条不素,我们需要支持更多的并发工作流并提高计算作
10、业的性能.为解决这一难题,我们部署了采用智能缓存技术的NetAppFAS6280和FAS6290存储系统以提高吞吐量,并将多个独立系统整合为高可用性对.同时,我们升级到了DataONTAP的更新版本,它提供了更多的并行网络线程来处理I/O请求,而且使CPU在所有核心间的利用率更加平衡。此外,我们还与NetApp工程部展开密切合作,联手进行基准测试并针对我他特定的EDA工具进行存储优化,这并未改变或影响我们工程团队的底层工作流(见边栏:”打造一个经优化的自定义工程工厂)借助其他NetApp存储系统、缓存和优化操作,最终我们计算工厂的整体处理效率提高了一倍多,每天的计算作业量从200万增加到450
11、万。我们可以在任何指定时间同时执行60,000项计算作业.CPU时间与实际时间的整体比率也有所提升一我们发现实际编译性能提高多达19%且模拟运行次数增加多达25%.吊&AA1:I(IBMLSF)图1)NVIDIA工程计算工F采用NetAppDataONTAP82.通过NFS和CIFS访问相同的文件系统时,DataONTAP完全保持了数睡)完整性.适用于处理器设计工作负载的NetApp FAS6200系列的五大优势:控制器内存(DRAM).由于每个控制器 拥有96 GB的内存,元数据可以缓存到 基本内存,这样对元数据的响应时间将 不足1雁秒.这对调整蛟大活动工作集 的大小至关重要.网络.FAS6
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Net 客户案例 NVIDIATechCaseStudy0214zhCNHI 客户 案例
