欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PDF文档下载
     

    集群感知的内存计算系统.pdf

    • 资源ID:3335864       资源大小:1.58MB        全文页数:31页
    • 资源格式: PDF        下载积分:6
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要6
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    集群感知的内存计算系统.pdf

    CLAIMS:集群感知的内存计算系统 CLAIMS:CLuster-Aware In-Memory System for High Performance Data Analysis 周敏奇 华东师范大学云计算与大数据研究中心 华东师范大学云计算与大数据研究中心 提纲 实时(Human Real-time)分析的应用需求 计算机硬件的发展已使实时分析成为可能 内存、处理器、网络 内存集群计算环境下的数据处理瓶颈 通讯墙(Communication Wall)问题定义 通讯墙对数据处理的影响 CLAIMS系统 系统简介 性能对比 结论 华东师范大学云计算与大数据研究中心 实时数据分析型应用 批处理式分析-交互式分析 实时交互式数据分析(Human Real-time):思 绪的时速(Speed of Thought) Gartner:2012年实时商务智能软件市值$130 亿 股票交易异常检测客户关系管理供应链优化 华东师范大学云计算与大数据研究中心 提纲 实时(Human Real-time)计算的应用需求 计算机硬件的发展已使实时分析成为可能 内存、处理器、网络 内存集群计算环境下的数据处理瓶颈 通讯墙(Communication Wall)问题定义 通讯墙对数据处理的影响 CLAIMS系统 系统简介 性能对比 结论 华东师范大学云计算与大数据研究中心 机架式服务器内存容量 2 ×CPU服务器,768 GB内存,内 存价格 $6,000 4 ×CPU服务器,1.5 TB内存,内 存价格$12,000 8 ×CPU服务器,3 TB 内存,内存 价格$24,000 服务器具备大容量内存的扩展能力, 价格已在可接受的范围之内,内存内存 时代已经来临。时代已经来临。 RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM RAM QPI CPU CPU 2 Intel IVY Bridge处理器,768 GB内存 12×32GB12×32GB CPUCPU R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M CPUCPU QPIQPI CPUCPU CPUCPU CPUCPU CPUCPU R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M R A M 4 IVY Bridge,1.5 TB内存8 IVY Bridge,3 TB内存 Source: http:/wccftech.com/intel-broadwell-supports-ddr4-memory-server-platforms-arriving-consumers-2014/ 2014年间,DDR3内存价格将有13%的下降 DDR4内存价格将有10%的下降 华东师范大学云计算与大数据研究中心 超大规模内存集群的出现 1000节点集群,传统X86 1U服务器需要24机架 1000节点集群,HP Gemini仅需一个机架 单个微服务器,1×8核处理器,4×32GB内存, 1×1TB磁盘 单个Gemini机架,128TB内存,1PB磁盘 面向大数据的内存集群计算时代已经来临面向大数据的内存集群计算时代已经来临 传统X86系统扩展HP Gemini 服务器扩展 降低 94% 空间 89% 能耗 63% 成本 华东师范大学云计算与大数据研究中心 具有充沛的计算能力 单CPU,12核,24超线程,2.7Ghz时钟 频率已商用 单CPU具备的累积时钟频率:64.8Ghz 处理器技术已具备100核的扩展能力,但市 场依旧需保持单核的高频率(历史单线程 程序),但但处理器已具备充沛的内存数据处理器已具备充沛的内存数据 处理能力,未来将更为富足处理能力,未来将更为富足 Cache(s) Arch states (Registers) Arch states (Registers) Core 1 ALU Cache(s) Logical Processor 1 Logical Processor 2 Arch states (Registers) Arch states (Registers) Core n ALU Cache(s) Logical Processor 1 Logical Processor 2 NUMA RAMNUMA RAM 众核处理器架构 Source: http:/2.bp.blogspot.com/-liLwtV_GT_o/T5CSRWJqxoI/AAAAAAAAAPk/6dEJ6kvyzzc/s0/IntelsMulticoreReality.png Number of Cores inside CPU Source:In-memory data management: an inflection point for enterprise applications. 华东师范大学云计算与大数据研究中心 内存访问带宽充足 单通道,1 DIMM,1600内存, 带宽:25.6GB/s 单通道,3 DIMM,800内存, 带宽:12.8GB/s 单CPU,4通道内存带宽: 51.2GB/s 单服务器,2CPU NUMA内存 带宽:102.4GB/s 多通道的内存控制能提供足够的 内存带宽 CPU RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM CPU RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM RAMRAM QPI Channel A Channel B Channel C Channel D Channel E Channel F Channel G Channel H DIMM 3DIMM 2DIMM 1DIMM 1DIMM 2DIMM 3 1600 Mbps 1333 Mbps 800 Mbps 1DIMM/ch 1333 Mbps800 Mbps 800 Mbps 2 DIMM/ch3DIMM/ch 单通道内存带宽 单条内存带宽 Intel E5-2697, IVY Bridge 处理器 Source: Samsung DDR4 SDRAMbrochure,2013.6 IMC QPILC QPILC IMC 华东师范大学云计算与大数据研究中心 内存访问延迟严重 过去30年内,内存访问带宽增速比访 问延迟高200倍 低访问延迟可以提升访问带宽 高访问带宽无法降低访问延迟 访问延迟受硬件制成cache命中率,TLB 命中率等影响 内存访问延时很大,形成内存墙问题 TLB Phys. Virt.Core L1 cache L2 cache L3 cache TLB Phys. Virt.Core L1 cache L2 cache NUMA RAMNUMA RAM CPU L1 D Cache (clk) L2 Cache (clk) L3 Cache (clk) Memory (clk) 顺序访问 4 clk11 clk 14 clk16.2 clk 页内随机访问 4 clk11 clk 18 clk59.4 clk 完全随机访问 4 clk11 clk 38 clk178 clk Intel E5-2697内存访问结构 Intel E5-2697,2.7Ghz, 内存访问延迟 内存墙问题,始自1994年 华东师范大学云计算与大数据研究中心 数据中心网络部署 10 按照数据中心普遍铺设10G网络计算,节点与节 点之间的最大数据传输带宽为1.2GB/S 华东师范大学云计算与大数据研究中心 提纲 实时(Human Real-time)计算的应用需求 计算机硬件的发展已使实时分析成为可能 内存、处理器、网络 内存集群计算环境下的数据处理瓶颈 通讯墙(Communication Wall)问题定义 通讯墙对数据处理的影响 CLAIMS系统 系统简介 性能对比 结论 华东师范大学云计算与大数据研究中心 Amdahls Law:平衡系统定理 Amdahls Law:平衡的系统需配备1 CPU周期1 bit的I/O带宽 CPU RAID NUMA RAMNUMA RAM Ethernet CPU RAID NUMA RAMNUMA RAM Ethernet 4clk/bit 2× Intel E5-2697 处理器(2.7Ghz,12核,24线程), 24 ×32GB RAM(1600),10×72k disk,10GB Ethernet 27clk/bit 13clk/bit 以磁盘为数据存储媒介, 系统瓶颈在于磁盘I/O 集中式环境下,以内存为 数据存储媒介,系统瓶颈 在于内存 分布式环境下,以内存为 数据存储媒介,系统瓶颈 在于网络 内存集群计算的瓶颈在于通讯, 但Hadoop的瓶颈在于磁盘 华东师范大学云计算与大数据研究中心 通讯墙问题 13 CPU Memory Node CPU Memory Node Communication Wall 设单个节点:2处理器,12核, 24超线程, 768GB内存,10G 以太 网 拥有的内存访问带宽 102.4GB/S 拥有网络带宽1.2GB/S 拥有处理资源48核 数据处理选择率1.2%时 网络传输成为瓶颈 通讯墙(Communication Wall):内存集群计 算环境下,通讯成为整个系统的瓶颈 华东师范大学云计算与大数据研究中心 通讯瓶颈实验 数据访问性能比较 硬件: 2CPUs, 16GB Memory, 1G bps Ethernet 数据表: 4GB 表文件,包含可变长度的记 录,存储于本地磁盘和远端内存 数据记录大小影响 数据获取性能 随机磁盘数据性能 干扰很大 Disk I/O Bottleneck: Vulnerable to the random disk access Memory Wall: Vulnerable to the data placement in the memory (partly because of the length of the record) Communication Wall: Limited network bandwidth comparing to tremendous large data movement in the cluster. 华东师范大学云计算与大数据研究中心 通讯墙对并行度的影响 Amdahls Law:并行系统性能提升率(Soverall), 由不可并行因子(1-F)和可并行因子(F) 的并行度(Sopt)决定: 多任务启动时间开销 0Time nodes 启动时间处理时间 其他不可并行因子:数据倾斜,处理干扰具 有相类似的作用 内存集群系统与磁盘集群系统相比具有更低 的可扩展度,为此数据布局方面,针对不同 大小的数据集采用不同的并行度。 内存集群系统Hadoop系统 任务启动时间 数据处理时间 任务启动时间 数据处理时间 华东师范大学云计算与大数据研究中心 通讯墙对索引的影响 在内存中扫描64MB数据块仅需50-100ms 获取数据的起始时间段内性能较为不稳定 现有CPU缓存较大,索引访问可获得较高的稳定速度 结论:访问起始时间段内,较高选择率时,索引依然适用;对于需多遍访问数 据的操作符,索引有效;集群环境下,每个参与处理节点,需要分配较多操作 符,以降低中间结果数量 单机索引与顺序扫描性能对比,4GB文件多机远程索引数据获取性能 与选择率50%的顺序 扫描对比,索引性 能依然更高 集群环境下,索引 性能受限于网络 华东师范大学云计算与大数据研究中心 通讯墙对执行引擎的影响 全局分块并行系统,如Hadoop,Spark,Shark等系统,在数据传输前需等待 全局流水线并行系统,如Volcano,SCOPE,DYRAD,CLAIMS, SCAN Filter Map SCAN Filter Map SCAN Filter Map Join Reduce Join Reduce FilterFilter Map Aggregat ion Reduce Map Synchronization e.g., Tendem, SQL Server, Gamma, Spark 分块并行中嵌入流水线并行 流水线并行中嵌入分块并行 Aggregation Exchange Filter SCAN Node Filter SCAN Node Filter SCAN Node Filter Join Node Filter Join Node Exchange Partitioned Partitioned e.g., Volcano, SCOPE, DYRAD,CLAIMS 华东师范大学云计算与大数据研究中心 通讯墙对查询优化的影响 任务执行节点的选择和组合,影响数据传输量 流水线式并行处理,数据传输具有时效性 与传统查询优化相比,需要动态的优化策略; 与MapReduce优化相比,需要优化Reduce端的数据局部性 华东师范大学云计算与大数据研究中心 提纲 实时(Human Real-time)计算的应用需求 计算机硬件的发展已使实时分析成为可能 内存、处理器、网络 内存集群计算环境下的数据处理瓶颈 通讯墙(Communication Wall)问题定义 通讯墙对数据处理的影响 CLAIMS系统 系统简介 性能对比 结论 华东师范大学云计算与大数据研究中心 CLAIMS简介 CLAIMS:CLuster-Aware In-Memory System for high performance data analysis 应用目标:OLAP型应用,类似于Teradata 数据类型:关系型数据为主,可以扩展到 非结构化数据 数据存储:按列存储 优化目标:解决通讯墙问题 20 华东师范大学云计算与大数据研究中心 CLAIMS的定位 CLAIMS与Shark(Spark),Hive(Hadoop)在同一层次上 应用目标:对接现有MySQL客户端,R统计分析包,报 表软件 性能目标:对海量关系型数据实现实时分析 数据来源:1.操作数据库系统的关系型数据 2. 抽取自非结构化数据 HANA HDFS CLAIMS HDFS Spark Hadoop MR SharkHive Teradata Application SQL Client Report R Package SQL 华东师范大学云计算与大数据研究中心 对非结构化数据的支持 底层存储采用HDFS 现有大量的数据存储于HDFS之中 希望能融入Hadoop生态圈 简化多类源数据的融合问题 数据抽取:实现HDFS非结构到内存关系数据转换 Distributed File System (e.g., HDFS) Memory Data Memory Data Open Next Close ExtractorInputState LoadInputState Schema Open Next Close ExtractorInputState LoadInputState Schema Memory Data Open Next Close ExtractorInputState LoadInputState Schema 华东师范大学云计算与大数据研究中心 系统架构 硬件: 面向高性能集群,通过高速网络互连. 每个节点拥有多个处理器和大容量内存. 架构: Master/Slave结构,由无共享节点组成的集群 优点:高可扩展性、高性能、解决通讯墙问题 Master SlaveSlaveSlave Distributed File System (e.g., HDFS) SlaveSlave Scheduler Operator Expander Clients Data Exchanger Memory DataMemory DataMemory DataMemory DataMemory Data Optimization Query Parser Resource Manager SQL Program Data Flow Control Flow Results 华东师范大学云计算与大数据研究中心 性能对比实验 任务启动时间 数据集 证交所交易数据 1天(5GB数据), 1周(40GB数据) 1月(90GB数据) 查询 证交所分析查询 集群 10 × HP DL388P,2 × 4核 CPU,16GB,5 × 1TB磁盘, 1GB以太网 华东师范大学云计算与大数据研究中心 性能对比(1) 数据导入内存速度 数据导入磁盘速度 华东师范大学云计算与大数据研究中心 性能对比(2) Filter操作时间Join操作时间 Shark在40GB,90GB数据集上未能完成 华东师范大学云计算与大数据研究中心 性能对比(3) Aggregation时间对比 真实查询性能对比 华东师范大学云计算与大数据研究中心 性能提升原因分析 采用C+编码,实现有效内 存控制,包括布局、回收、 替换 实现非一致内存访问 (NUMA)优化, 通过Data Exchange操作符, 实现仅需求数据传输 通过Operator Expander操作 符,实现操作符扩展,以充 分利用网络带宽 数据传输、数据局部性的全 局优化 索引支持(hash索引) 28 分块并行 华东师范大学云计算与大数据研究中心 时间表 内存集群计算组成员: 周傲英,周敏奇,王立(博士生),董少婵(硕士生, 女),顾伶(硕,女),李永峰(硕),张磊(硕),张 新洲(硕)。 系统开发时间表: 2012年9月-11月,需求分析 2012年11月-13年3月,系统架构设计 2013年3月-11月,系统主体开发完成 2013年12月-14年4月,代码整理,文档整理,工具开发 2014年4月-5月,第一个开源版本发布 华东师范大学云计算与大数据研究中心 结论 内存集群计算是应用需求和硬件发展的必 然趋势 通讯墙问题成为内存集群计算的主要瓶颈 内存集群系统的可扩展性比磁盘集群系统差 流水线式并行处理可有效利用带宽 动态查询优化可有效解决通讯墙问题 CLAISMS系统在实时处理数据分析方面已获 得较高性能 希望大家多多支持国货。 华东师范大学云计算与大数据研究中心

    注意事项

    本文(集群感知的内存计算系统.pdf)为本站会员(椰子壳)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开