大规模并行数据库技术分析与发展展望报告.pdf

上传人：来看看

文档编号：3333011

上传时间：2019-08-13

格式：PDF

页数：32

大小：2MB

《大规模并行数据库技术分析与发展展望报告.pdf》由会员分享，可在线阅读，更多相关《大规模并行数据库技术分析与发展展望报告.pdf（32页珍藏版）》请在三一文库上搜索。

1、大规模并行数据库技术分析与发展展望报告何鸿凌/业务支撑系统部 2 架构特点技术要点分析未来展望并行数据库技术分析与发展展望 3 什么是并行数据库（MPP DB） Parallel database system seeks to improve performance through parallelization of various operations such as loading data ,building indexes, and evaluating queries by using multiple CPUs and Disks in Parallel. Wiki

2、pedia 并行强调多节点同时执行，共同解决一个大问题。在严格的高性能网络环境中，严格的执行要求和反馈时限。分布式强调数据或计算分布在不同节点之上，对上提供透明性（位置透明性、任务透明性等）。 MPP DB HDFSMRSpark Sharding DB Share disk DB 4 三种构建数据库集群的方式 Share nothing 每个节点是一个完整的数据库（包括执行&存储），数据Hash 分布。两阶段提交。 Share Disk 节点间共享文件存储，存储对计算透明。单节点失效不影响全局。节点内并行，节点间并行。 Sharding 每个节点是一个完整的数据库（包括

3、执行&存储），数据由应用决定分布。基本无跨节点事务。传统技术代表：DB2传统技术代表： ORACLE Mysql集群新代表：各类典型MPP DB，例如Gbase 8a、 Vertica、GP、ParAccel 新代表：各类SQL over Hadoop，比如Impala、 SparkSQL等。Google mesa 均可视为并行数据库范畴存储存储存储执行执行执行互联网络存储存储存储执行执行执行互联网络存储存储执行执行执行存储总线分布式数据库范畴 5 并行数据库的应用案例 eBayFacebook TwitterChina Mobile 6 并行数据库的特点并行数

4、据库是大数据基础设施中的重要组成部分之一。Hadoop、 MPP DB、 NoSQL、流处理、内存数据库等技术各有适用范围。并行数据库（特指Share nothing的MPP DB结构）适合以下场景：适合结构化数据。半结构化和非结构化数据不符合关系理论，用RDBMS并不合理和优化适合不是简单存和取，而是有大量库内分析的场景。例如：多表关联的复杂查询和处理。适合临时、灵活的任务。例如：自助分析和即席查询等一次性任务、交互性要求较高的。适合一次写多次读的操作。并行数据库需要在数据分布（计算Hash）和存储格式（比如列存、压缩、索引、页面统计信息等）方面进行较多的处理以便为查询进行优化。

5、并行数据库的缺点存储和计算紧密耦合，扩展受限，节点故障情况下性能下降严重，大规模集群可用性。 7 架构特点技术要点分析未来展望并行数据库技术分析与发展展望 8 并行数据库中的主要功能模块执行引擎查询分析和执行器分布式事务分布式锁并发控制存储引擎副本管理数据分布数据存储格式管理功能元数据管理 3A 9 节点架构风格：有Master和无Master Master节点承担的主要功能：访问入口、元数据管理、SQL Parser、生成执行计划和任务调度、管理两阶段提交。有专职Master无专职Master 典型产品：GP、AsterData、 ParAccel、Ha

6、wg等 Master一主一备（类似NameNode HA)，数据同步，故障时候切换优点：架构简单，不影响数据节点效率，不形成性能短板缺点：不能动态伸缩，无法负载均衡，切换影响大（需要关闭所有连接，重启数据库）典型产品：Gbase 8a、Vertica、Teradata、DB2、 Impala 、IBM BigSQL、HP DragonRed、Vertica VIVE等，数据节点和Master节点代码部署到一台物理机，被连接上即充当此次连接的Master 优点：类似NameNode Federation提供足够的扩展性，一个节点失效不影响数据库整体状态缺点：由于装载、大查询合并

7、、导出等一般在主节点执行，因此可能影响数据节点的性能，形成短板。元数据需要全局协调。两种方式各有优劣，在大规模集群下，无专职Master架构优势更加明显，其向“多Master”架构发展也很容易（Gbase8a、Vertica大集群模式）。多Master是未来方向，Master功能分拆，通过Zookeeper之类的软件进行协调。提供良好的扩展性和高可用的同时，保证足够的透明性，保证数据节点的对等性。 10 存储引擎的关键技术点：数据分布按行进行Hash分布是 MPP的主要特征。其他分布方式，包括一致性Hash都难以充分发挥MPP架构的优点。因为无法提供给执行引擎用于查询优化的

8、元数据，以及无法控制数据的摆放这种紧密耦合的非透明带来了巨大的好处（同样分布的表的高效关联），同时也带来了麻烦（扩展性、高可用等）一些改进的SQL over Hadoop方案借用了这一点，比如HDFS Colocation、Pivotal Hawg、Vertica VIVE等没有解决Hash分布的解决方案都难以处理多个大表关联（Join）的问题，他们多通过预关联的方式来规避这个问题，形成某种类似 OLAP多维立方体的解决方案（比如Google Dremel、Mesa，eBay Kylin等）；或通过 shuffle实现重新分布。 11 存储引擎的关键技术点：存储格式行存储

9、数据按行依次存储，最传统的数据存储方式适合按行访问的场景，比如 OLTP型负载通过索引解决某列字段快速查找和关联的问题列存储数据按列或列族依次存储，由于重复数值多为同列，因此压缩率高数据即索引，适合按列访问的场景，比如OLAP型负载 “仅列存储”与“列存储+ 针对性优化的执行引擎”有很大差别行列混合存储先行后列，或者先列后行索引或统计信息紧挨数据存放典型的O记风格，有过渡创造需求的嫌疑。 12 行存，列存的测试结果数据加载单表查询多表查询列存V6:17:570:47:160:01:50 列存G6:20:110:41:050:09:57 行存G3:00:1

10、11:10:310:37:16 行存A3:16:561:10:030:32:28 HIVE1:37:051:16:560:42:57 以上是8个节点8T数据的测试情况由于源文件是行格式，因此列存模式加载慢。插入和删除也是同样的情况除全表扫描情况以外，列存模式查询比行存快 13 存储引擎的关键技术点：文件系统裸设备直接通过块设备的接口(Block I/O)使用存储器。由于没有中间环节和多层缓存，因此性能较高，但实现上要考虑多种操作系统，多种块设备的问题。现在已经很少采用。存储引擎块设备存储引擎块设备 OS文件系统存储引擎分布式文件系统操作系统文件系统利用POSIX

11、接口进行数据的存取。缺点是经过了额外文件系统层，存在性能损失；优点是屏蔽了复杂的设备和OS，易于移植，可以利用文件系统的缓存。目前大多采用这种方式分布式文件系统一部分并行数据库以文件存储系统或外部表（两种方式有所差别）等形式支持查询HDFS 或Hbase中的数据。这其实是SQL over HDFS的范畴，可以降级满足部分查询需求。 14 存储引擎的关键技术点：硬件的发展硬盘依靠旋转结构和磁介质存取信息。SAS/SATA 两种接口固态盘（SATA）依靠闪存进行存取，随机IO提升明显。满足摩尔定律，价格持续下降。 PCIe Flash卡依靠闪存进行存取，通过计算机总线

12、提供访问，性能提升更加明显主内存RAM 依靠RAM，存取速度极快，但需解决易失性，价格持续下降。 15 存储引擎的关键技术点：硬件的影响当前：磁盘-数据存储，电子盘-缓存，内存-缓存。 Gbase8a、Verica利用内存形成了写优化区大多数MPP都在内存中开设大容量缓存，比如Teradata的内存多温度方式大多数MPP均开始通过TableSpace支持混合存储（磁盘+SSD）大多数MPP均可以支持将临时文件缓存至SSD 近期：电子盘-数据存储，内存-缓存，磁盘-数据备份电子盘价格已经迅速接近企业级硬盘SAS，内存越来越便宜 Exadata的全SSD配置，Teradata的全

13、SSD配置其他MPP均可以不做任何改动将底层数据存储硬件换为SSD 未来：内存-数据存储，电子盘-快照和日志，磁盘-数据备份电子盘和内存更加便宜通过新的存储硬件，解决了MPP中长久一来的困难典型解决方案：柏睿Rapids DB、HANA 16 执行引擎的关键技术点操作语言申明式语言过程式语言系统优化基于规则基于成本各类SQL over Hadoop或类似的方案借用了部分或全部的并行数据库查询引擎的设计理念，并在逐步完善中。例如： Hive/Tez/Stinger/Impala/SparkSQL目前是基于规则优化，正在尝试基于成本的优化器 SparkSQL 流水线、Pre

14、sto的流水线、Pivotal Hawq/IBM BigSQL/Vertica VIVE的流水线 Pivotal Hawq/IBM BigSQL/Vectorwise on HDFS/HP DragonRed /Vertica VIVE基于成本的优化器 Pivotal Hawq/Vertica VIVE基于Hash分片的并行查询引擎执行引擎面向计算，借用比较容易。存储引擎较难，因其面向数据存储格式，对HDFS有较大改动。分布式管理两阶段提交时钟同步并发管理锁多版本 17 保障系统高可用的策略高可用指节点失效的情况下，通过机制（一般是副本）屏蔽对数据库的影响。不包括为了保证

15、数据安全所做的备份。容灾、双活可以视为远端高可用。 Node 2 Node 3 Node 1 数据节点2 数据节点1 数据节点3 副本策略数据同步or数据处理逻辑同步 NRW策略同步模式和异步模式副本分布物理节点或逻辑节点轮换、捆绑或自定义故障与恢复故障接管过程，高可用级别恢复过程无法恢复下备机接管过程 18 副本启用时性能下降问题的分析及解决以上是24个节点退服一个节点的测试情况。性能下降比例超过预期。这还不是最坏的情况 G产品由于逻辑数据库节点设计性能下降最少产生的原因在于“并行”的本质，每个节点承担同样的能力，故障情况下接管接点任务加重。这与Hadoop有非常大的

16、差别解决办法：1、预留资源，避免雪崩；2、及时监测和恢复；3、快速使用备机退服前 SQL-1 （查询）退服后 SQL-1 （查询）恢复后 SQL-1 （查询）副本启用时执行时间增长率退服前 SQL-2 （删除、插入）退服后 SQL-2 （删除、插入）副本启用时执行时间增长率恢复后 SQL-2 （删除、插入） I产品1254s7254s1237s478%149s1258s744%367s V产品24s32s25s33%17s25s47%18s G产品294s360s313s22%388s527s36%395s 参考http:/ 19 系统的扩展和收缩希望能追求线

17、性扩展性，但是并行数据库天生不足，目前最大的生产集群不超过300节点（指典型的MPP产品，一些改进型的SQL over Hadoop可扩展性较高，但性能弱于前者）。影响扩展性的问题包括：高可用的复杂性、并行任务无法分担、文件系统和元数据任务无法分担、某些情况下的网络负担。数据节点数据节点4 数据节点数据节点2 数据节点数据节点3 数据节点数据节点1 添加新节点添加新节点参考http:/ 20 与Hadoop的集成 Hadoop MR 通过Inputformat/Outputformat的方式读写并行数据库的数据 VerticaTeradataHawg提供的针对性InputFormat

18、OutputFormat 通过connecter进行并行数据库和Hadoop的数据交换 Sqoop数据库提供的connecterETL工具DB2联邦并行数据库将HDFS作为一个文件系统 HawgVertica VIVE 并行数据库以外部表等方式访问HDFS的数据（SQL over HDFS） GP on HDFS Hawg的PXF Vectorwise on HDFSIBM BigSQL 并行数据库通过UDF调用MR并返回结果（表函数方式）并行数据库提供MR的框架，通过UDF可以编写运行于数据库之上的MR AsterData SQL-MR 21 其他关键技术点负载管理配额管理索引机制

19、监控与优化数据安全性保障备份容灾双活 22 三类并行数据库的实现和代表产品典型MPP 数据分片：HASH 存储引擎：与执行引擎紧密结合，并使用本地文件系统，数据完全本地化执行引擎：完整的SQL支持，基于成本的优化代表产品： Gbase8a Vertica GP DB DB2 MPP over HDFS 数据分片：HASH 存储引擎：与执行引擎紧密结合，使用HDFS，但有自己的文件格式，尽量保证数据本地化，本地读执行引擎：完整的数据库引擎（包括锁、日志、并发管理、索引等），完整的SQL 支持，基于成本的优化代表产品： GP Hawg（DB无副本） Vertic

20、a VIVE（DB有副本） SQL over HDFS 数据分片：按文件块存储引擎：无，使用HDFS 文件格式(orc、Parquet)元数据使用Hive、Hcatalog 或自定义（SparkSQL）查询引擎：部分SQL，基于规则的优化代表产品： ImpalaSparkSQL Presto IBM BigSQL HP DragonRed 性能高扩展性低性能较高扩展性中性能低扩展性高 23 典型MPP over HDFSHAWG Interconnect Local Storage HAWQ Master Query Optimizer Local TM Query Ex

21、ecutor Parser Dispatch Catalog NameNode Local Temp Storage Segment Host Query Executor HDFS PXF Segment Segment DataNode Local Temp Storage Segment Host Query Executor HDFS PXF Segment Segment DataNode HDFS ScanBars b HashJoinb.name = s.bar ScanSells s Filterb.city = San Francisco Projects.beer, s.p

22、rice MotionGather MotionRedist(b.name) ScanBars b HashJoinb.name = s.bar ScanSells s Filterb.city = San Francisco Projects.beer, s.price MotionGather MotionRedist(b.name) 24 典型SQL over HDFSBigSQL 25 性能对比情况 VIVE(HDFS)和ext4下的TPC-H测试结果 GP DB与Hawg测试结果类似 26 架构特点技术要点分析未来展望并行数据库技术分析与发展展望 27 数据库虚拟化：DB/D

23、W as a Service 云计算模式改变IT业态数据库虚拟化的实现和案例带来了下列变化，并导致了软、硬件的变革加速为大规模设计更大的集群。资源复用，按需、灵活计费，更经济，但大有大的难处更强的管控能力。资源隔离、负载管理、配额管理、灵活地计量和多租户的监控从大量的On Premise到Cloud-Based 头部少量的大企业将通过私有云支撑各类IT 系统的基础需求尾部大量的中小企业通过公有云降低IT系统的TCO 数据库在私有云和公有云中面临同样的局面物理资源集群1 物理资源集群 2 物理资源集群 3 DB1DB2DB3DB4DBn 数据库沙盒1 尚处于发展中 AW

24、S RedShift Openstack Trove (DBaaS) 28 并行数据库软件架构的发展趋势功能模块（组件）分工细化现在：主节点和数据节点，或者完全对等的节点未来：接入节点、协调节点、元数据节点、日志节点、安全节点、 SQL解析和优化节点、数据装载和导出节点、数据节点集群/应用机柜数节点数 Ingest Nodes Spare Nodes Data Nodes Talisker152704515210 Ardbeg152704515210 Macallan (edw-pulse) Source data Hive 2366228 JohnnieWalker Main

25、Source data - Oracle 2366228 Balvenie1183114 从设计架构到软件定义架构（SDX）组件的数量通过配置按需定义，一开始就考虑并行、负载分担和可扩展组件之间通过Zookeeper之类的方式进行协调，实现高可用，松耦合，屏蔽内部细节进行软硬件针对性优化针对性硬件优化：通过全内存方式提高大规模集群下元数据管理服务的SLA，比如 NameNode把目录结构放在内存里面针对性软件优化：数据装载节点接受数据、计算Hash、转为指定的文件格式（比如按列）、压缩。这一系列过程均为计算密集型，且与数据分布无关。为了避免对数据节点造成不平衡的负荷，可以通过MR

26、、Spark等实现，然后通过RDMA的方式提供给数据节点保存 29 并行数据库硬件架构的发展趋势存储当前以SAS硬盘为主要存储器近1到2年可能以电子盘SSD为主要存储器未来将以RAM为主要存储器，而SSD存储快照和日志用于恢复，硬盘用于备份计算因分工细化，计算所需的不同，计算能力也应该专业化。X86，ARM，GPU，FPGA 网络以太网虽然在大多数情况下足够，但仍有缺陷。延时、带宽、成本、大规模组网部分组件间通信对网络很敏感：比如元数据的读写；部分场景对网络敏感，比如装载，非分布键查询等基于Infiniband的RDMA，提供了比以太网上的TCP/IP更好的性能，解决了软件

27、的难题思考：硬件性价比提升很快，不要用提升软件的复杂度的方法去省硬件。KISS法则提供了更好的性能、扩展性和高可用。另外：一体机是非云方式下交付并行数据库的绝好方式。 30 内存型并行数据库的构想通过快速的RAM实现计算和存储分离（类似Hadoop）。高扩展、高可用。保留了精确的数据划分（Hash）以实现高效的关系型操作，特别是多表JOIN比MR高效多个数据分区承载于数据节点上（类似region之于regionserver）。数据分区拥有一定的副本。通过SSD快速保存快照和日志，以便所有副本失效后重建（数据分区足够小，分钟级载入）由于只需要CPU和内存，数据节点可以软件的形式运

28、行在VM、LXC上，可以通过Openstack、 Docker、YARN或mesos进行分配和管理 RDMA over IB 快照服务 SSD+DISK 日志服务 SSD 接入辅助节点：元数据、安全、装载、导出、集群管理与协调（zookeeper） N个协调节点 RAM M个数据节点 RAM 计算框架存储框架 31 小结如有您有大量的结构化数据，并行数据库将是您大数据工作箱中不可或缺的部分。并行数据库最好能与其他大数据工具统一进行管理，例如安装、监控、运维、资源池申请与分配等。无论在公有云还是私有云，并行数据库可能会发展得越来越大，专业性更强，经济上的考虑也将变得不一样。天下武功，唯快不破。随着趋势的发展，内存可能会成为数据存取的主要发生地，将有效解决当前计算和存储紧密耦合的并行数据库难题。软件定义的架构是未来趋势。从设计上必须考虑灵活地配置各个组件的位置和数量，任何环节皆可以并行，各个组件间通过zookeeper之类软件实现高可用和松耦合。 32 感谢聆听！ Hongling He

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

6 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 大规模并行数据库技术分析发展展望报告

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：大规模并行数据库技术分析与发展展望报告.pdf
链接地址：https://www.31doc.com/p-3333011.html