DTCC-Wing-新一代百度大数据查询引擎-刘成.pdf
《DTCC-Wing-新一代百度大数据查询引擎-刘成.pdf》由会员分享,可在线阅读,更多相关《DTCC-Wing-新一代百度大数据查询引擎-刘成.pdf(25页珍藏版)》请在三一文库上搜索。
1、 Wing - 新一代百度大数据查询引擎 刘成 百度大数据部QE团队 2015-04-13 QueryEngine技术介绍 技术发展、架构介绍 Wing的语义接口 语法、语义系统 执行优化 降低数据传输、提升计算效率 性能结果 runtime性能要比hive提高30% 百度线上query性能提升达4倍 概览 QueryEngine是一个编译器 编译:高级语言描述查询(HQL, Pig Latin) 优化:理解查询,优化用户计算逻辑 大量QueryEngine系统涌现 批处理:Hive/Pig 交互式:Spark SQL/Dremel/Impala/Apache Drill 流式计算:Storm
2、 QueryEngine与MR/Tez/Spark关系 更高层的抽象 更易用接口,充分利用不同框架计算能力 QueryEngine MapReduce (HCE) Storage (HDFS) Meta (UdwMeta) Resource (Ark) QueryEngine (Hive/Wing) ETL Apps(Ad, Search) 百度QueryEngine 2.0 QueryEngine 1.0:Hive 与社区版本严重脱节 0.8.1 vs 0.13.1 代码可维护性差,不易做定制性优化,bugfix困难 HQL不易嵌入用户自定义逻辑 QueryEngine 2.0:Wing 目
3、标:结构化数据处理引擎的公共组件 接口:HQL、CQuery 优化:基于关系模型的优化、基于llvm分析数据流优化 维护性:完全由QueryEngine团队开发和维护 百度QueryEngine服务 每天session数量: 1415w 每天处理数据量:2P 运行场景:例行任务 Frontends: 不同的Query 描述语言,产生一致的中 间表示 语义分析:类型检查、列 引用检查、函数检查、关 系算子语义检查 Optimizer: 变换中间表示, 关系代数优化 Runtime:实际的计算逻 辑,表达式求值,算子求 值,输入和输出 Backend: 执行框架,驱动 runtime算子执行 Wi
4、ng架构设计 QueryEngine技术介绍 技术发展、架构介绍 Wing的语义接口 语法、语义系统 执行优化 降低数据传输、提升计算效率 性能结果 runtime性能要比hive提高30% 百度线上query性能提升达4倍 概览 数据组织 Namespace, Database, Table Partition, Bucket 存储抽象 InputFormat/OutputFormat: 输入输出为二进制Record Serializer/Deserializer:输入输出为Tuple 类型系统 基本类型: boolean, int, float, double, string, binar
5、y 复杂类型: enum, list, struct, map 支持递归结构(指针): struct TreeNode TreeNode* left; TreeNode* right; HQL语义 HQL:多后端meta和SessionDB 会话临时表 session = DATABASE session:/; USE session; CREATE TABLE cnt_distinct_20130310 AS SELECT count(DISTINCT baiduapp_uid) FROM d efault.udwetl_bd_input WHERE event_day=20130310;
6、多存储后端 方便跨后端查询数据 Hive = DATABASE ; UDW = DATABASE MYSQL = DATABASE Select * from Hive.t1 join UDW.t2 on cond1 join MYSQL.t3 on cond2; CQuery接口 数据抽象:Table 操作抽象: Load、Sink、Select、Aggregate等 示例代码 QueryEngine技术介绍 技术发展、架构介绍 Wing的语义接口 语法、语义系统 执行优化 降低数据传输、提升计算效率 性能结果 runtime性能要比hive提高30% 百度线上query性能提升达4倍 概览
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DTCC Wing 新一代 百度 数据 查询 引擎
链接地址:https://www.31doc.com/p-3330137.html