大数据处理框架之spark.ppt
《大数据处理框架之spark.ppt》由会员分享,可在线阅读,更多相关《大数据处理框架之spark.ppt(13页珍藏版)》请在三一文库上搜索。
1、大数据处理框架之spark 分享人:黄宇鹏 目录 n背景 nHadoop回顾 nSpark简介 nSpark原理 nSpark on Yarn nYarn 生态系统 n建议 背景 n大数据时代 nHadoop在数据挖掘中的不足 q多次迭代,I/O延时大 q中间结果的序列化和反序列化 q简单的MR模式 VS 复杂的数据挖掘算法 q函数式编程 q图计算 Hadoop回顾 nMapReduce过程 qMap()函数 qReduce()函数 q执行一次,结果写入磁盘 nShuffle过程 q序列化和反序列化 q写磁盘 Spark简介 n基于内存的分布式计算框架 q适合多次迭代的计算 q支持多种操作,例
2、如:map,filter,join等 q提供多种数据处理工具,SQL,Streaming等 q支持多种开发语言Scala,java,python. n与hadoop结合进行数据处理 q对hdfs,hive,hbase进行访问 n处理速度快 Spark 简介 n运行模式 qStandalone模式 qSpark On Mesos模式 qSpark On Yarn模式 Spark 原理 nSpark主从结构 qDriver n 任务调度 n 容错处理 qWorker n 执行各种操作 n 保存数据 Spark 原理 nRDD(Resilient Distributed Datasets) q弹性分
3、布式数据集:一个只读、可分区的记录集 合(对象) q可进行多种操作:transformation(map,filter等 )和action(count,save等) q可持久化和进行分区 nDAG(Directed Acyclic Graph) qRDD依赖关系 Spark原理 nSpark调度过程 Spark on Yarn nSpark在Yarn的执行 Yarn简介 n资源管理器 q任务调度(多种调度算法) q资源分配(cpu,内存等) n可以运行多种分布式计算平台 qHadoop qSpark qStorm q Yarn 生态系统 建议 n大数据处理平台 q计算机基础 q深入底层源码 q读论文、结合应用 n模型和算法 q数学基础(高数、统计学、线代等) q深入模型与求解方法 q多读论文、结合应用(利用大数据平台)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据处理 框架 spark
链接地址:https://www.31doc.com/p-2313720.html