Spark平台在电信运营商的应用实践.pdf

上传人：哈尼dd

文档编号：3331049

上传时间：2019-08-13

格式：PDF

页数：31

大小：841.17KB

《Spark平台在电信运营商的应用实践.pdf》由会员分享，可在线阅读，更多相关《Spark平台在电信运营商的应用实践.pdf（31页珍藏版）》请在三一文库上搜索。

1、Spark平台在电信运营商的应用实践亚信大数据平台田毅目录项目实践分享基于Spark改造用户标签分析查询平台基于Spark Streaming改造内容识别处理平台一些心得分享如何用好External DataSource API 高效的在Spark Streaming中引用外部数据基于Spark改造用户标签分析查询平台 3 TCL脚本基于Spark改造用户标签分析查询平台改造前的设计 4 数据库指标表通信数据上网数据数据清洗指标计算标签计算标签表接口表用户数据探索客户群计算 SQL 基于Spark改造用户标签分析查询平台改造前的问题 1 标签数量越来越大，

2、数据库负载过高，扩展成本高 2 标签表的列数随着标签数量增加不断增多，部分现场达到2000+，只能通过分表的方式解决，查询时需要Join操作 3 标签与指标的计算无法摆脱SQL的约束，无法快速集成机器学习的算法 TCL脚本基于Spark改造用户标签分析查询平台第一次改造设计: 小试牛刀 6 数据库指标表通信数据上网数据数据清洗指标计算标签计算标签表接口表用户数据探索客户群计算 SparkSQL HDFS 基于Spark改造用户标签分析查询平台改造后的好处 1 使用SparkSQL Parquet的方案，有效保证了查询效率 2 原有系统基本不用太大改造 3 查询系统具备平行

3、扩展能力未解决的问题 1 标签与指标的计算无法摆脱SQL的约束，无法快速集成机器学习的算法产生出来的新问题 1 增加了从数据库倒出数据，加载到HDFS的额外步骤 2 增加了从文本数据转化为Parquet格式的额外步骤 SparkSQL 基于Spark改造用户标签分析查询平台第二次改造设计：大刀阔斧 8 HDFS 指标表通信数据上网数据数据清洗指标计算标签计算标签表接口表用户数据探索客户群计算 SparkSQL 基于Spark改造用户标签分析查询平台改造后的好处 1 通过SparkSQL替换掉了原有的数据库，整个系统的扩展性进一步增强 2 两套SparkSQL可以根据各自忙闲

4、时的不同，共享整个系统的计算资源遗留的问题 1 没有摆脱标签分析算法对于SQL的依赖 2 系统前端仍然依赖ETL系统对数据进行抽取加载怎么破？基于Spark改造用户标签分析查询平台 Spark 1.3.0 发布了 External Datasource API进一步增强 DataFrame提供了丰富多样的数据源支持 DataFrame提供了一整套用于操纵数据的DSL 外部系统 Spark Applications Based on DF 基于Spark改造用户标签分析查询平台第三次改造设计：更进一步 11 HDFS 指标表数据表1 数据表2 指标计算标签计算标签表用户数据探索

5、客户群计算 SparkSQL ExtDataSour ce 按需抽取数据原有SQL转化为DF的API 基于Spark改造用户标签分析查询平台改造后的好处 1 终于摆脱了对SQL的依赖，为后续引入复杂算法分析打下基础 2 利用External Datasource API可以根据计算需求从源表抽取指定的数据 3 基于DF的处理程序代码量仅有原程序的1/10，可读性大大提高遗留的问题 1 如何控制对源数据库的压力问题 = 时间窗 2 Ext DS的实现对于不同的数据库类型需要进行细致的优化基于Spark Streaming改造内容识别平台内容识别平台功能介绍产品目标：通过对上网日志

6、的分析还原用户上网时的场景用户上网记录入口识别： APP还是浏览器应用识别：微博，微信，UC URL内容识别：新闻，体育 MapReduce Job Map Task 基于Spark Streaming改造内容识别平台改造前的设计上网数据输出目录输入目录 Distribute Cache 数据分析后续系统标签分析日志查询营销活动识别规则识别规则基于Spark Streaming改造内容识别平台改造前的问题 1 数据处理延迟较高 2 需要频繁加载规则数据到内存 3 数据源逐渐变为实时接口 Spark Streaming DStream.map() 基于Spark S

7、treaming改造内容识别平台改造前的设计上网数据 Kafka Broadcast 数据分析后续系统标签分析日志查询营销活动 Kafka input topic output topic 识别规则将原有的HDFS 改为Kafka接口 MR引擎换为 Spark Streaming 原有MR的Map处理逻辑迁移到DStream的map 方法规则数据改为通过广播发布到所有的 Executor 基于Spark Streaming改造内容识别平台改造后的好处 1 数据分析的代码逻辑几乎没有修改, 兼容了原有的HDFS文件接口 2 规则数据只需要一次加载，可以长期保存在execut

8、or的内存中 3 通过kafka spark streaming实现了流式处理的要求 4 数据处理延迟从原有的分钟级别降低到秒级改造过程的经验 1 序列化问题 = 使用Kryo序列化需要注意先注册 2 流处理框架和业务逻辑两部分代码建议完全隔离 3 业务逻辑可以保持java的实现方式，通过反射等方式调用业务逻辑的代码如何用好External DataSource API External Datasource API 是Spark 1.2.0版本中一个重要的feature 赋予Spark平台高效灵活访问外部数据源的能力我们日常的使用中也经常会遇到数据存在于多个数据源之中的场景如何使用E

9、xt DS的API来实现对多个数据源的支持呢？让我们用HBase作为外部数据源举个例子 18 如何用好External DataSource API 网上已经有很多HBase的Ext DS的实现，如： https:/ https:/ 我们简要的分析一下实现HBase的Ext DS的几个要点 Task Task Task Task Executor Executor Region Region Region Region RegionServer RegionServer 如何才能达到这样的实现呢？我们先来看看External DS的设计原理如何用好External DataSource A

10、PI Optimizer Filter Pushdown Column Pruning 解析为Ext Relation Analyzer Resolve relation Strategy Build PhysicalRDD 将Filter尽可能push 到Ext Relation，同时进行Column Pruning SQL Spark Plan 根据Ext Relation实现，调用buildScan 生成RDD 如何用好External DataSource API DAGScheduler Submit JobSubmit StageSubmit Task External RDD

11、 Job rdd.partitionsrdd. getPreferredLocations Executor Executor Executor pute 高效的在Spark Streaming中引用外部数据实现如何分partition 接口定义 RDD.scala /* * Implemented by subclasses to return the set of partitions in this RDD. This method will only * be called once, so it is safe to implement a time-consuming compu

12、tation in it. */ protected def getPartitions: ArrayPartition 实现思路：根据createRelation方法中传入的参数确定HBase的连接方式和表名通过调用HBase的API获取该表中所有Region的列表根据buildScan中传入的ArrayFilter对Region进行一定的过滤根据Region列表生成一个 ArrayPartition 这样做的好处：每个Partition只处理一个Region的数据，为后面的getPreferredLocations做基础 22 高效的在Spark Streaming中引用外部数据

13、实现getPreferredLocations方法接口定义 RDD.scala /* * Optionally overridden by subclasses to specify placement preferences. */ protected def getPreferredLocations(split: Partition): SeqString = Nil 实现思路：根据split中包含的Region信息，来确定这个Region在哪个节点这样做的好处： Task在调度的时候可以优先被调度到Region所在的机器上执行，减少网络传输 23 高效的在Spark Strea

14、ming中引用外部数据实现compute方法接口定义 RDD.scala /* * : DeveloperApi : * Implemented by subclasses to compute a given partition. */ DeveloperApi def compute(split: Partition, context: TaskContext): IteratorT 实现思路：根据split中包含的Region信息、filter、requiredColumns调用HBase的API进行查询 24 如何用好External DataSource API 实现Ext D

15、S的几个要点 1 继承RelationProvider实现一个createRelation方法，来获取所有参数 2 继承BaseRelation实现一个根据自定义的schema生成方法 3 根据数据源类型选择实现不同级别的buildScan（还有InsertableRelation可以实现插入） 4 在buildScan中根据push down的过滤条件生成RDD 5 RDD中实现如何分partition 6 RDD中实现getPreferredLocations方法 7 RDD中实现compute方法高效的在Spark Streaming中引用外部数据为什么要引用外部数据流式处理中输入

16、数据包含的信息有限大量的使用场景需要关联外部数据进行逻辑判断处理 Spark Streaming自身提供的一些方法只读数据：Broadcast 更新数据：UpdateStateByKey 存在的问题外部数据过大无法Broadcast UpdateStateByKey需要进行shuffle UpdateStateByKey每次都输出全量数据 26 高效的在Spark Streaming中引用外部数据只读数据大数据特点：数据量巨大，无法通过Broadcast方式发送到各个Executor 场景：关联外部维表数据 27 场景1: 如果一个节点上的内存能放下方案：本机内存存储 Execut

17、or Work Node Executor Executor Executor Redis 场景2: 如果一个节点上的内存不能放下方案：分布式内存存储 Executor Work Node Executor Executor Executor Proxy Work Node Redis Redis Redis Redis 高效的在Spark Streaming中引用外部数据更新数据特点：数据不分大小，需要按batch进行更新场景：较长时间周期内的累计数据，如：连续30分钟位置停留 28 场景1: 如果需要更新的数据较小方案：CoGroup saveAsFile 场景2: 如果需要更新

18、的数据较大方案：分布式内存存储 Executor Work Node Executor Executor Executor Proxy Work Node Redis Redis Redis Redis HDFS RDD RDD DStream CoGroup RDD RDD DStream 高效的在Spark Streaming中引用外部数据使用分布式内存存储时核心问题：如何减少访问缓存的次数 29 方案1: 合并相同Key的cache 方案2：mapPartition中设立cacheBuffer K1:KeyV1: Cache1 K1:KeyV2: Cache2 Redis K1:Key V1: ListCache input partition iterator read X lines read X caches process X lines Redis write X caches 总结项目实践分享基于Spark改造用户标签分析查询平台基于Spark Streaming改造内容识别处理平台一些心得分享如何用好External DataSource API 高效的在Spark Streaming中引用外部数据感谢聆听

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

6 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: Spark 平台电信运营商应用实践

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：Spark平台在电信运营商的应用实践.pdf
链接地址：https://www.31doc.com/p-3331049.html