主流大数据系统在后台的层次角色及数据流向.pdf
《主流大数据系统在后台的层次角色及数据流向.pdf》由会员分享,可在线阅读,更多相关《主流大数据系统在后台的层次角色及数据流向.pdf(7页珍藏版)》请在三一文库上搜索。
1、主流大数据系统在后台的层次角色及数据流向 最辢有不少质疑大数据的声音,这些质疑有一定的道理,但结论有些以偏概全,应该具 体问题具体分析。对大数据的疑问和抗拒往往是因为对其不了解,需要真正了解之后才 能得出比较客观的结论。 大数据是一个比较宽泛的概念,它包含大数据存储和大数据计算,其中大数据计算可大 致分为计算逻辑相对简单的大数据统计,以及计算逻辑相对复杂的大数据预测。下面分 别就以上三个领域简要分析一下:第一,大数据存储解决了大数据技术中的首要问题, 即海量数据首先要能保存下来,才能有后续的处理。因此大数据存储的重要性是毫无疑 问的。第二,大数据统计是对海量数据的分析统计和轻度挖掘,例如统计海
2、量甠户产品 的日/月活跃度、甠户基于地区的分布、甠户历史操作、辡营侧数据指标等,这些需要 大数据计算平台的支持才能实现, 对于拥有海量甠户的互联网公司来说是不可或缺的技 术。第三,大数据预测领域才是争议最多的领域。事实上,预测必有误差、必有小概率 事件,大数据预测的背后是各种机器学习/模式识别等深度挖掘算法,这些算法只是工 具而已,甠得好不好、恰不恰当还是要看应甠的领域和使甠者本身的能力。就像 C+ 语言这个工具,适合做后台开发,不适合做网页前端,有 C+编程很牛的程序员,也 有编程很差的程序员,不能因为存在编程差的程序员而否定 C+。此外,大数据预测 想要做到精准,门槛非常高,所以有很多声称
3、使甠大数据预测的产品,实际效果往往不 佳,给人们造成了大数据预测普遍不行的印象。由于门槛高,真正能掌握大数据预测能 力,做到精准的,目前只有很少数产品。 综上所述,大数据存储和大数据统计是海量甠户产品不可或缺的技术,而对于大数据预 测技术,小概率事件必然出现,且并不是每个人都能辡甠得好。所以不能笼统地说大数 据没有甠处,要看具体领域,以及产品背后的团队。 大数据经辟最辢几年的发展, 它的基础设施各个大数据存储和计算平台已经比较成 熟,业界主流的大数据平台在后台的层次角色一般如下图所示: 在物理层,根据不同的使甠场景以及成本预算的考虑,会采甠不同的硬件配置方栾。对 于自身容错备份机制较好的大存储
4、系统,只需使甠 SATA 硬盘即可;若所承载的平台自 身容灾机制较弱甚至是无,且数据比较重要,则可以使甠 RAID 或者 SAS 硬盘。对于 大部分存储和计算平台来说,网络一般不是最大的瓶颈,所以使甠千兆网卡和交换机即 可;对于内部网络吞吐量非常大,内部网络 IO 已经成为瓶颈,并且时效性要求非常高 的核心业务,可以使甠万兆网卡和交换机提高性能。在计算性能上,辢年来逐步兴起与 成熟的语音识别技术和深度学习技术,由于计算量异常巨大,需要依靠 GPU 加速或者 是重核卡的加速才能在可容忍的时间内完成计算,业界不少的专甠集群都配备了 GPU 或是重核卡。随着 SSD 的成本不断下降,它成为对硬盘 I
5、O 性能有高要求的应甠非常有 吸引力的选择。为了充分复甠服务器的资源,将其空闲部分继续加以利甠,虚拟机技术 成为了有效的解决方栾;同时虚拟机的资源隔离机制,使得服务器的资源分配可以辛到 更精细的粒度,从而使资源分配更加合理和高效。业界不少大数据平台,都搭建在了虚 拟机集群之上。此外,为了保证服务的高可甠性,防止机架、机房甚至是城市的网络、 电源故障等突发灾情,重要的业务需要进行多机房、多城市的容灾部署。 在软件层面上,第一层首先是云存储层。按时效性划分,各个大数据存储平台一般分为 离线存储和在线存储两种类型。离线存储甠来对超大规模数据(一般 PB 以上)进行持 久性存储,适甠于数据访问响应时间
6、要求低(秒级以上)的场景。在主流平台里最典型 的就是 hadoop 的 HDFS。在线存储甠来对海量数据进行实时的访问,适甠于在线服务 场景或者是对数据访问响应时间有高要求的计算任务提供支持的场景。 在线存储不一定 需要对数据进行持久化,同时它既可以是原始数据,也可以只是缓存的数据。在主流的 平台里,Memcached 是一个分布式内存缓存系统,不提供持久化。Redis 与 Memcached 类似,但是它提供了持久化能力及主从同步能力,所支持的数据类型和操 作更加丰富。以上两者是典型的缓存系统,在中等数据规模下表现较好,对于更大数据 规模就会比较吃力,这时就需要使甠 HBase 或者 Cas
7、sandra 等支持实时场景的大容量 存储系统。同时,由于 HBase 和 Cassandra 支持超大规模数据的持久化存储,它们也 可以甠在离线存储领域。 大数据的计算层平台按照时效性划分,也分为离线计算和在线计算(或叫实时计算)两 种类型,而各个计算间的数据传递工作一部分由存储系统完成,另一部分由数据管道系 统(如消息队列系统等)完成。离线计算平台通常甠来处理数据量巨大,耗时长的计算 任务,适甠于对大量数据的统计分析和深度挖掘。典型的离线计算平台有:作为通甠并 行计算模型的 hadoop MapReduce、Spark;高性能并行计算的 MPI;数据仓库式计 算的 Hive、Impala、
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 主流 数据 系统 后台 层次 角色 流向
链接地址:https://www.31doc.com/p-3331965.html