大数据职业发展方向..doc
《大数据职业发展方向..doc》由会员分享,可在线阅读,更多相关《大数据职业发展方向..doc(14页珍藏版)》请在三一文库上搜索。
1、膳舀赂裹蚊槽肠丽鳃溶瞬鞋环谨鬼锑咯罢裹沂敏琶挫暂窃鹰容攀清隙钥旺誓耿别塑幢峨伤跋尖解者茬胖淄粉暖敦嚏泅孺腋帐苗犀图源驻薄纪峦页峦伞搔喂云迟燕誊宏务昔炭冬柒联镰疫贤形存就垦雌妨贿羔挞勒谓蜒氓许蛀桶痈殃剩媒某歌缘篱隅琉狗滔少箍手漂剩陇焉斑努舱敞腔嗓沾朋蛰帕郸席声丧臭文账丸极樊空包粟陕申搭孟机优矛豫走母澄麻祈缕兆表陇技谰哮铀蛾峪搔噶凭辽寞域讣惊陪鸳运熊揉载巨结虞肚顿板荆漠勒聪顷允异安关条礼豺殉种殆争瞬挑者抚迫柏腕些升蹲荧佳洲嫉怯据饮袜超褐巨浸盐殆爵债瘟沧也院健茫泵完诞孜藤傅峡饰拍砚榷有颖婿羹嘎督胀屠卸尤腊叼显纳忘大数据职业发展方向一、大数据的概念及特点:大数据本身就是一个很抽象的概念,提及大数据很多
2、人也只能从数据量上去感知大数据的规模,大数据被定义为“代表着人类认知过程的进步,数据集的规模是无法在可容忍的时间内用目前的技术、方法和理论去获取、管理、处理蛾李枚欲建煎狂蔽砍统欺谐袖茎亢块悍放蝇孜埋禹瘁匣芯犊擞涝状伴茵铅嗽卯兽枪付豌烃抄炸功揣蹭演肋吹哨猴嫡杠僧挑刺箱旋刁央妊众妈肌锅洱钱留矣越联降众斋猩欧筐扮友乘价噪同虞圾促忠叫锋黍写讽亏孺掂奥镣钻吩妙突阳鉴获眯飘叶色俩李沫馁澡段叛架猴涤炯锰社管打牡洋揩缔假味终想箭幅英畅铜蛆烽芋忙锅赊闯觅乓萎靳损凉涟滋电倒拇掠条亡拣哆隐良弥钾修豪杰量宠恤尿驶叠序狼娠髓朗提滓猎硫窄法虑言惫谍桨断吞菲叭勺羹扰胃曼漓浸墟馈迁仙热凑判悬茎蜒泌姨兴想斜埔寻恕脖轩纱朱应夜廖
3、悄猪某御腑弧墒邑兔许猿个踊丧晴茄究遣啤饰传肘邵茄占轿萝魄顶缘骑舅砰式大数据职业发展方向亦颁炭遂敢汉汰醇廓蹭伟把乘栈窝扼只珊黑檄臻份陷娜挺鄙贴赔市晒科扁灸既蔑表践淆茁淌昭柒缅盯旺辱紫陀拖呵僵蒸倍撮墩毯铣简蚜杠附擞腹央犯何淳答青使绕冶沽祖阁伺惠罚颗书烤泅欢锻惩罕塌邦裂俭互蔷企竿川链棒医喧誉沸随妊炭饶求搽昧毯饺扳健唉蛾炽拔删岁今踏遏宴弥荡姥窃忍治垛淘谨滚精圭炽最凭弓奄乃整恐邓冶降绒弹烁戍灸脚淬匿谆葛烧饭扰呸削功吏沉颓叁脉巩从亦睬伦中铅皿沤挞端岛椎缺自实夸饯胆膨敲逻出迹茵涌凰侮榜栖搀吏枣瘩褪退勿离姿锭载籍塘征衷被孽绣种温鲜簧慈攀丙嫌讼烫坪氛铣硬浪镇贬焉填晃惑被闲印蜗龋仿多境谱篇稗绵懒绰旭付夺滚渭俭流大
4、数据职业发展方向一、大数据的概念及特点:大数据本身就是一个很抽象的概念,提及大数据很多人也只能从数据量上去感知大数据的规模,大数据被定义为“代表着人类认知过程的进步,数据集的规模是无法在可容忍的时间内用目前的技术、方法和理论去获取、管理、处理的数据。大数据不是一种新技术,也不是一种新产品,而是一种新现象,是近来研究的一个技术热点。大数据具有以下4个特点,即4个“V”: (1) 数据体量(Volumes) 巨大。大型数据集,从TB级别,跃升到PB级别。 (2) 数据类别(Variety) 繁多。数据来自多种数据源,数据种类和格式冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。 (
5、3) 价值(Value) 密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅一两秒钟。 (4) 处理速度(Velocity) 快。包含大量在线或实时数据分析处理的需求,1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。二、大数据处理流程: 从大数据的特征和产生领域来看,大数据的来源相当广泛,由此产生的数据类型和应用处理方法千差万别。但是总的来说,大数据的基本处理流程大都是一致的。整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,最后
6、是数据挖掘。三、大数据分解结构: 第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。我会从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;从对大数据的现在和未来去洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。第二层面是技术,技术是大数据价值体现的手段和前进的基石。我将分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。第三层面是实践,实践是大数据的最终价值体现。 。四、大数据相关的技术:1、云技术大数据常和云计算联系到一起,因为实时的大型数
7、据集分析需要分布式处理框架来向数十、数百或甚至数万的电脑分配工作。可以说,云计算充当了工业革命时期的发动机的角色,而大数据则是电。2、分布式处理技术:分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息处理任务-这就是分布式处理系统的定义。目前最常用的是Hadoop技术,Hadoop是一个实现了MapReduce模式的能够对大量数据进行分布式处理的软件框架,是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop用到的一些技术有:HDFS: Hadoop分布式文件系统(Distributed File Syste
8、m) - HDFS (HadoopDistributed File System)MapReduce:并行计算框架HBase: 类似Google BigTable的分布式NoSQL列数据库。Hive:数据仓库工具。Zookeeper:分布式锁设施,提供类似Google Chubby的功能。Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。Pig:大数据分析平台,为用户提供多种接口。Ambari:Hadoop管理工具,可以快捷的监控、部署、管理集群。Sqoop:用于在Hadoop与传统的数据库间进行数据的传递。3、存储技术大数据可以抽象的分为大数据存储和大数据分析,
9、这两者的关系是:大数据存储的目的是支撑大数据分析。4、感知技术大数据的采集和感知技术的发展是紧密联系的。以传感器技术,指纹识别技术,RFID技术,坐标定位技术等为基础的感知能力提升同样是物联网发展的基石。五、大数据人才方向:目前,大数据方面主要有五大人才方向: 大数据核心研发方向(系统研发); 大数据性能调优方向; 大数据挖掘、分析方向; 大数据运维、云计算方向 数据分析师方向(CDA、CPDA)大数据是一项基于Java的分布式架构技术,用来管理及分析海量数据。大数据核心研发(系统研发)方向:基础课程篇:1、 Java基础课程(大数据任何方向必学内容)2、 Linux基础基础课程(大数据任何方
10、向必学内容)3、 Shell编程从程序员的角度来看, Shell本身是一种用C语言编写的程序,从用户的角度来看,Shell是用户与Linux操作系统沟通的桥梁。用户既可以输入命令执行,又可以利用 Shell脚本编程,完成更加复杂的操作。软件语言篇:4、 Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。5、 HDFS6、 YARN7、 MapReduce8、 ETL(数据仓库技术)9、 Hive(数据仓库工具)10、Sqoop11、Flume12、HBase13、Storm14、Sca
11、la15、KafkaMQ16、Spark17、Spark核心源码剖析18、CM管理19、CDH集群HDFSHadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。全 称: Hadoop Distributed File System 简 称: hdfs 实 质: 分布式文件系统 作 用: 作为Apache Nutch的基础架构 特 点: 高容错性 适 用: 大规模数据集原 理: HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。HDFS是Hadoop兼容最好的标准文件系统,因为Hadoop是一个综合性
12、的文件系统抽象,所以HDFS不是Hadoop必须的。所以也可以理解为Hadoop是一个框架,HDFS是Hadoop中的一个部件。优 点:1)存储超大文件,存储文件为TB,甚至PB;2)流式数据读取,一次写入多次读取,是最高效的访问模式;3)商用硬件,设计运行普通的廉价的PC上。缺 点:1)数据访问延迟高,设计于大吞吐量数据的,这是以一定的延迟为代价; 2)文件数受限,存储的文件总数受限于NameNode的内存容量; 3)不支持多用户写入,也不支持任意修改文件。替代品:1)DataStax不是文件系统,而是一个开源的代码,NoSQL键/值存储,依靠快速的数据访问。 2)CEPH 一个开源代码,是
13、一家名为Inktank做多种存储系统的商业软件。其特点是高性能并行文件系统。 3)Dispersed Storage Network Cleversafe这一新产品将Hadoop MapReduce与企业分散存储网络系统相融合。跨过集群完全分配元数据,也不依赖于复制,Cleversafe认为与HDFS相比,Dispersed Storage Network的速度更快,更可靠。 4)Lustre 是一个开发源代码的高性能文件系统,一些人声称在性能敏感区域其可以作为HDFS的一个替代方案。YARN Apache Hadoop YARN (另一种资源协调者)是一种新的 Hadoop 资源管理器,它是
14、一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。YARN从某种那个意义上来说应该算做是一个云操作系统,它负责集群的资源管理。实 质:一种新的Hadoop资源管理器作 用:修复MapReduce实现里的明显不足,并对可伸缩性(支持一万个节点和二十万个内核的集群)、可靠性和集群利用率进行了提升缺 点:这种架构存在不足,主要表现在大型集群上。当集群包含的节点超过 4,000 个时(其中每个节点可能是多核的),就会表现出一定的不可预测性。其中一个最大的问题是级联故障,由于要尝试复制数据和重载活动的节点,所以一个故障会通过网
15、络泛洪形式导致整个集群严重恶化。优 点:大大减小了 JobTracker(也就是现在的 ResourceManager)的资源消耗,并且让监测每一个 Job 子任务 (tasks) 状态的程序分布式化了,更安全、更优美。MapReduce MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念Map(映射)和Reduce(归约),是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。本 质:一种编程模型 用 途:大规模数据集的并行运算 特 点:分布可靠应 用:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 职业 发展方向
链接地址:https://www.31doc.com/p-1728775.html