大数据时代.ppt
《大数据时代.ppt》由会员分享,可在线阅读,更多相关《大数据时代.ppt(71页珍藏版)》请在三一文库上搜索。
1、,1,提纲,大数据所带来的机遇和挑战,大数据的概念及技术,大数据时代的思维和变革,大数据在企业中的应用案例,2,每天有2940亿封电子邮件发生,如果这些是纸质信件,在美国需要花费两年时间处理。 每天有200万篇博客在网上发布,这些文章相当于时代杂志刊发770年的总量。 每天有2.5亿张照片上传至社交网站Facebook,如果都打印出来,摞在一起能有80个埃菲尔铁塔那么高。 每天有86.4万小时视频被上传至视频网站Youtube,相当于不间断播放视频98年。 每天有1.87亿个小时的音乐会在流媒体音乐网站Pandora上播放,如果一台电脑从公元元年就开始播放这些音乐会,到现在还没完没了地接着放。
2、,3,一天之间,互联网上要发生多少事,4,5,地球上至今总共的数据量: 在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据; 在2011年,这个数字达到了1.8ZB。 而有市场研究机构预测: 到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)!,6,“大数据”时代的爆炸增长,想驾驭这庞大的数据,我们必须了解大数据的特征。,2008年9月4日自然杂志社,推出的名为“大数据”的专刊,创造出了“大数据”这个概念。,“大数据”的诞生,7,美国疾病控制中心要在流感暴发两周后才知道 谷歌的大数据预测只需要一天,“谷歌流感趋势”把大数据推上风口浪
3、尖,8,大数据(big data),巨量数据集合 是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。,什么是“大数据”?,9,“大数据”特征,10,Hadoop是基于Google有关大数据的论文实现的开源项目,最初的框架由Doug Cutting在2005年提出,目前是由Apache维护的开源项目。从初创到现在,Hadoop体系在几年中开发完成了一系列重要的子项目,已经形成了一个涵盖数据存储、管理和分析功能的较为完整的大数据生态系统,成为大数据存储与处理领域地位最重要、应用最广泛的开源框架。,大数据存放在哪?如何分析?,11,Hadoop是运行在大量通用计算单位上
4、提供海量数据存储与并行计算的平台框架。 基于X86集群水平可扩展 基于MapReduce的并行计算能力 设计规模:PB级的数据量,数千台计算节点,大数据存放在哪?如何分析?,12,提纲,大数据所带来的机遇和挑战,大数据的概念及技术,大数据时代的思维和变革,大数据在企业中的应用案例,13,量化思维一切皆可量化 决策思维让数据驱动 全样思维样本=总体 关联思维追求相关关系 ,14,大数据思维,Stephen Beck 每一天,我们的身后都拖着一条由个人信息组成的长长的“尾巴”,这只是因为我们生活在一个现代化的世界。我们 点击网页 切换电视频道 驾车穿过自动收费站 用信用卡购物 使用手机 而雅虎、G
5、oogle这样的公司,正在以平均每人、每月2500条信息的速度,捕获我们的详细数据。,15,1.量化思维:一切皆可量化,数据是指存储在某种介质上能够识别的物理符号,是对客观事物性质和状态的描述。 先有数据再说应用。,16,数据,从最不可能的地方提取,量化坐姿 日本先进工业技术研究所(Japans Advanced Institute of Industrial Technology)的教授越水重 臣(Shigeomi Koshimizu)所做的研究就是关于一个人的坐姿。很少有人会认为一个人的坐姿能 表现什么信息,但是它真的可以。当一个人坐着的时候,他的身形、姿势和重量分布都可以量 化和数据化。
6、越水重臣和他的工程师团队通过在汽车座椅下部安装总共360个压力传感器以测量 人对椅子施加压力的方式。把人体屁股特征转化成了数据,并且用从0256这个数值范围对其进 行量化,这样就会产生独属于每个乘坐者的精确数据资料。 在这个实验中,这个系统能根据人体对座位的压力差异识别出乘坐者的身份,准确率高达98%。,17,数据,从最不可能的地方提取,这项技术可以作为汽车防盗系统安装在汽车上。有了这个系统之后, 汽车就能识别出驾驶者是不是车主;如果不是,系统就会要求司机输入密码;如果司机无法准 确输入密码,汽车就会自动熄火。 通过汇集这些数据,我们可以利用事故发生之 前的姿势变化情况,分析出坐姿和行驶安全之
7、间的关系。这个系统同样可以在司机疲劳驾驶的 时候发出警示或者自动刹车。同时,这个系统不但可以发现车辆被盗,而且可以通过收集到的 数据识别出盗贼的身份。,18,数据,从最不可能的地方提取,苹果在2008年申请的“耳机、耳塞或耳麦的运动检测系统”专利。 这种包含各种传感器的耳机可以检测各项生理指标,包括体温、心率和排汗水平。 根据专利文件,健身检测系统被隐藏在耳机中,用户通常在运动时戴着耳机听音乐。通过将耳机放在耳朵里或附近,嵌入的运动传感器可以获得体温、排汗和心率方面的数据。除了基于皮肤的检测功能,耳机内部还可以集成加速度传感器,这样可以收集准确的运动数据。,19,数据,从最不可能的地方提取,2
8、0,2.决策思维:让数据驱动,2015年的3月15日,马云在德国的汉诺威IT博览会上的主题演讲: “一家互联网公司要想活得长久,必须找到一个方式让互联网经济和实体经济相结合,这个方式就是数据。” “未来的世界,我们将不再由石油驱动,而是由数据驱动。”,21,未来的世界由数据驱动,22,数据驱动的工业4.0,23,数据驱动的人生,24,3.要全部数据,不要抽样!,模型不再那么重要,让数据说话。 在小数据时代,随机采样就是利用最少的数据获得更多的信息。而且采样分析的精确性随着采样随机性的增加而大幅度的增加,与样本数量的增加关系不大。 在大数据时代,随着收集数据的便捷性,以及数据处理速度加快,我们可
9、以分析到更多的数据,甚至是可以处理和某个特别现象相关的所有数据,而不是依赖于随机采样。,2011年发布的lytro相机就是一款具有“大数据”的相机。传统的相机只可以记录一束光的不同,而lytro相机可以收录这个光场所有的光,达到1100万束左右。具体生成什么样的照片则可以在拍摄之后再根据需要做决定。,25,利用所有数据,而不是一小部分采样数据,因为大数据是建立在掌握所有数据,至少是尽可能多的数据基础上,所以我们就可以正确的考察细节并进行新的分析。生活中真正有趣的事情经常隐匿在细节之中,而采样分析法却无法捕捉到这些细节。,26,利用所有数据,而不是一小部分采样数据,27,4.“关联”思维,强调数
10、据之间的关联也很有用,而不去追求数据之间的因果关系。 因果关系是最深刻的一类联系,但是我们很多时候并不能获得。,28,是什么,而不是为什么,相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过提示其内部的动作机制。但相关关系没有绝对,只有可能。 蛋挞与飓风用品 沃尔玛是世界上最大的零售商,掌握了大量的零售数据。通过分析,沃尔玛发现,每当季节性飓风来临之前,不仅手电筒销售量增加了,而且蛋挞的销量也增加了。因此,当季节性暴风来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,以方便顾客。 观察的范围包括:每一个顾客购物清单以及消费额、购物篮中的物品、具体的购买时间甚至是购买当日的天气。,
11、29,是什么,而不是为什么,在以前人们需要有了想法,然后再去收集数据去测试这个想法的可行性。而现在我们有了更多 的数据以及更好的工具之后,要找到相关关系就变得更快,更容易了。 大多数据情况下,一旦我们完成了对大数据的相关分析,而又不再满足于仅仅知道“是什么”时,我们就会继续向更深层研究因果关系,找出背后的“为什么”。,提纲,大数据所带来的机遇和挑战,大数据的概念及技术,大数据时代的思维和变革,大数据在企业中的应用案例,30,大数据在企业中的应用之一 预测,31,32,大数据提升预测准确性,33,世界杯大数据预测火了百度,34,百度如何做到,通过爬虫等方法取得,35,百度预测,大数据在企业中的应
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 时代
链接地址:https://www.31doc.com/p-3082189.html