妩媚人生--云计算技术与大规模数据并行处理.ppt
《妩媚人生--云计算技术与大规模数据并行处理.ppt》由会员分享,可在线阅读,更多相关《妩媚人生--云计算技术与大规模数据并行处理.ppt(168页珍藏版)》请在三一文库上搜索。
1、妩媚人生 http:/ 计 算 与 大规模数据并行处理技术,黄 宜 华 南 京 大 学 计算机科学与技术系 软件新技术国家重点实验室,妩媚人生 http:/ http:/ 要 内 容,第一部分:云计算技术简介 简要介绍云计算及其主要特点,云计算发展背景与现状,云计算的关键技术 第二部分:MapReduce大规模数据并行处理技术 简要介绍Google和Hadoop MapReduce大规模数据并行处理技术 第三部分:大规模数据并行处理技术研究与应用 介绍大规模数据并行处理技术研究,主要讨论大规模数据并行算法研究、大规模数据索引查询技术、以及Hadoop改进和优化技术研究,妩媚人生 http:/
2、http:/ 一 部 分 云计算技术,妩媚人生 http:/ http:/ Cloud Computing, Utility Computing, Service Computing 通过集中式远程计算资源池,以按需分配方式,为终端用户提供强大而廉价的计算服务能力 工业化部署、商业化运作的大规模计算能力 一种新的、可商业化的计算和服务模式 计算能力像水电煤气一样,按需分配使用 资源池物理上对用户透明就像在云端一样,妩媚人生 http:/ http:/ “无限”多的计算资源,强大的计算能力 按需分配,弹性伸缩,取用方便,成本低廉 资源共享,降低企业IT基础设施建设维护费用 应用部署快速而容易 软
3、件/应用功能更新方便快捷 节省能源,绿色环保 集计算技术之大成,具有很强的技术性、工程型特点,妩媚人生 http:/ http:/ SaaS:Software as a Service 提供各种应用软件服务 PaaS:Platform as a Service 提供软件支撑平台服务 IaaS:Infrastructure as a Service 提供接近于裸机(物理机或虚拟机)的计算资源 和基础设施服务,妩媚人生 http:/ http:/ 如腾讯云词典,PaaS 如Google AppEng,IaaS 如Amazon EC2,云计算 应用,按云计算服务层面进行分类,妩媚人生 http:/
4、http:/ 美国联邦云计算战略报告中,定义了4中云: 公用云:提供面向社会大众、公共群体的云计算服务 如Amazon云平台,Google AppEng 公有云有很多优点,但最大的一个缺点是难以保证数据的私密性 私有云:提供面向应用行业/组织内的云计算服务 如政府机关、移动通信、学校等内部使用的云平台 私有云可较好地解决数据私密性问题,对移动通信、公安等数据私密性要求特别高的企业或机构,建设私有云将是一个必然的选择,妩媚人生 http:/ 社区云:提供面向社团组织内用户使用的云计算平台 如美国航天局(NASA) Nebula云平台为NASA内的研究人员提供快速的IT访问服务 混合云:包含以上2
5、种以上云计算类型的混合式云平台,妩媚人生 http:/ http:/ 反方:云计算是业界的商业性行为 正方:云计算是计算技术的重大发展趋势 个人认为:云计算技术有其发展的必然性和必要性,妩媚人生 http:/ http:/ 大型机(mainframe), 集中式、终端用户共享,80-90s: 个人计算机, 人手一台,95-06: 互联网/网格/集群,07-现在: 云计算,“天下大势,合久必分,分久必合”,“否定之否定,螺旋式上升”,妩媚人生 http:/ 大粒度应用系统的规模越来越大 应用系统数据量越来越大 中国移动全国每天的电话短信通联记录数据达到500TB;而中国移动一个流量最大的省每天的
6、通联记录数据可达到65TB 阿里巴巴电子商务平台日处理数据量将达到500TB 百度存储100-1000PB数据,每日处理10-100PB;存储1千-1万亿网页,索引100-1000亿网页 2009年eBays数据仓库,一个有2PB用户数据,另一个6.5PB用户数据包含170TB记录且每天增长150GB个记录 Facebook:2.5PB用户数据,每天增加15TB 仅2011年,全世界产生1.8ZB(1.8万亿GB)数据,相当于每位美国人每分钟写3条Twitter,不停地写2.7万年 YouTube每分钟有13h视频上传,每天数据10TB相当于好莱坞每周发行57000部电影,妩媚人生 http:
7、/ 大粒度应用系统的规模越来越大 超大的计算量和计算复杂度 用SGI工作站进行电影渲染时,每帧一般需要12小时 一部2小时的电影渲染需要: 2小时x3600秒x24帧x(12小时)/24小时=2040年! 特殊场景每帧可能需要60个小时(影片“星舰骑兵”中数千只蜘蛛爬行的场面),用横向4096象素分辨率进行渲染时,如果以每帧60个小时的速度,则1秒的放映量(24帧)需要60天的渲染时间,1分钟则需要100年!,妩媚人生 http:/ 小粒度应用系统资源重复、无法共享 企业内大量的小粒度应用系统需要添置独立的硬件资源,但忙闲不均,忙时资源不够,闲时资源空置,资源无法相互调配和共享,造成资源和资金
8、浪费 淘宝网案例:后台设置约15万台服务器,服务于不同的应用系统;而不同应用系统的负载不同,忙闲不均;据淘宝测算,如能在不同应用间合理调配计算资源,大约可省去2/3约10万台服务器,以每台3万元计算,约可节省30亿元!,妩媚人生 http:/ 贯穿整个计算机技术发展历史的两条主线: 计算能力角度:不断追求计算性能提升 无论是微处理器还是巨型机,近20年性能提高3千多倍 使用角度:不断追求易用性和灵活性 可获得性、易用性、可扩展性和灵活性不断提升,妩媚人生 http:/ http:/ 微处理器 每秒 1千8百亿次 浮点运算!,近20年性能提高3千多倍,不断追求计算性能提升,妩媚人生 http:/
9、 每秒2千5百多万亿次浮点运算,近20年性能提高3千多倍,亿亿 千万亿 百万亿 十万亿 万亿 千亿 百亿 十亿 亿,妩媚人生 http:/ 体系结构演化 向量机=SMP =MPP=Cluster Cluster以 高获得性、 高可扩展性优势 成为发展主流,不断追求方便性和灵活性,妩媚人生 http:/ 技术发展背景 虽然新的计算技术在易用性和灵活性上有不断提高,但仍然存在很大不足: 计算能力仍取决于硬件计算资源,计算能力不够时,需要不断增加硬件资源;空闲时,硬件资源闲置浪费,不能共享;计算能力的获取和使用上仍然存在较大的制约。 云计算正是一种解决这一问题的新的计算服务模式,其基本思路是集中计算
10、资源提供巨大的计算能力的同时,提供使用上的方便性和灵活性,妩媚人生 http:/ http:/ 云计算是诸多计算技术发展成熟与自然进化的产物 计算机虚拟化技术、大规模并行计算、分布式存储、面向服务构架、公用服务计算等诸多技术广泛应用 计算机系统规模和处理能力迅速扩大 技术发展成熟与自然进化的结果,妩媚人生 http:/ http:/ computation and the data and so forth are in the servers. We call it cloud computing.” (Erick Schmidt, 2006),“computation may someda
11、y be organized as a public utility” (John McCarthy, 1960),“云计算”的概念在2006年 由Google公司正式提出 但最初的思想雏形 可追溯到更早的时间,妩媚人生 http:/ http:/ 云计算出现的意义,可与20世纪电力工业的变革相比,20世纪初电力工业变革的几项关键技术 发电容量大幅提升 交流电的出现 (1888) 电表的发明和使用 (1894),20世纪初私有电厂向公共电力服务转化过程 1900: 美国有5万多个私有小型电厂,3千6百个中心电站 1907: 40%并入了公共电力服务系统 1920: 70%并入了公共电力服务系统
12、 1930: 80%90%并入了公共电力服务系统,妩媚人生 http:/ http:/ 云计算的一个重要目标是,把计算能力变成像水电等公用服务一样,随用随取,按需使用。故此也有人把云计算称为“Utility Computing” 这里Utility不是效用、实用的意思,在英文里Utility有一个专门的含义,专指类似于水电煤气的公用服务,故Utility Computing应译为“公用服务计算”,妩媚人生 http:/ http:/ 2011年2月8日美国奥巴马总统签署了联邦云计算战略报告,制定该报告的目的: The Federal Governments current Informatio
13、n Technology (IT) environment is characterized by low asset utilization, a fragmented demand for resources, duplicative systems, environments which are difficult to manage, and long procurement lead times.These inefficiencies negatively impact the Federal Governments ability to serve the American pu
14、blic. Cloud computing has the potential to play a major part in addressing these inefficiencies and improving government service delivery. The cloud computing model can significantly help agencies grappling with the need to provide highly reliable, innovative services quickly despite resource constr
15、aints. 美国联邦政府部门计划用全部的800亿美元IT预算中的200亿作为云计算平台开发建设的费用。 美国联邦云计算战略报告,2011/2/8,妩媚人生 http:/ 美国联邦云计算战略报告认为: Cloud is a fundamental shift in IT Cloud computing enables IT systems to be scalable and elastic. End users do not need to determine their exact computing resource requirements upfront.I nstead, they
16、 provision computing resources as required, on-demand.Using cloud computing services, a Federal agency does not need to own data center infrastructure to launch a capability that serves millions of users Cloud computing can significantly improve public sector IT A number of government agencies are a
17、dopting cloud technologies and are realizing considerable benefits. For instance, NASA Nebula, through a community cloud, gives researchers access to IT services relatively inexpensively in minutes.Prior to adopting this approach, it would take researchers months to procure and configure comparable
18、IT resources and significant management oversight to monitor and upgrade systems. Applying cloud technologies across the entire Federal Government can yield tremendous benefits in efficiency, agility, and innovation.,妩媚人生 http:/ http:/ 自2006年Google公司提出云计算技术的概念后,全球IT著名企业纷纷予以极大关注,并投入了巨大力量进行云计算技术的研究开发。
19、,妩媚人生 http:/ http:/ Cloud Infrastructure,Scheduler,Chubby,GFS master,Node,Node,Node,User,Google AppEngine,Scheduler slave,GFS,Linux,Node,MapReduce Framework,BigTable Server,Google Cloud Infrastructure (Google AppEngine,PaaS型公用云平台),Google AppEngine提供了一种PaaS类型的云计算服务平台,用户可租用该平台的计算资源,并使用AppEngine提供的各种应用
20、开发和支撑软件平台开发和部署自己的应用软件,妩媚人生 http:/ Elastic Computing Cloud (Amazon EC2,IaaS型公用云平台),SQS: Simple Queue Service EC2: Running Instance of Virtual Machines EBS: Elastic Block Service, Providing the Block Interface, Storing Virtual Machine Images S3: Simple Storage Service, SOAP, Object Interface SimpleDB:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 妩媚 人生 计算 技术 大规模 数据 并行 处理
链接地址:https://www.31doc.com/p-2812307.html