Hadoop项目.ppt
《Hadoop项目.ppt》由会员分享,可在线阅读,更多相关《Hadoop项目.ppt(38页珍藏版)》请在三一文库上搜索。
1、Hadoop 电子工业出版社 刘鹏主编云计算教材配套课件8 鸣 扮 夺 炽 摄 遣 嚼 赐 租 晦 焙 英 宜 搓 恤 莫 肄 崎 轧 宝 眨 垂 欲 灵 伺 精 次 降 昌 鱼 蔷 隅 H a d o o p 项 目 H a d o o p 项 目 主要内容 Hadoop项目简介 HDFS体系结构 HDFS关键运行机制 Hadoop VS.Google(分布式文件系统) Hadoop API Hadoop环境搭建 肺 坚 瘟 讫 谈 挞 囤 吊 拙 城 那 茁 悸 迢 蠢 螺 戳 撑 设 袄 心 莉 暇 彼 引 谈 赶 龟 您 厩 赊 颐 H a d o o p 项 目 H a d o o
2、p 项 目 Hadoop项目简介 Apache的解决方案 GoogleGoogle云计算云计算 MapReduceMapReduceBigTableBigTable GFSGFS ChubbyChubby GFSHDFS MapReduceHadoop BigTableHBase 围 宇 喷 悍 借 钱 撰 渠 几 铂 榷 淋 唇 逾 抠 税 膜 充 赖 元 屯 运 冤 吓 久 撑 擎 驮 晒 潭 艺 彦 H a d o o p 项 目 H a d o o p 项 目 Hadoop项目简介 HDFS为了做到可靠性(reliability)创建了多份数据块( data blocks)的复制(re
3、plicas),并将它们放置在服务器 群的计算节点中(compute nodes),MapReduce就可以在它 们所在的节点上处理这些数据了。 踩 生 绑 仟 禁 刊 箭 亭 男 剑 木 氰 辉 嘲 尼 拱 刹 课 嘛 疚 晓 曹 劫 罐 胚 堂 鬼 哥 羊 释 锨 禽 H a d o o p 项 目 H a d o o p 项 目 HDFS体系结构 NameNodeMaster DataNodeChunksever 潭 默 欠 轻 雕 寡 葫 棱 忌 绅 煮 枕 周 勺 遏 四 狼 袁 超 不 长 该 倾 悯 蔓 睹 五 署 汇 蝶 渠 墓 H a d o o p 项 目 H a d o
4、o p 项 目 HDFS关键运行机制 -保障可靠性的措施 一个名字节点和多个数据节点 数据复制(冗余机制) -存放的位置(机架感知策略) 故障检测 -数据节点 心跳包(检测是否宕机) 块报告(安全模式下检测) 数据完整性检测(校验和比较) -名字节点(日志文件,镜像文件) 空间回收机制 恶 瘩 奔 瘸 韭 矽 手 构 电 档 炭 揉 艇 衙 知 拴 柠 稿 溶 野 近 灼 皱 枫 卖 佯 壹 棚 股 贷 鹿 负 H a d o o p 项 目 H a d o o p 项 目 HDFS关键运行机制 -写文件流程 客户端缓存 流水线复制 并发写控制 流程: 1.客户端把数据缓存到本地临时文件夹 2
5、.临时文件夹数据超过64M,客户端联系NameNode, NameNode分配 DataNode,DataNode依照客户端的位置被排列成一个有着最近物理距 离和最小的序列 3.与序列的第一个数据服务器建立Socket连接,发送请求头,然后等待 回应,依次下传,客户端得到回包,流水线建立成功, 4. 正式发送数据,以4K为大小传送 枢 泪 拘 氏 尹 隅 讲 獭 椰 莹 猴 苟 聊 帽 啮 台 湾 渭 夹 近 箍 尊 离 摩 态 忱 井 纂 敛 湖 蔽 做 H a d o o p 项 目 H a d o o p 项 目 HDFS关键运行机制 -读文件流程 客户端联系NameNode,得到所有数
6、据块信息,以及 数据块对应的所有数据服务器的位置信息 尝试从某个数据块对应的一组数据服务器中选出 一个,进行连接(选取算法未加入相对位置的考 虑) 数据被一个包一个包发送回客户端,等到整个数 据块的数据都被读取完了,就会断开此链接,尝 试连接下一个数据块对应的数据服务器,整个流 程,依次如此反复,直到所有想读的都读取完了 为止 红 字 燎 嗣 削 淫 依 休 仪 缕 涯 藤 枉 熏 郝 真 舰 少 硝 删 龄 剖 沪 撰 沮 蹿 必 掉 撑 已 普 慈 H a d o o p 项 目 H a d o o p 项 目 Hadoop VS. Google 技术架构的比较 数据结构化管理组件:Hba
7、seBigTable 并行计算模型:MapReduceMapReduce 分布式文件系统:HDFSGFS Hadoop缺少分布式锁服务Chubby HBaseMapReduce HDFS BigTableMapReduce GFS Hadoop云计算应用 Chubby Google云计算应用 撰 秋 痰 尹 袭 肢 泻 监 斟 屋 箍 嚏 渔 钠 鲍 腕 拳 卤 颅 蜡 萎 氧 桑 岔 吵 秋 刑 愤 鲤 整 烫 锗 H a d o o p 项 目 H a d o o p 项 目 Hadoop VS. Google HDFS与GFS比较 中心服务器模式的差异 GFS:多台物理服务器,选择一台对
8、外服务,损坏时 可选择另外一台提供服务 HDFS:单一中心服务器模式,存在单点故障 原因:Hadoop缺少分布式锁服务 咯 冕 旬 胳 钾 萤 庙 凋 殊 拣 碰 伯 贞 乌 匪 陆 腐 挠 呐 佐 株 牡 仟 顿 台 肌 氮 低 奥 亭 沮 锐 H a d o o p 项 目 H a d o o p 项 目 Hadoop VS. Google HDFS与GFS比较 子服务器管理模式差异 GFS:Chunk Server在Chubby中获取独占锁表示其生存状态, Master通过轮询这些独占锁获知Chunk Server的生存状态 HDFS:DataNode通过心跳的方式告知NameNode其
9、生存状态 GFS中,Master损坏时,替补服务器可以快速获知Chunk Server 的状态 HDFS中,NameNode损坏后,NameNode恢复时需要花费一段 时间获知DataNode的状态 在添加数据存储节点时,GFS的伸缩性较HDFS要好 原因:Hadoop缺乏分布式锁服务 地 永 钾 交 膛 溢 筐 起 劝 荧 妒 东 埃 陌 生 泼 哆 楚 革 画 停 肩 蛊 潮 萧 链 绦 题 黎 交 脖 社 H a d o o p 项 目 H a d o o p 项 目 Hadoop VS. Google HDFS与GFS比较 HDFS具备安全模式 获知数据块副本状态,若副本不足,则拷贝副
10、本至 安全数目(如3个) GFS不具备安全模式 副本损坏处理:API读取副本失败时,Master负责发 起拷贝任务 行 清 沃 申 予 经 登 于 绽 跨 怕 兽 峙 铺 蘑 仓 空 珍 新 赖 狠 晋 底 脾 忆 藉 象 柑 银 夏 装 候 H a d o o p 项 目 H a d o o p 项 目 Hadoop VS. Google HDFS与GFS比较 HDFS具备空间回收机制 文件删除时,仅删除目录结构 实际数据的删除在等待一段时间后实施 优点:便于恢复文件 天 妥 冒 凶 辕 皿 便 拿 颜 顷 士 涡 教 殷 牵 俯 咎 估 妖 陪 澡 熊 坷 廉 狼 剖 俏 纺 倍 埂 圾
11、磅 H a d o o p 项 目 H a d o o p 项 目 HDFS API Hadoop API被分成(divide into)如下几种主要的包(package): org.apache.hadoop.conf 定义了系统参数的配置文件处理API。 org.apache.hadoop.fs 定义了抽象的文件系统API。 org.apache.hadoop.Hdfs HDFS,Hadoop的分布式文件系统实现。 org.apache.hadoop.io 定义了通用的I/O API,用于针对网络,数据库,文件等数据 对象做读写操作。 org.apache.hadoop.ipc 用于网络服
12、务端和客户端的工具,封装了网络异步I/O的基 础模块。 org.apache.hadoop.mapreduce Hadoop分布式计算系统(MapReduce)模块的实现, 包括任务的分发调度等。 org.apache.hadoop.metrics 定义了用于性能统计信息的API,主要用于mapred和dfs 模块。 org.apache.hadoop.record 定义了针对记录的I/O API类以及一个记录描述语言翻译 器,用于简 化将记录序列化成语言中性的格式(language-neutral manner)。 org.apache.hadoop.tools 定义了一些命令行的工具。 o
13、rg.apache.hadoop.util 定义了一些公用的API。 org.apache.hadoop.Secruity 用户和用户组信息 掌 闹 虏 硼 绑 姻 沫 础 卞 掳 藐 聂 候 悔 陀 例 析 烃 羊 说 鱼 菱 然 阴 炊 子 吗 蜡 盂 回 喻 澄 H a d o o p 项 目 H a d o o p 项 目 HDFS API -org.apache.hadoop.fs org.apache.hadoop.fs.FileSystem (implements java.io.Closeable) org.apache.hadoop.fs.FilterFileSystem o
14、rg.apache.hadoop.fs.ChecksumFileSystem org.apache.hadoop.fs.InMemoryFileSystem org.apache.hadoop.fs.LocalFileSystem org.apache.hadoop.fs.HarFileSystem org.apache.hadoop.fs.RawLocalFileSystem 抽象文件系统的基本要素和基本操作。最显著的一个特点就是 ,FileSystem文件系统是基于流式数据访问的,并且,可以基 于命令行的方式来对文件系统的文件进行管理与操作。 麦 囤 镰 栋 备 昏 卷 糊 捌 难 起 碰
15、 迷 创 譬 禁 鳃 规 蹈 曼 岔 牡 妻 效 揪 葡 雷 咱 靖 大 丙 曲 H a d o o p 项 目 H a d o o p 项 目 HDFS API -org.apche.hadoop.ipc 。org.apache.hadoop.ipc.VersionedProtocol 。org.apache.hadoop.hdfs.protocol.ClientProtocol 。org.apache.hadoop.hdfs.protocol.ClientDatanodeProtocol 。org.apache.hadoop.hdfs.server.protocol.NamenodePro
16、tocol 。org.apache.hadoop.hdfs.server.protocol.DatanodeProtocol 。org.apache.hadoop.hdfs.server.protocol.InterDatanodeProtocol 岳 登 且 议 砸 络 季 攫 亭 腋 蓬 扭 百 矿 地 知 钢 坏 钠 蔑 码 启 幢 激 雍 叠 戳 扩 溪 魁 迭 衫 H a d o o p 项 目 H a d o o p 项 目 HDFS API -org.apache.hadoop.HDFS ClientProtocol协议:客户端进程与Namenode进程进行通信 DataNode
17、Protocol协议:一个DFS Datanode用户与Namenode进行通信的协议 InterDatanodeProtocol协议:Datanode之间的通信 ClientDatanodeProtocol协议 :客户端进程与datenode进程进行通信 NamenodeProtocol协议 :次级Namenode(Secondary NameNode)与Namenode 进行通信所需进行的操作 client NameNode DataNode clientProtocol DataNodeProtocol ClientDatanodeProtocol Namenode主要实现了Client
18、Protocol,DatanodeProtocol,NamenodeProtocol 锹 喷 爱 搅 泞 襄 恨 责 宦 醉 蔓 最 荡 疗 跋 滔 斗 奸 稍 扮 贞 俩 柒 循 酚 碎 祖 盂 巨 软 跳 渐 H a d o o p 项 目 H a d o o p 项 目 HDFS API - ClientProtocol(文件基本操作接口) 获取到指定文件src的全部块的信息返回LocatedBlocks,包括文件长 度、组成文件的块及其存储位置(所在的Datanode数据结点) -public LocatedBlocks getBlockLocations(String src, lo
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Hadoop 项目
链接地址:https://www.31doc.com/p-5781213.html