[计算机软件及应用]Hadoop使用手册第一版 修订版.doc
《[计算机软件及应用]Hadoop使用手册第一版 修订版.doc》由会员分享,可在线阅读,更多相关《[计算机软件及应用]Hadoop使用手册第一版 修订版.doc(34页珍藏版)》请在三一文库上搜索。
1、华中科技大学魏立 徐水波012-3-4 d 2012-7-29Hadoop使用手册 -Hadoop安装部署及应用 目录第一部分 Hadoop安装与部署3第一节 Hadoop部署31.准备资源32.安装流程43.配置流程44.可能遇到问题5第二节 单机伪分布61.配置文件62.格式化 HDFS73.启动Hadoop监护进程74.复制输入文件到HDFS75.运行wordcount例子76.输出结果77.停止Hadoop系统7第三节 完全分布81.系统规划安排82.修改hosts83.配置ssh84.配置masters和slaves95.配置文件96.运行准备107.运行例子108.关闭Hadoop
2、进程119.说明1110.扩展至集群搭建11第四节 在eclipse下使用Hadoop121.下载Eclipse包122.解压Eclipse包123.修改Eclipse权限124.Eclipse环境配置125.拷贝hadoop插件136.准备输入文件147.启动Eclipse148.设置Hadoop安装文件夹路径149.新建Map/Reduce项目1410.导入wordcount例子1411.运行例子1412.查看结果15第二部分 Hadoop的小应用实例15数据去重151.前言152.实例的描述153.设计思路164.源代码165.运行过程与结果186.源代码分析24第三部分 Hadoop大
3、型应用介绍25第一节 音乐社区网站Last.fm举例251.Last.fm使用Hadoop的理由262.Last.fm在Hadoop应用上产生图表的处理过程263.总结29第二节 Rackspace系统日志分析举例291.日志292.收集和存储303.日志的MapReduce模型304.总结32第一部分 Hadoop安装与部署第一节 Hadoop部署1.准备资源注意:如果下的包不一致,请在安装与配置阶段注意修改对应参数。由于Ubuntu和Eclipse包过大,通过官网下载速度也相当快,这里就不发布共享了,我把Hadoop和JDK共享到我的网盘( http:/ ),以便下载。(1) Ubuntu
4、系统(具体版本不限) 说明: 到官网上下载Ubuntu镜像,可以刻盘安装,也可以用wubi安装,这里选择32位或64位直接决定着jdk包的选择(建议选32位),选择32位,则后面jdk选择i586系列,选择64位则jdk选择x64系列,安装ubuntu时请断网(不断网会Ubuntu安装过程中会更新,导致安装时间过长)操作,之后配置请联网。(2) Hadoop 0.20.2包说明:到http:/mirror.uoregon.edu/apache/hadoop/common/hadoop-0.20.2/下载hadoop-0.20.2.tar.gz包即可。(3) Java6-jdk包 说明:这里我下
5、载的是后缀为bin的文件。(4) SSH包说明:在终端中输入 sudo apt-get install ssh ,联网下载安装,安装过程中可能由于网络原因,出现安装问题,这个问题一段时间后网络状况好可安装成功。也可以通过更改Ubuntu的源来解决这个问题。(5) Eclipse包 说明:到www.eclipse.org/downloads/处下载Linux版本的安装包或者直接在ubuntu软件中心内下载安装eclipse。推荐在Ubuntu平台下下载,不要在Window上下载,容易出问题,在实验中遇到过这样的问题,可能与平台兼容性有关。 2.安装流程(括号内容为说明,请复制前面的代码到终端执行
6、) a.安装JDK 在终端中输入 (1)sudo mkdir /usr/Java (新建Java文件夹) sudo cp jdk的路径 /usr/Java (jdk的路径可以采用直接将文件拖入终端而后显示的方式) (2)cd /usr/Java (进入到Java目录下) sudo chmod u+x jdk-6u26-dlj-linux-i586.bin (改变文件权限为可执行)(3)sudo ./jdk-6u26-dlj-linux-i586.bin (执行安装,不停的回车,显示完协议后,提示是否同意协议,输入yes) b.安装Hadoop (1)sudo cp hadoop的路径 /usr
7、/local (将hadoop-0.20.2tar.gz拖入终端后即可显示hadoop的路径) (2)cd /usr/local (进入到local目录) sudo tar -xzf hadoop-0.20.2.tar.gz (解压hadoop-0.20.2.tar.gz) (3)sudo mv hadoop-0.20.2 hadoop (将解压后的文件夹名改为hadoop) (4)sudo addgroup hadoop sudo adduser -ingroup hadoop hadoop (创建一个名为hadoop的用户和用户组,并使之有更多权限) sudo -i (获取root权限)
8、sudo gedit /etc/sudoers 在 root ALL=(ALL) ALL 下面添加 hadoop ALL=(ALL) ALL 一行,然后保存关闭gedit。 reboot 重启机器,并用hadoop用户登录。3.配置流程 a.配置Java环境变量 在终端输入 (1)sudo gedit /etc/profile (用gedit打开etc下的profile文件) 在文件最后加入如下两行export CLASSPATH=.:/usr/Java/jdk1.6.0_26/lib:/usr/Java/jdk1.6.0_26/jre/lib:$CLASSPATH export PATH=.
9、:/usr/Java/jdk1.6.0_26/bin:/usr/Java/jdk1.6.0_26/jre/bin:/usr/local/ha doop/bin:$PATH (hadoop是一行,此处排版不下) (2)在终端输入sudo -i 获得root权限,输入java -version,看Java安装是否成功,出现 问题请参考第一部分第一节最后可能遇到问题Java相关问题部分 b.配置hadoop环境变量 在终端输入 (1)cd /usr/local/hadoop/conf (进入到conf文件目录下) (2)sudo gedit hadoop-env.sh (打开 hadoop-env.
10、sh) (3)添加以下两行: export JAVA_HOME=/usr/Java/jdk1.6.0_26 export HADOOP_HOME=/usr/local/hadoop c.创建ssh-key 在终端输入 (1)sudo apt-get install ssh (装载ssh服务) (2)ssh-keygen -t rsa -P (执行后要求给出key保存的路径,直接复制()内系统给出的默认位置即可,照本文档来做,应该给出的是/home/hadoop/.ssh/id_rsa) (3)cat /home/hadoop/.ssh/id_rsa.pub /home/hadoop/.ssh/
11、authorized_keys sudo /etc/init.d/ssh reload (将此ssh-key添加到信任列表中,并启用此ssh-key)4.可能遇到问题 a.Ubuntu相关问题 (1)问题:无权限 解决方法:sudo i 获取root权限 (2)问题:文件无法保存 解决方法:以root权限打开,即sudo -i后 sudo gedit 文件路径打开 或 用sudo nautilus命令后在新窗口下直接打开文件 b.Java相关问题 在安装后的jdk文件夹中有一些pack文件,由于没有unpack为jar文件导致如下错误: (1)问题:出现Error occurred durin
12、g initialization of VM java/lang/NoClassDefFound 解决办法:用cd命令 cd /usr/Java/jdk1.6.0_26/lib 进入lib文件夹中, 再用unpack命令 unpack200 tools.pack tools.jar 用cd命令 cd /usr/Java/jdk1.6.0_26/jre/lib 进入jre/lib文件夹中, 再用unpack命令 unpack200 rt.pack rt.jar (2)问题:发现无法识别SocketFactory类 解决办法: 用cd命令 cd /usr/Java/jdk1.6.0_26/jre/
13、lib 进入jre/lib文件夹中, 再用unpack命令 unpack200 jsse.pack jsse.jar 其余pack有问题,也可以如上解包。 c.修改sudoer出问题导致sudo命令不能用 重启机器进入recoverymode(修复模式),长按shift键,在shell菜单选择root进入,在rootubuntu下输入 passwd 命令,设置root账户密码并确认,退出以root账户登录,找到sudoer文件修改至正确状态,再重新登录即可。按照以上部署完后,hadoop还不能运行,还需要对hadoop进行配置,而单机伪分布和完全分布hadoop配置不一样,下面分为两节分别介绍
14、。第二节 单机伪分布 在第一节配置完成的基础上,进行下面单机伪分布的配置与操作。出现权限问题,可试着用sudo -i获得root权限运行一下。1.配置文件 在终端输入 (1) cd /usr/local/hadoop/conf (进入conf配置目录下) (2) sudo gedit core-site.xml (编辑core-site.xml) 之间内容替换如下: fs.default.name hdfs:/localhost:9000 (3) sudo gedit hdfs-site.xml (编辑hdfs-site.xml) 之间内容替换如下: dfs.replication 1 (4)
15、 sudo gedit mapred-site.xml (编辑mapred-site.xml) 之间内容替换如下: mapred.job.tracker localhost:9001 2.格式化 HDFS (1)cd /usr/local/hadoop (进入hadoop所在目录) (2)sudo bin/hadoop namenode -format (格式化HDFS)3.启动Hadoop监护进程 (1)sudo chown -hR hadoop /usr/local/hadoop (2)bin/start-all.sh (启动Hadoop)4.复制输入文件到HDFS (1)sudo ged
16、it /tmp/test.txt (打开后随便输入一些内容,如bu li ni wo li ta ni bu li ta,然后保存退出) (2)hadoop dfs -copyFromLocal /tmp/test.txt firstTest (将准备的测试文件上传到dfs文件系统中的firstTest目录下)5.运行wordcount例子 hadoop jar hadoop-0.20.2-examples.jar wordcount firstTest result (运行wordcount,对firstTest下的所有文件执行wordcount,将统计结果输出到result文件夹中)6.输
17、出结果 hadoop dfs -cat result/part-r-00000 (输出结果)7.停止Hadoop系统 bin/stop-all.sh (停止Hadoop)第三节 完全分布 在两台计算机完成第一节配置的基础上,进行下面完全分布的配置与操作。(默认对所有机器执行下面操作,明确指出操作对象仅为master或slave节点机器的步骤除外)1.系统规划安排(这里我用的是无线网络,具体配置的时候在网络连接的连接信息中查看IP,修改为自己的IP) Node User IP地址 IP身份 Namenode hadoop 10.10.25.217 master Jobtracker hadoop
18、 10.10.25.217 master Datanode hadoop 10.10.25.54 slave 说明:Namenode和JobTracker为同一台主机,采用master的IP,Datanode采用slave的IP。2.修改hosts 在终端输入 sudo gedit /etc/hosts 添加下面两行数据 10.10.25.217 master 10.10.25.54 slave3.配置ssh (1)在所有slave节点(10.10.25.54)上的终端上执行下面两句命令,这里即复制master机器上的公钥到slave上。 scp hadoop10.10.25.217:/hom
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机软件及应用 计算机软件及应用Hadoop使用手册第一版 修订版 计算机软件 应用 Hadoop 使用手册 第一版
链接地址:https://www.31doc.com/p-1991538.html