Alex 的 Hadoop 菜鸟教程: 第3课 Hadoop 安装教程 – 非HA方式 (一台服务器)「建议收藏」

Alex 的 Hadoop 菜鸟教程: 第3课 Hadoop 安装教程 – 非HA方式 (一台服务器)「建议收藏」本教程是在Centos6下使用yum来安装CDH5版本的hadoop的教程,适合新手并且只有一个linux服务器的情况下最快速度的上手hadoop

大家好,又见面了,我是你们的朋友全栈君。

原帖地址: http://blog.csdn.net/nsrainbow/article/details/36629741

接上一个教程:http://blog.csdn.net/nsrainbow/article/details/36629339

本教程是在 Centos6 下使用yum来安装 CDH5 版本的 hadoop 的教程。 如果没有添加yum源的请参考上一个教程:http://blog.csdn.net/nsrainbow/article/details/36629339

Hadoop架构图

Alex 的 Hadoop 菜鸟教程: 第3课 Hadoop 安装教程 - 非HA方式 (一台服务器)「建议收藏」

  1. NameNode、DataNode和Client
    NameNode可以看作是分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中,这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。
    DataNode是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将所有存在的Block信息发送给NameNode。
    Client就是需要获取分布式文件系统文件的应用程序。
  2. 文件写入
    Client向NameNode发起文件写入的请求。
    NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。
    Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。
  3. 文件读取
    Client向NameNode发起文件读取的请求
    NameNode返回文件存储的DataNode的信息。
    Client读取文件信息。

开始安装非HA模式

1. 添加库key

$ sudo rpm --import http://archive.cloudera.com/cdh5/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera

2. 安装CDH5

2.1 安装Resource Manager host

$ sudo yum clean all
$ sudo yum install hadoop-yarn-resourcemanager -y

2.2 安装 NameNode host

$ sudo yum clean all
$ sudo yum install hadoop-hdfs-namenode -y

2.3 安装 Secondary NameNode host

$ sudo yum clean all
$ sudo yum install hadoop-hdfs-secondarynamenode -y

2.4 安装 nodemanager , datanode, mapreduce (官方说明是在除了 Resource Manager以外的机子上装这些,但是我们现在就一台机子,所以就在这台机子上装)

$ sudo yum clean all
$ sudo yum install hadoop-yarn-nodemanager hadoop-hdfs-datanode hadoop-mapreduce -y

2.5 安装 hadoop-mapreduce-historyserver hadoop-yarn-proxyserver (官方说是在cluster中挑一台做host,但是我们就一台,就直接在这台上装)

$ sudo yum clean all
$ sudo yum install hadoop-mapreduce-historyserver hadoop-yarn-proxyserver -y

2.6 安装 hadoop-client (用户连接hadoop的客户端,官方说在客户端装,我们就直接在这台上装)

$ sudo yum clean all
$ sudo yum install hadoop-client -y

3. 部署CDH

3.1 配置计算机名(默认是localhost)

先看看自己的hostname有没有设置

$ sudo vim /etc/sysconfig/network
HOSTNAME=localhost.localdomain

如果HOSTNAME是 localhost.localdomain的话就改一下

HOSTNAME=myhost.mydomain.com

然后再运行下,保证立即生效

$ sudo hostname myhost.mydomain.com

检查一下是否设置生效

$ sudo uname -a

3.2 修改配置文件

先切换到root用户,免得每行命令之前都加一个sudo,所以以下教程都是用root角度写的

$ sudo su -
$ cd /etc/hadoop/conf
$ vim core-site.xml

在 <configuration>…</configuration> 中增加

<property>
	<name>fs.defaultFS</name>
	<value>hdfs://myhost.mydomain.com:8020</value>
</property>

编辑hdfs-site.xml

$ vim hdfs-site.xml

在 <configuration>…</configuration> 中添加

<property>
 <name>dfs.permissions.superusergroup</name>
 <value>hadoop</value>
</property>

3.3 配置存储文件夹

在 namenode 机子上配置 hdfs.xml 用来存储name元数据(我们只有一台机,所以既是namenode又是datanode)

$ vim hdfs-site.xml

修改dfs.name.dir 为 dfs.namenode.name.dir(dfs.name.dir已经过时),并修改属性值,一般来说我们的 /data 或者 /home/data 都是挂载大硬盘数据用的,所以把存储文件夹指向这个路径里面的文件夹比较较好

<property>
     <name>dfs.namenode.name.dir</name>
     <value>file:///data/hadoop-hdfs/1/dfs/nn</value>
  </property>

在 datanode上配置 hdfs.xml 用来存储实际数据(我们只有一台机,所以既是namenode又是datanode)

$ vim hdfs-site.xml

增加dfs.datanode.data.dir(dfs.data.dir已经过时)配置

<property>
     <name>dfs.datanode.data.dir</name>
     <value>file:///data/hadoop-hdfs/1/dfs/dn,file:///data/hadoop-hdfs/2/dfs/dn</value>
  </property>

建立这些文件夹

$ mkdir -p /data/hadoop-hdfs/1/dfs/nn
$ mkdir -p /data/hadoop-hdfs/1/dfs/dn
$ mkdir -p /data/hadoop-hdfs/2/dfs/dn

修改文件夹用户

$ chown -R hdfs:hdfs /data/hadoop-hdfs/1/dfs/nn /data/hadoop-hdfs/1/dfs/dn /data/hadoop-hdfs/2/dfs/dn

修改文件夹权限

$ chmod 700 /data/hadoop-hdfs/1/dfs/nn

3.4 格式化namenode

$ sudo -u hdfs hdfs namenode -format

3.5 配置 Secondary NameNode

在hdfs-site.xml中加入

<property>
  <name>dfs.namenode.http-address</name>
  <value>0.0.0.0:50070</value>
  <description>
    The address and the base port on which the dfs NameNode Web UI will listen.
  </description>
</property>

3.6 启动hadoop

$ for x in `cd /etc/init.d ; ls hadoop-*` ; do sudo service $x start ; done
Starting Hadoop nodemanager:                               [  OK  ]
starting nodemanager, logging to /var/log/hadoop-yarn/yarn-yarn-nodemanager-xmseapp03.ehealthinsurance.com.out
Starting Hadoop proxyserver:                               [  OK  ]
starting proxyserver, logging to /var/log/hadoop-yarn/yarn-yarn-proxyserver-xmseapp03.ehealthinsurance.com.out
Starting Hadoop resourcemanager:                           [  OK  ]
starting resourcemanager, logging to /var/log/hadoop-yarn/yarn-yarn-resourcemanager-xmseapp03.ehealthinsurance.com.out
Starting Hadoop datanode:                                  [  OK  ]
starting datanode, logging to /var/log/hadoop-hdfs/hadoop-hdfs-datanode-xmseapp03.ehealthinsurance.com.out
Starting Hadoop namenode:                                  [  OK  ]
starting namenode, logging to /var/log/hadoop-hdfs/hadoop-hdfs-namenode-xmseapp03.ehealthinsurance.com.out
Starting Hadoop secondarynamenode:                         [  OK  ]
starting secondarynamenode, logging to /var/log/hadoop-hdfs/hadoop-hdfs-secondarynamenode-xmseapp03.ehealthinsurance.com.out
...

都成功后用jps看下

$jps
17033 NodeManager
16469 DataNode
17235 ResourceManager
17522 JobHistoryServer
16565 NameNode
16680 SecondaryNameNode
17593 Jps

4 客户端测试

打开你的浏览器输入 http://<hadoop server ip>:50070

如果看到

Hadoop Administration

DFS Health/Status

这样的字样就成功进入了hadoop的命令控制台

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/137549.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • POSTMAN实战使用教程

    POSTMAN实战使用教程postman8.0下载地址:链接:https://pan.baidu.com/s/1kylwkXbUpRiFUXWEDvljZg提取码:xsrh一般情况下,接收到接口测试文档有如下内容: 接口名称 查询接口 接口地址 https://api.apiopen.top/getSingleJoke 入参 参数名称 参数值 参数类型 .

    2022年5月26日
    34
  • 如何配置android的adb环境变量(jre环境变量配置)

    一、安装完AndroidStudio后会默认在其下面安装SDK1.找到文件sdk下的tools和platform-tools,并复制其路径2.打开环境变量配置3.新建系统变量,命名为Android_ADB,并将上述两个路径分别导入,中间用;隔开4.打开path变量,输入%Android_ADB%5.打开终端,输入adbversion,出现帮助信息,完成配置。二

    2022年4月9日
    45
  • Qt 之 QThread(深入理解)

    Qt 之 QThread(深入理解)简述前面,我们介绍了QThread常用的两种方式:worker-object子类化QThread下面,我们首先来看看子类化QThread在日常中的应用。简述子类化QThread在主线程中更新UI正常结束线程更多参考一般情况下,QThread进行耗时操作的同时会与UI进行交互,比如:显示进度、旋转等待。。。进行友好型的交互,让用户知道当前的操作。子类化QThread我们以更新进度条为例,

    2022年5月28日
    44
  • ubuntu18.04安装pycharm记录「建议收藏」

    ubuntu18.04安装pycharm记录「建议收藏」1.进官网下载pycharm安装包https://www.jetbrains.com/pycharm/download/#section=linux建议选择社区免费版Community,这样就省去激活的过程2.点击下载,然后等待。下载好后右键安装包,解压提取,如下图,解压出了pycharm-community-2019.3.4文件夹3.进入这个pycharm-communi…

    2022年8月27日
    6
  • eclipse安装android_安卓studio怎么打包apk

    eclipse安装android_安卓studio怎么打包apkEclipseandroid开发更改apk名字有以下几步:第一步,修改工程包名在eclipse里,找到项目包和java包(原则上都一样),就可以按”F2″修改名字,随之,源.java也会得到相应的修改;然而每个.java文件都需要把如下图内容,再额外修改一下第二步,修改AndroidManifest.xml文件AndroidManifest.xml里的内容是android工程的相关配置文件。工程文件的解析具体可参考:某鸟教程.第三步,修改Strings.xml文件然后是…

    2022年10月5日
    4
  • Python实现人脸识别「建议收藏」

    Python实现人脸识别「建议收藏」案例分析概述Python在人脸识别方面功能很强大,程序语言简单高效,下面编程实现一下如何实现人脸识别。分别给出实现代码,作为学习和技术交流。Python基础环境准备参见:https://blog.csdn.net/yan_dk/article/details/89528463案例实现打开显示图片importcv2#opencv库#读…

    2025年5月31日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号