Hadoop官方文档中文版3.2.1稳定版

Hadoop官方文档中文版3.2.1稳定版第一节设置单节点集群目的这个文档描述了如何设置和配置单节点的安装 以便您可以使用 HadoopMapRed 和 Hadoop 分布式文件系统 HDFS 进行快速的简单操作 准备平台支持支持 GNU Linux 作为开发的生产平台 Hadoop 已经在具有 2000 个 GNU Linux 集群进行了演示 Windows 平台同样得到了支持 但是以下的步骤只针对于 Linux 如果想在 Windows 平台设置 Hadoop 请参考 wiki 页面 需要的软件对于 Linux 需要的软件包括 必须安装 Java 推荐

第一节 设置单节点集群

目的

这个文档描述了如何设置和配置单节点的安装,以便您可以使用Hadoop MapReduce和Hadoop分布式文件系统(HDFS)进行快速的简单操作。

准备

平台支持

  • 支持GNU/Linux作为开发的生产平台。Hadoop已经在具有2000个GNU/Linux集群进行了演示。
  • Windows平台同样得到了支持,但是以下的步骤只针对于Linux。如果想在Windows平台设置Hadoop,请参考wiki页面。

需要的软件

对于Linux需要的软件包括:

  1. 必须安装Java。推荐的Java版本在HadoopJavaVersions中有介绍。
  2. 如果需要使用可选的启动和停止脚本,必须安装ssh且sshd必须运行用于使用管理远程Hadoop守护进程/系统服务进程的Hadoop脚本。另外,建议安装pdsh以更好地进行资源管理。

安装软件

$ sudo apt-get install ssh $ sudo apt-get install pdsh 

下载

为了获得Hadoop的发行版,从任意一个Apache Download Mirrors下载最新的稳定发行版即可。

准备启动Hadoop集群

解压缩下载的Hadoop压缩包。在发行版中,编辑 etc/hadoop/hadoop-env.sh文件以定义一些参数如下:

# set to the root of your Java installation export JAVA_HOME=/usr/java/latest 

尝试下面的命令:

$ bin/hadoop 
  • 本地/独立模式 Local (Standalone) Mode
  • 伪分布式模式 Pseudo-Distributed Mode
  • 全分布式模式 Fully-Distributed Mode

独立运行

$ mkdir input $ cp etc/hadoop/*.xml input $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar grep input output 'dfs[a-z.]+' $ cat output/* 

伪分布式运行

Hadoop可以在单节点中以伪分布式运行,其中每一个Hadoop守护进程作为一个独立的Java进程运行。

配置

使用以下内容:

etc/hadoop/core-site.xml:

<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration> 

etc/hadoop/hdfs-site.xml:

<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> 

设置无密码ssh

现在确认您可以无需密码通过ssh连接到本地主机

$ ssh localhost 

如果您不能通过无密码的ssh连接到本地主机,执行下面的命令:

$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys $ chmod 0600 ~/.ssh/authorized_keys 

执行

以下说明是在本地运行MapReduce作业。如果您需要执行YARN作业,请参考YARN on Single Node

  1. 格式化文件系统:
$ bin/hdfs namenode -format 
  1. 启动NameNode和DataNode守护进程:
$ sbin/start-dfs.sh 

Hadoop守护进程输出日志被写入$ HADOOP_LOG_DIR目录(默认为$ HADOOP_HOME / logs
3. 浏览NameNode的网页界面;默认的获取方式:

  • NameNode – http://localhost:9870/
  1. 设置执行MapReduce作业所需要的HDFS目录:
$ bin/hdfs dfs -mkdir /user $ bin/hdfs dfs -mkdir /user/<username> 
  1. 将输入文件复制到分布式文件系统中:
$ bin/hdfs dfs -mkdir input $ bin/hdfs dfs -put etc/hadoop/*.xml input 
  1. 运行提供的一些示例:
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar grep input output 'dfs[a-z.]+' 
  1. 检查输出文件:从分布式文件系统中复制输出文件到本地文件系统中并检查它们:
$ bin/hdfs dfs -get output output $ cat output/* 
$ bin/hdfs dfs -cat output/* 
  1. 完成后,使用以下命令停止守护进程:
$ sbin/stop-dfs.sh 

在单节点上的YARN

  1. 如下配置参数:
etc/hadoop/mapred-site.xml: 
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.application.classpath</name> <value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value> </property> </configuration> 
etc/hadoop/yarn-site.xml: 
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.env-whitelist</name> <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value> </property> </configuration> 
  1. 启动ResourceManager和NodeManager守护进程:
$ sbin/start-yarn.sh 
  1. 浏览ResourceManager的网页接口;默认方式如下:
  • ResourceManager – http://localhost:8088/
  1. 执行一个MapReduce作业。
  2. 完成后,使用以下命令结束守护进程:
$ sbin/stop-yarn.sh 

全分布式运行

有关设置全分布式,复杂集群的信息,请参考集群设置

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/233117.html原文链接:https://javaforall.net

(0)
上一篇 2025年8月14日 下午12:01
下一篇 2025年8月14日 下午12:22


相关推荐

  • 微信小程序轮播中的current_微信小程序轮播图

    微信小程序轮播中的current_微信小程序轮播图微信小程序轮播图实现 比 Android 轮播图来说 显得轻松多了 微信小程序提供 swiper 组件 官网 api 提供的 swiper 滑块视图容器 属性名类型默认值说明 autoplayBool 是否自动切换 currentNumbe 当前所在页面的 indexinterva 自动切换时间间隔 durationNumb 滑动动画时长 circularBool

    2026年3月20日
    3
  • sntp 校时问题

    sntp 校时问题1 背景由于项目中的数据对时间比较敏感 目前常常出现校时问题 导致时间偏差 出现曲线数据丢失和曲线数据重复等问题 因此对 sntp 源码进行深入分析 要了解 SNTP 首先需要了解 NTP 协议 SNTP 是 NTP 的子集 简化了 NTP 的许多算法和步骤 得到了效率 但时间的精度不如 NTP 可是对于民用时间来说足够了 大概最多差距几秒的样子 NTP NetworkTimeP 网络时间协议 是由 RFC1305 定义的时间同步协议 用来在分布式时间服务器和客户端之间进行时间同步 NTP 基于 UDP 报

    2025年6月20日
    5
  • django详解_java cookie

    django详解_java cookie前言cookie:在网站中,http请求是无状态的。也就是说即使第一次和服务器连接后并且登录成功后,第二次请求服务器依然不能知道当前请求是哪个用户。cookie的出现就是为了解决这个问题,第一次登录

    2022年8月7日
    9
  • 云铺购代刷网系统全开源可运营程序搭建「建议收藏」

    云铺购代刷网系统全开源可运营程序搭建「建议收藏」云铺购最新代刷网系统无后门全开源可运营版本控制端功能支持一键通秒搭建代刷网站点,一键新增修改站点版本,支持QQ一键通登录自主添加站点域名管理站点,可配置后台安全访问域名白名单IP(实时保护)控制端支持一键备份旗下所有站点数据,共享数据版大大减少服务器压力主站点功能前后台支持QQ一键通登录,前台风格8套内页风格3套,免密支付,订单代付自定义网站公告导航,等级配置,邮箱配置,密匙配置,站点一键通装修支持一键通秒对接云铺购系统,玖伍系统,亿乐系统,各大卡盟系统,网商系统等对接商

    2022年8月12日
    8
  • Windows10+VS2019+OpenGL安装配置详解

    Windows10+VS2019+OpenGL安装配置详解零基础入门 OpenGL 之安装配置 Windows10 VS2019 OpenGL 安装配置步骤 Windows10 VS2019 OpenGL 安装配置步骤零基础入门 OpenGL 之安装配置 VS2019 简介 VS2019 的分类 1 个人版 VisualStudio 专业版 VisualStudio 企业版 VisualStudio 简介一 VS2019 下载与安装 1 VisualStudio 下载 2 相关配置安

    2026年3月17日
    2
  • 获取股票历史数据和当前数据的API

    获取股票历史数据和当前数据的API关键字:股票,stock,API,接口1.获取股票当前数据新浪数据接口:http://hq.sinajs.cn/list={code}。{code}替换为股票代码,沪市股票代码加前缀sh,深市股票代码加前缀sz。例如:在浏览器地址栏输入:http://hq.sinajs.cn/list=sh601766,sz000002,得到如下结果:varhq_str_sh601766=”中国中车,10.280,10.210,10.310,10.380,10.160,10.300,10.310,.

    2022年6月24日
    49

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号