完全分布式搭建HDFS分布式文件存储系统

完全分布式搭建HDFS分布式文件存储系统三分钟上手,完全分布式搭建HDFS文章目录三分钟上手,完全分布式搭建HDFS一,环境的准备二,开始安装及相关配置文件2.1下载解压缩hadoop2.2配置etc/hadoop/hadoop-env.sh2.3配置core-site.xml2.4hdfs-site.xml配置2.5写上**SNN**节点名:node022.6配置datanode存放服务器2.7分发节点…

大家好,又见面了,我是你们的朋友全栈君。

三分钟上手,完全分布式搭建HDFS

一,环境的准备

Linux (观看Linux安装及常用指令)

JDK(观看Linux安装jdk文档)

准备至少3台机器(通过克隆虚拟机;配置好网络JDK 时间 hosts,保证节点间能互ping通)

时间同步

ssh免密钥登陆(两两互通免密钥)

二,开始安装及相关配置文件

我这边三个节点分别为 : node01 node02 node03

node01 上面部署 namenode 和 datanode

node02 上面部署 secondaryNameNode 和 datanode

node03 上面部署 datanode

2.1 下载解压缩 hadoop

在这里插入图片描述
完全分布式搭建HDFS分布式文件存储系统

2.2 配置etc/hadoop/hadoop-env.sh

在这里插入图片描述
完全分布式搭建HDFS分布式文件存储系统

export JAVA_HOME= “你的Jdk安装目录” 如图
在这里插入图片描述
完全分布式搭建HDFS分布式文件存储系统

2.3 配置core-site.xml

在这里插入图片描述
完全分布式搭建HDFS分布式文件存储系统

配置解释:

<configuration>
    <property>
        //配置namenode所在的服务器
        <name>fs.defaultFS</name>
        <value>hdfs://node01:9000</value>
    </property>
    <property>
        //hadoop.tmp.dir  是hadoop文件系统依赖的基础配置,很多路径都依赖它。如果hdfs-site.xml中不配 置namenode和datanode的存放位置,默认就放在这个路径中
        <name>hadoop.tmp.dir</name>
        <value>/opt/hadoop-2.6.5</value>
    </property>
</configuration>

2.4 hdfs-site.xml配置

在这里插入图片描述
完全分布式搭建HDFS分布式文件存储系统

配置解释:

<configuration>
  	<property>
      //block保存的副本数量,不配置默认是3 我这边是没配置
      <name>dfs.replication</name>
      <value>1</value>
 	</property>
 	<property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>node02:50090</value>
    </property>
	<property>
        <name>dfs.namenode.secondary.https-address</name>
        <value>node02:50091</value>
    </property>
</configuration>

2.5 写上SNN节点名: node02

在/home/hadoop-2.6.5/etc/hadoop/新建masters文件
在这里插入图片描述
完全分布式搭建HDFS分布式文件存储系统

2.6 配置datanode存放服务器

在 slaves 中配置
在这里插入图片描述
完全分布式搭建HDFS分布式文件存储系统

注意:每行写一个 写成3行

2.7 分发节点

直接把压缩好的 hadoop 发送到node02 node03 节点上
在这里插入图片描述
完全分布式搭建HDFS分布式文件存储系统

2.8 配置 Hadoop的环境变量

vi ~/.bash_profile

在这里插入图片描述
完全分布式搭建HDFS分布式文件存储系统

2.9 命令: source ~/.bash_profile

不然你的环境变量不会生效

2.10 格式化 NameNode –> 第一次需要

hdfs  namenode -format

2.11 关闭防火墙

service  iptables  stop

2.12 启动 HDFS

start-dfs.sh
[root@node01 home]# start-dfs.sh
    Starting namenodes on [node01]
    node01: starting namenode, logging to /home/hadoop-2.6.5/logs/hadoop-root-namenode-node01.out
    node03: starting datanode, logging to /home/hadoop-2.6.5/logs/hadoop-root-datanode-node03.out
    node02: starting datanode, logging to /home/hadoop-2.6.5/logs/hadoop-root-datanode-node02.out
    node01: starting datanode, logging to /home/hadoop-2.6.5/logs/hadoop-root-datanode-node01.out
    Starting secondary namenodes [node02]
    node02: starting secondarynamenode, logging to /home/hadoop-2.6.5/logs/hadoop-root-secondarynamenode-node02.out

先启动 namenode,再启动 datanode ,最后是 secondaryNameNode

浏览器输入 node01:50070(前提是你在windows配置了 hosts),出现下面界面说明成功
在这里插入图片描述
完全分布式搭建HDFS分布式文件存储系统

2.13 查看 jps进程

node01:

[root@node01 home]# jps
3617 DataNode
3529 NameNode
3839 Jps
[root@node01 home]# 

node02:

[root@node02 hadoop]# jps
2344 Jps
2296 SecondaryNameNode
2205 DataNode
[root@node02 hadoop]# 

node03:

[root@node03 subdir0]# jps
1923 Jps
1854 DataNode
[root@node03 subdir0]# 

说明你的分布式HDFS搭建成功!!!

三,常用hdfs dfs 命令

3.1 查看hdfs指定目录下的文件

hdfs  dfs  -ls  路径

3.2 创建文件夹

hdfs  dfs -mkdir /data  ##创建一个名为data的文件夹

3.3 删除文件夹

hdfs  dfs  -rm -r  /data  ##删除在根目录下 名为 data的文件夹

3.4 上传文件到hdfs

hdfs dfs -put 文件路径和名称 /data —>上传文件到hdfs /data文件下

3.5 下载文件到本地

hdfs dfs -get 要下载的文件路径和名称

3.6 复制文件夹到本地

hdfs dfs -copyToLocal 要下载的文件路径和名称

很多命令和Linux中都是大同小异,这里就不过多列举,感兴趣的小伙伴可以自行查看。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/132835.html原文链接:https://javaforall.net

(0)
上一篇 2022年6月10日 上午9:16
下一篇 2022年6月10日 上午9:16


相关推荐

  • efishell无法开机shell_开机出现efi shell卡住不动了解决方法全集「建议收藏」

    efishell无法开机shell_开机出现efi shell卡住不动了解决方法全集「建议收藏」[文章导读]最近有很多网友问我,为什么我的电脑开机后出现efishell提示进不了系统,开机出现efishell提示时,一般是由于第一启动项设置的是efishell启动的,有的网友告诉我,我第一启动项明明设置的是硬盘启动,当然还有一种情况就是前面的启动项都无法加载,然后按启动顺序启动,然后就启动到efishell了,出现这种情况一般就是系统引导破坏或是找不到引导项了。那么怎么找到原并解决…

    2022年7月24日
    10
  • 企业运维实战 Git的使用、git结合github/gitlee、私有gitlab搭建

    企业运维实战 Git的使用、git结合github/gitlee、私有gitlab搭建1 Git 简介 Git 是目前世界上最先进的分布式版本控制系统 这个软件用起来能记录每次文件的改动 方便对文件的增删查改 版本迭代和回退等控制操作 GitHub 是一个基于 Git 的远程文件托管平台 同 Gitlee 集中式版本控制系统 都有一个单一的集中管理的服务器 保存所有文件的修订版本 协同工作的人们都通过客户端连接到这台服务器 取出最新的文件或者提交更新 集中式版本控制系统的缺点 就是必须联网工作 当遇到服务器宕机时 这时协同工作的所有人都无法工作 若遇到中心数据库损坏这种极端的情况下 若未备份

    2026年3月19日
    2
  • Matlab中读取excel表格数据

    Matlab中读取excel表格数据一 Matlab 中读取 excel 表格数据步骤讲解 第二步 第三步 第四步 第五步 第六步第七步 输入之后按回车键 就会出现相应的波形 效果图

    2026年3月19日
    1
  • Oracle—number数据类型[通俗易懂]

    Oracle—number数据类型[通俗易懂]https://www.cnblogs.com/oumyye/p/4448656.htmlNUMBER ( precision, scale)实际值数据类型存储值

    2022年7月3日
    42
  • python格式化输出之format用法

    python格式化输出之format用法format用法相对基本格式化输出采用‘%’的方法,format()功能更强大,该函数把字符串当成一个模板,通过传入的参数进行格式化,并且使用大括号‘{}’作为特殊字符代替‘%’使用方法由两种:b

    2022年7月3日
    29
  • 网络字节序和主机字节序详解!!!

    网络字节序和主机字节序详解!!!我们都知道 如今的通讯方式已经趋向与多样化 异构通信 计算机软件 操作系统 nbsp nbsp nbsp 计算机硬件 内核架构 ARM x86 不同 也已经很普遍了 如 手机和电脑中的进行通信 同时 在计算机设计之初 对内存中数据的处理也有不同的方式 低位数据存储在低位地址处或者高位数据存储在低位地址处 然而 在通信的过程中 ISO OSI 模型和 TCP IP 四层模型中 数据被一步步封装 然

    2026年2月23日
    1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号