Alex 的 Hadoop 菜鸟教程: 第6课 Hbase 安装教程「建议收藏」

Alex 的 Hadoop 菜鸟教程: 第6课 Hbase 安装教程「建议收藏」这次给大家介绍一下Hbase的概念和安装教程

大家好,又见面了,我是你们的朋友全栈君。

原帖地址: http://blog.csdn.net/nsrainbow/article/details/38515007

声明:

  • 本文基于Centos 6.x + CDH 5.x 
  • 官方英文安装教程http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH5/latest/CDH5-Installation-Guide/cdh5ig_hbase_installation.html 。本文并不是简单翻译,而是再整理
  • 因为之前说过了HA模式的部署,所以这边不会说单机版的安装,直接说分布式的安装
  • 有一个基本常识需要知道,hadoop的配置文件基本上是所有机器都一样的,所以如果有改到配置文件方面基本都是要同步修改所有机器

介绍

Hbase是什么

Hbase 是基于google那篇 bigtable的论文的一个开源的实现,基于hdfs来存储表里面的数据。是一个NoSQL数据库。它是一个列式数据库。啥叫列式数据库呢?我们一般的数据库里面一行的数据就是存成一行,但是在hbase里面如果你这行有5个列,那就是5个独立的键值对,有可能都不是存在同一台机器上,这5个键值对之间的关联就是 rowkey,他们有共同的rowkey,除此之外他们之间么有关联,就像完全属于不同的表一样。

Hbase的架构

Alex 的 Hadoop 菜鸟教程: 第6课 Hbase 安装教程「建议收藏」

  • HMaster— HBase中仅有一个Master server。
  • HRegionServer—负责多个HRegion使之能向client端提供服务,在HBase cluster中会存在多个HRegionServer。

安装

配置最大文件数

centos 最大文件数

hbase 会打开很多文件,而centos的默认最大打开数是不够的,所以要调整
编辑 /etc/security/limits.conf file 增加下面两行
hdfs  -       nofile  32768
hbase -       nofile  32768

hdfs最大文件数

还要调整hdfs的最大文件数。编辑 /etc/hadoop/conf/hdfs-site.xml 增加以下属性 (所有机器)
<property>
  <name>dfs.datanode.max.xcievers</name>
  <value>4096</value>
</property>

如果不增加这个容易出现以下错误

10/12/08 20:10:31 INFO hdfs.DFSClient: Could not obtain block blk_XXXXXXXXXXXXXXXXXXXXXX_YYYYYYYY from any node: 
java.io.IOException: No live nodes contain current block. Will get new block locations from namenode and retry... 

记得改完后重启hadoop的服务

安装hbase

在随便一台你要运行hbase的机子上安装,这里就在 
host1 上安装吧(根据之前的课程
Alex 的 Hadoop 菜鸟教程: 第4课 Hadoop 安装教程 – HA方式 (2台服务器) 我们有两台机器 host1 和 host2 )

$ sudo yum install hbase -y

如果没有yum源请参考  
Alex 的 Hadoop 菜鸟教程: 第2课 hadoop 安装教程 (CentOS6 CDH分支 yum方式)

rpm -ql hbase

检验安装路径,会发现安装在 /usr/lib/hbase下

安装hbase-master

这边要说下hbase的 master 和 slave 概念。hbase 运行的时候有一个master 和多个 slave 。这边的 hbase-master 从命名上也能看出就是master机。

还是选择在 host1 上安装

yum install hbase-master -y

host1 host2 两台机子上都修改 /etc/hbase/conf/hbase-site.xml 在 <configuration> 和 </configuration> 之间增加以下2个属性

  <property>
    <name>hbase.cluster.distributed</name>
    <value>true</value>
  </property>
  <property>
    <name>hbase.rootdir</name>
    <value>hdfs://mycluster/hbase</value>
  </property>

这里的mycluster 是我自己的集群id,具体名称看你在 hdfs-site.xml 里面的 dfs.nameservices 属性配的是什么名字了。

在hdfs上建立 hbase 使用的文件夹

sudo -u hdfs hdfs dfs -mkdir /hbase
sudo -u hdfs hdfs dfs -chown hbase /hbase

启动 hbase-master 。 hbase-master 是需要zookeeper的,所以确保你的zookeeper启动了。

安装 RegionServer

官方建议在所有的 datanode 机器上安装 RegionServer 。所以在host1 和  host2 都安装 RegionServer 。

yum install hbase-regionserver -y

安装好后修改
两台机器的配置文件 /etc/hbase/conf/hbase-site.xml ,在 <configuration> 和 </configuration> 中增加以下属性

    <property>
      <name>hbase.zookeeper.quorum</name>
      <value>mymasternode</value>
    </property>

这里的 mymasternode 要替换成真实的地址。
这个东西其实我们在 Alex 的 Hadoop 菜鸟教程: 第4课 Hadoop 安装教程 – HA方式 (2台服务器) 中见过,在hdfs的HA配置中有一个属性叫 ha.zookeeper.quorum 配置的是 zookeeper 集群的地址,同理的,这边也是配置了hbase 的 RegionServer 需要的 zookeeper 地址,所以在本例中我们配置成

    <property>
      <name>hbase.zookeeper.quorum</name>
      <value>host1:2181,host2:2181</value>
    </property>

启动Hbase

先启动hbase-master 再期待共 hbase-regionserver
service hbase-master start
service hbase-regionserver start

注意: 确保两台机器的hbase-site.xml的配置是一样的,别某台机器漏掉了某项配置就麻烦了

安装HBase Thrift Server

这个Thrift 是用来让其他程序跟Hbase连接用的,你可以看做是有了Thrift 之后Hbase才开放了程序调用的API,你才可以用不同的语言来调用hbase。我们选择hbase-master 所在的
host1进行安装
 yum install hbase-thrift -y

启动服务

service hbase-thrift start

服务的启动顺序

官方说服务的启动顺序是这样的
  1. zookeeper
  2. hbase-master
  3. 各个regionserver

检验

web界面

服务都启动完毕后,访问 http://host1:60010/ 会看到这样的界面
Alex 的 Hadoop 菜鸟教程: 第6课 Hbase 安装教程「建议收藏」


shell命令行工具

在 hbase-master 那台机子上进入 hbase shell 并运行  list 查询所有表试试看
$ hbase shell

......

hbase(main):001:0> list
TABLE                                                                                                                         
0 row(s) in 15.1010 seconds

=> []

如果没有报任何异常,输出像这样,那么恭喜你成功了!


如果出现任何异常就去 /var/log/hbase/ 下面看日志,这些日志对你解决问题的帮助非常大,可以说是唯一的线索!


参考资料

  • http://www.uml.org.cn/sjjm/201212141.asp 


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/144828.html原文链接:https://javaforall.net

(0)
上一篇 2022年5月18日 下午5:20
下一篇 2022年5月18日 下午5:40


相关推荐

  • 界面传值,单例,模态[通俗易懂]

    界面传值,单例,模态

    2022年2月4日
    50
  • 终于有人把RISC-V讲明白了

    终于有人把RISC-V讲明白了0RISC V 和其他开放架构有何不同如果仅从 免费 或 开放 这两点来评判 RISC V 架构并不是第一个做到免费或开放的处理器架构 在开始之前 我们先通过论述几个具有代表性的开放架构 来分析 RISC V 架构的不同之处以及为什么其他开放架构没能取得足够的成功 0 1 平民英雄 OpenRISCOpen 是 OpenCores 组织提供的基于 GPL 协议的开放源代码 RISC 处理器

    2026年3月19日
    2
  • emgucv自适应二值化

    emgucv自适应二值化一 理论概述 转载自 OpenCV 基于局部自适应阈值的图像二值化 nbsp nbsp 局部自适应阈值则是根据像素的邻域块的像素值分布来确定该像素位置上的二值化阈值 这样做的好处在于每个像素位置处的二值化阈值不是固定不变的 而是由其周围邻域像素的分布来决定的 亮度较高的图像区域的二值化阈值通常会较高 而亮度较低的图像区域的二值化阈值则会相适应地变小 不同亮度 对比度 纹理的局部图像区域将会拥有相对应

    2025年11月9日
    4
  • 国内十大正规现货交易平台排名(2022最新榜单)「建议收藏」

    国内十大正规现货交易平台排名(2022最新榜单)「建议收藏」如今,越来越多的人投资于黄金,因为这些投资项目更适合当今年轻人的需求,但为了通过黄金投资获得理想的回报,我们首先需要选择一个可靠的国内黄金交易平台,由于市场上的各种平台都很复杂,有些平台可能不是很正规。如果你选择这样的一个平台投资,收获可能会并不理想,但选择好的平台事实上并不像预期的那么困难。香港作为全球的金融中心之一,其金银业贸易场的黄金投资业务已经很成熟,投资者的利益能够得到有效的保障。鉴于很多新手对国内现货黄金平台不太了解,下面小编为大家介绍“国内十大正规现货交易平台排名(2022最新

    2022年6月29日
    272
  • 怎么完全卸载赛门铁克_如何卸载symantec

    怎么完全卸载赛门铁克_如何卸载symantec前段时间,业务的虚机上安装了symantecEndpointProtection(正版),发现虚机运行一段时间就会失去响应死机,并且有些安装symantec的虚机3389端口无法使用,怎么折腾都不行。最后决定卸载它。一、是否可以用停止服务和终止进程再卸载的方式卸载呢?答案不行有3个symantec的服务,前2个可以终止,但symantecEndpointProtection这个服务打开都…

    2022年6月12日
    86
  • EAX、ECX、EDX、EBX等寄存器的作用

    EAX、ECX、EDX、EBX等寄存器的作用EAX ECX EDX EBX 等寄存器的作用 一般寄存器 AX BX CX DXAX 累积暂存器 BX 基底暂存器 CX 计数暂存器 DX 资料暂存器 索引暂存器 SI DISI 来源索引暂存器 DI 目的索引暂存器 堆叠 基底暂存器 SP BPSP 堆叠指标暂存器 BP 基底指标暂存器 EAX ECX EDX EBX 是 ax bx cx dx 的延伸 各为

    2025年6月29日
    5

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号