hadoop家族的各个成员

hadoop家族的各个成员

大家好,又见面了,我是全栈君,祝每个程序员都可以多学几门语言。

这篇文章不提原理,讲讲hadoop及其周边项目的作用。

hadoop这个词已经流行好多年了,一提到大数据就会想到hadoop,那么hadoop的作用是什么呢?

官方定义:hadoop是一个开发和执行处理大规模数据的软件平台。核心词语是平台,也就是说我们有大量的数据,又有好几个电脑,我们知道应该把处理数据的任务分解到各个电脑上,可是不知道如何分配任务,如何回收结果,hadoop大概就帮助我们做了这件事。

1HDFS

我们首先应该考虑的是海量数据怎么保存,怎么管理。这就有了分布式文件系统,HDFS。

2Map-Reduce

数据保存后,我们如何处理这些数据呢,假设我处理的方法复杂,而不不过排序,查找这种操作怎么办?须要有一个可以提供编写代码的地方,让我们自己写出操作,它内部再进行分解,分配,回收数据等等。

3Hive

能编代码是好的,但编代码太麻烦,并且数据库人员是熟悉SQL语句的,能用SQL语句处理,就不用Map-Reduce了吧,所以出现了Hive。并且大数据不管怎样是离不开数据库,离不开表,Hive就能讲数据映射成数据表,然后再操作就方便了,它的缺点是速度较慢。

4HBase

既然Hive的速度较慢,那么有没有较快的数据库呢?HBase就是,他为查询而生的,查询的速度非常快。

5Sqoop

曾经不是有非常多有名的数据库像MySQL,Oracle,我数据都是存在这里面的,怎么导入到HDFS中呢?Sqoop提供了关系型数据库和HDFS之间的相互转换。

6Flume

在这么多电脑上工作,假设当中一台有点问题,或者上面哪个服务有点问题,如何知道哪坏了呢?Flume提供了一个高可靠的日志採集系统。

7Mahout

处理大数据非常多是用来进行数据挖掘,有那几种常见的机器学习算法,既然算法都固定了并且就那几种,那就开发个叫Mahout的东西实现各种算法,开发者就能更快捷的使用。

8Zookeeper

ZooKeeper的目标是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。说白了就是动物园管理员,他是用来来管大象(Hadoop) 、 蜜蜂(Hive)的。

以上是Hadoop家族的主要成员,还有几个不经常使用的就不用介绍了,知道这些成员的作用后,对Hadoop总体能干什么就有了初步的认识,剩下的就是慢慢学习各个部分的原理和用法了。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/118977.html原文链接:https://javaforall.net

(0)
上一篇 2021年11月28日 下午3:00
下一篇 2021年11月28日 下午3:00


相关推荐

  • javaweb项目图书管理系统教程(图书管理系统java课程设计)

    版权声明:本文为博主原创文章,未经博主允许不得转载2019.5.22更新看到很多人看这个项目我也没想到,不过我现在不在CSDN写文章了,博客地址链接←这是我的博客地址链接GitHub地址链接←这是我的github地址链接里面有我学习Java的过程以及笔记,希望大家一起交流。由于刚刚学习完JSP和Servlet在学习框架之前下你给更加巩固一下前面的知识所以写…

    2022年4月15日
    42
  • Python安装pymssql「建议收藏」

    Python安装pymssql「建议收藏」Python安装pymssql(v2.1.3)pymssql下载地址:https://pypi.python.org/pypi/pymssql/python2.7×32版本下pymssql的安装:如果使用2.1.1版本:https://pypi.python.org/pypi/pymssql/2.1.1#downloads,下载时选择pymssql-2.1.1.win32-py2.7.exe

    2022年6月15日
    157
  • kl1083_显示器dpi是什么意思

    kl1083_显示器dpi是什么意思Windy 定义了一种 Windy 数:不含前导零且相邻两个数字之差至少为 2 的正整数被称为 Windy 数。Windy 想知道,在 A 和 B 之间,包括 A 和 B,总共有多少个 Windy 数?输入格式共一行,包含两个整数 A 和 B。输出格式输出一个整数,表示答案。数据范围1≤A≤B≤2×109输入样例1:1 10输出样例1:9输入样例2:25 50输出样例2:20#include<bits/stdc++.h>using namespace std;

    2022年8月9日
    11
  • linux常用的20个命令面试_linux常用命令详解pdf

    linux常用的20个命令面试_linux常用命令详解pdf什么是linux多用户,多任务,支持多线程和多CPU的操作系统linux的应用领域:免费,稳定,高效的,一般运行在大型服务器上用xshell连接虚拟机的步骤:1.setup设置虚拟机IP为10.10.10.10重启网卡:servicenetworerestart2.在Windows系统打开网络和共享中心,更改适配器设置,把vmnet1的ipv4的IP改成10.10.10.13.打开xshell,输入ssh10.10.10.10/根目录:一般根目录下只存放目录,有且只有一个根目

    2026年2月21日
    10
  • Hmily 源码解析 (三) —— himly事务上下文

    Hmily 源码解析 (三) —— himly事务上下文目录1.HmilyTransactionContexthimly事务上下文,在一个线程内只有唯一实例。在线程内时不时的需要获取事务的id及角色状态等信息。如果作为参数在函数中传递并不合适,并且由于切面,拦截器等等编程方式也无法依靠该方式获取所需要的信息。hmily采用的方式是将所需要的信息封装为一个实体,这个实体就是HmilyTransactionContext。并将HmilyTr…

    2022年5月21日
    42
  • 线性代数 行列式

    线性代数分为六大块:行列式矩阵向量方程组特征值二次型行列式一、行列式的概念1、二、三阶行列式2、排列、逆序、逆序数3、n阶行列式概念二、行列式的性质三、按行(列)展开公式1、代数余子式2、展开公式四、克拉默法则…

    2022年4月6日
    52

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号