HADOOP生态圈以及各组成部分的简介

HADOOP生态圈以及各组成部分的简介HADOOP生态圈以及各组成部分的简介1各组件简介重点组件:HDFS:分布式文件系统MAPREDUCE:分布式运算程序开发框架HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具HBASE:基于HADOOP的分布式海量数据库ZOOKEEPER:分布式协调服务基础组件Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库Oozie…

大家好,又见面了,我是你们的朋友全栈君。

HADOOP生态圈以及各组成部分的简介

在这里插入图片描述

1各组件简介
重点组件:
HDFS:分布式文件系统
MAPREDUCE:分布式运算程序开发框架
HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具

HBASE:基于HADOOP的分布式海量数据库
ZOOKEEPER:分布式协调服务基础组件
Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库
Oozie:工作流调度框架(Azakaba)
Sqoop:数据导入导出工具
Flume:日志数据采集框架
2. 数据分析流程介绍

初步理解hadoop数据如何处理流程

一个应用广泛的数据分析系统:“web日志数据挖掘”
在这里插入图片描述
2.1 案例需求描述
“Web点击流日志”包含着网站运营很重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页最有价值,广告转化率、访客的来源信息,访客的终端信息等。
2.2 数据来源
本案例的数据主要由用户的点击行为记录
获取方式:在页面预埋一段js程序,为页面上想要监听的标签绑定事件,只要用户点击或移动到标签,即可触发ajax请求到后台servlet程序,用log4j记录下事件信息,从而在web服务器(nginx、tomcat等)上形成不断增长的日志文件。
2.3 数据流程解析
本案例跟典型的BI系统极其类似,整体流程如下:
在这里插入图片描述
但是,由于本案例的前提是处理海量数据,因而,流程中各环节所使用的技术则跟传统BI完全不同,后续课程都会一一讲解:

  1. 数据采集:定制开发采集程序,或使用开源框架FLUME
  2. 数据预处理:定制开发mapreduce程序运行于hadoop集群
  3. 数据仓库技术:基于hadoop之上的Hive
  4. 数据导出:基于hadoop的sqoop数据导入导出工具
  5. 数据可视化:定制开发web程序或使用kettle等产品
  6. 整个过程的流程调度:hadoop生态圈中的oozie工具或其他类似开源产品
    2.4 项目技术架构图在这里插入图片描述2.5 项目最终效果
    经过完整的数据处理流程后,会周期性输出各类统计指标的报表,在生产实践中,最终需要将这些报表数据以可视化的形式展现出来,本案例采用web程序来实现数据可视化
    效果如下所示:
    在这里插入图片描述
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/143628.html原文链接:https://javaforall.net

(0)
上一篇 2022年5月21日 上午9:40
下一篇 2022年5月21日 上午9:40


相关推荐

  • hive udf开发超详细手把手教程

    hive udf开发超详细手把手教程关于 hive 的 udf 介绍 就不多啰嗦了 网上的教程一抓一大把 也可以上 apache 的官网去查阅相关资料 我就省了翻译的时间了 重点给大家带来干货 手把手教会你怎样开发一个 udf 函数 已经如何部署到服务器上的 hive 环境中运行 用最简单的话来说 就是教大家怎么让自己开发的 udf 跑起来 项目需求做数据挖掘项目中 常见的需求之一就是分析节假日订单跟平时订单的区别 于是 我们需要统计节假日订单的分布情况

    2026年3月20日
    2
  • Linux中fork()函数详解

    Linux中fork()函数详解linux 中 fork 函数详解一 fork 入门知识一个进程 包括代码 数据和分配给进程的资源 fork 函数通过系统调用创建一个与原来进程几乎完全相同的进程 也就是两个进程可以做完全相同的事 但如果初始参数或者传入的变量不同 两个进程也可以做不同的事 一个进程调用 fork 函数后 系统先给新的进程分配资源 例如存储数据和代码的空间 然后把原来

    2026年3月19日
    3
  • 如何完全卸载Android Studio (干干净净)

    如何完全卸载Android Studio (干干净净)

    2021年10月2日
    1.2K
  • 比特币原理详解

    比特币原理详解一 什么是比特币比特币是一种电子货币 是一种基于密码学的货币 在 2008 年 11 月 1 日由中本聪发表比特币白皮书 文中提出了一种去中心化的电子记账系统 我们平时的电子现金是银行来记账 因为银行的背后是国家信用 去中心化电子记账系统是参与者共同记账 比特币可以防止主权危机 信用风险 其好处不多做赘述 这一层面介绍的文章很多 本文主要从更深层的技术原理角度进行介绍 二 问题引入假设现有 4 个人

    2026年3月26日
    2
  • Opkg安装问题[通俗易懂]

    Opkg安装问题[通俗易懂]问题1:satisfy_dependencies_for:CannotsatisfythefollowingdependenciesforXXX问题报错如下:root@OpenWrt:/etc#opkginstallkmod-i2c-coreInstallingkmod-i2c-core(3.10.49-1)toroot…Downloadinghttp://downloads.openwrt.org/barrier_breaker/14.07/ramips/mt

    2022年6月1日
    47
  • lea 指令_lea指令的功能

    lea 指令_lea指令的功能leaw#2个字节leal#4个字节leaq#8个字节leabase_address(offset_address,index,size),%rax根据括号里的源操作数来计算地址,然后把地址加载到目标寄存器中。计算地址base_address+offset_address+index*size,然后把最终地址载到寄存器rax中。lea不引用源操作数里的寄存器,只是单…

    2025年6月30日
    4

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号