java到大数据学习路线

java到大数据学习路线计算机网络 操作系统 数据结构 计算机组成原理 可重点学习如下知识点计算机网络(重点看OSI七层模型或TCP/IP五层模型理解每层含义)数据结构(重点看数组、栈、队列、链表、树)算法(重点看各种排序算法、查找算法、去重算法,最优解算法,多去LeetCode刷算法题)操作系统(重点看进程、线程、IO、调度、内存管理) 数据仓库分为离线数仓和实时数仓,但是企业在招聘时大多要求两者都会,进入公司之后可能会专注于离线或实时其中之一。不…

大家好,又见面了,我是你们的朋友全栈君。

  1. 计算机网络

  2. 操作系统

  3. 数据结构

  4. 计算机组成原理

    可重点学习如下知识点   
    计算机网络(重点看 OSI七层模型 或 TCP/IP五层模型 理解每层含义
    数据结构(重点看 数组、栈、队列、链表、树
    算法(重点看 各种 排序算法、查找算法、去重算法,最优解算法,多去 LeetCode 刷算法题)
    操作系统(重点看 进程、线程、IO、调度、内存管理

java到大数据学习路线

 数据仓库分为离线数仓实时数仓,但是企业在招聘时大多要求两者都会,进入公司之后可能会专注于离线或实时其中之一。

不管离线还是实时,重中之重就是SQL

SQL 语法及调优一定要掌握,这里说的 SQL 包括 mysql 中的 sql,hive中的 hive sql,spark 中的 spark sql,flink 中 的 flink sql。

在企业招聘的笔记及面试中,一般问的关于 sql 的问题主要是以 hive sql 为主,所以请重点关注!

  1. 实时数仓需要重点掌握的技能:

    • Hadoop(这是大数据基础,不管离线和实时都必须掌握)

    • Kafka(重点,大数据领域中算是唯一的消息队列)

    • Flink(重中之重,这个不用说了,实时计算框架中绝对王者)

    • HBase(会使用,了解底层原理)

    • Druid(会用,了解底层原理)

    • 实时数仓架构(两种数仓架构:Lambda架构和Kappa架构)

    • Hadoop(HDFS,MapReduce,YARN)

    • Hive(重点,包括hive底层原理,hive SQL及调优)

    • Spark(Spark 会用及了解底层原理)

    • Oozie(调度工具,会用即可)

    • 离线数仓建设(搭建数仓,数仓建模规范)

    • 维度建模(建模方式常用的有范式建模和维度建模,重点关注维度建模)

大数据开发分两类,第一类是编写Hadoop、Spark、Flink 的应用程序,第二类是对大数据处理系统本身进行开发,如对开源框架的扩展开发,数据中台的开发等!

  • 语言:Java 和 Scala(语言以这两种为主,需要重点掌握)

  • Linux(需要对Linux有一定的理解)

  • Hadoop(需理解底层,能看懂源码)

  • Hive(会使用,能进行二次开发)

  • Spark(能进行开发。对源码有了解)

  • Kafka(会使用,理解底层原理)

  • Flink(能进行开发。对源码有了解)

  • HBase(理解底层原理)

MySQL需要学习 sql 语法,范式,事务等。

hadoop -> zookeeper -> hive -> flume && sqoop -> azkaban && oozie -> 数仓建模理论+实践 -> hbase -> redis -> kafka -> elk -> scala -> spark -> kylin -> flink -> 实时数仓项目

学完以上技能后,有时间还需要学习比较流行的 OLAP 查询引擎

Impala 、 Presto、Druid 、 Kudu 、 ClickHouse 、 Doris

如果还有时间,可以学习数据治理相关的内容,如元数据管理,数据湖等

Atlas 、 Hudi

java到大数据学习路线

我作的这幅图把Hadoop放在了核心位置,旁边都是围着它的组件,说明了Hadoop的重要性,需要重点学习,后面的一切都是以Hadoop为基础的。

从图中能看出这些组件的图标大多是动物,而左下角的 zookeeper 的图标是人,为动物园管理者,所以从图标中我们也能猜出zookeeper是用来管理这些大数据框架的。

再来看下 Hive,大象头,蜜蜂的身体,大象是Hadoop,蜜蜂是采蜜的,所以我们猜测Hive作为数据仓库和Hadoop密不可分的,并且收集数据的。

HBase作为数据库,图标是鲸鱼,鲸鱼是世界上最大的动物,代表HBase是存储巨量的数据

Impala是一个OLAP查询分析引擎,图标是一个斑羚羊,斑羚羊的特点就是跑的特别快,所以Impala是查询速度特别快的一个交互式查询分析引擎。

Flink是一个松鼠,松鼠的特点就是快速和灵巧,和Flink的理念相吻合。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/140254.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • eclipse添加logcat显示_eclipse的logcat不见了

    今天打开eclipse调了一会程序,突然发现logcat不见了,只有Console等,找了半天没找到,最后还是苦命的发现了,如下.Window ……Show View……Other…会出现如下对话框:选择LogCat后,eclipse就能正常查看LogCat的输出了。

    2022年3月9日
    41
  • python跳出循环重新开始_python怎么跳出循环

    python跳出循环重新开始_python怎么跳出循环本文主要讲下python中的break语句用法,常用在满足某个条件,需要立刻退出当前循环时(跳出循环),break语句可以用在for循环和while循环语句中。简单的说,break语句是会立即退出循环,在其后边的循环代码不会被执行。break语句的用法>>>x=1>>>whileTrue:>>>x+=1>>>…

    2022年6月3日
    120
  • 安防类基础计算机知识,谁能给我一份安防监控基础知识汇总?

    安防类基础计算机知识,谁能给我一份安防监控基础知识汇总?你好,安防监控基础知识汇总:控制部分是整个系统的“心脏”和“大脑”,是实现整个系统功能的指挥中心。控制部分主要由总控制台(有些系统还设有副控制台)组成。总控制台中主要的功能有:视频信号放大与分配、图像信号的较正与补偿、图像信号的切换、图像信号(或包括声音信号)的记录、摄像机及其辅助部件(如镜头、云台、防护罩等)的控制(遥控)等等。在上述的各部分中,对图像质量影响最大的是放大与与分配、较正与…

    2022年6月28日
    18
  • c++ map有序还是无序_hashmap与map的区别

    c++ map有序还是无序_hashmap与map的区别概述简单对比map和unordered_map的性能。map内部是红黑树,在插入元素时会自动排序,而无序容器unordered_map内部是散列表,通过哈希而不是排序来快速操作元素,使得效率更高。当你不需要排序时选择unordered_map的效率更高。测试范例测试代码#include<iostream>#include<string>#in…

    2022年9月23日
    2
  • php开源桌面会议系统,开源视频会议系统 OpenMeetings「建议收藏」

    php开源桌面会议系统,开源视频会议系统 OpenMeetings「建议收藏」OpenMeetings是一个开源的多语言跨平台可定制视频会议和协作系统,基于ApacheLicense2开源协议。它支持音频、视频,支持共享左面,文件协作处理,它还包含一个白板,通过白板可以导入各种格式的图片。它基于OpenLaszlo的新流媒体格式和开源的Flash服务器Red5(基于Java的开源流媒体服务器)。OpenMeetings视频会议具有如下特点:1、基于P2P技术,服务器压…

    2022年7月12日
    28
  • python激活码在线【2021最新】

    (python激活码在线)本文适用于JetBrains家族所有ide,包括IntelliJidea,phpstorm,webstorm,pycharm,datagrip等。https://javaforall.net/100143.htmlIntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,上面是详细链接哦~M…

    2022年3月21日
    57

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号