大数据spark、hadoop、hive、hbase面试题及解析[通俗易懂]

大数据spark、hadoop、hive、hbase面试题及解析[通俗易懂](1)spark运行流程、源码架构(2)Hbase主键设计、hbase为何这么快?主键设计:1.生成随机数、hash、散列值2.字符串反转3.字符串拼接hbase为何快:https://blog.csdn.net/sghuu/article/details/102955969(3)Hbase读写流程,数据compact流程hbase读写流程:https://blog.csdn.n…

大家好,又见面了,我是你们的朋友全栈君。

整理的答案 后面继续更新:

(1)spark运行流程、源码架构
https://blog.csdn.net/sghuu/article/details/103547937

(2)Hbase主键设计、hbase为何这么快?
主键设计:
1.生成随机数、hash、散列值
2.字符串反转
3.字符串拼接
hbase为何快:https://blog.csdn.net/sghuu/article/details/102955969

(3)Hbase读写流程,数据compact流程
hbase读写流程:
https://blog.csdn.net/sghuu/article/details/102708098
数据compact流程;
https://blog.csdn.net/sghuu/article/details/102956773

(4)Hadoop mapreduce流程
https://blog.csdn.net/sghuu/article/details/98985583

(5)Spark standalone模型、yarn架构模型(画出来架构图)

https://blog.csdn.net/sghuu/article/details/103547937

(6)Spark算子(map、flatmap、reducebykey和reduce、groupbykey和reducebykey、join、distinct)原理

(7)Spark stage的切分、task资源分配、任务调度、master计算资源分配
spark的stage的切分是根据宽依赖划分,最起码有一个ResultStage,从后往前每遇见一个宽依赖则会切分出一个ShuffleMapStage。
task的时stage的子集,根据并行度(分区数)来衡量,分区数是多少就有多少个task
spark的任务调度分为stage级别的调度和Task级别的调度

详细介绍切分流程和任务调度:

(8)Sparksql自定义函数、怎么创建dateframe

(9)Sparkstreaming项目多久一个批次数据

(10)Kafka复制机制、分区多副本机制
https://blog.csdn.net/tryll/article/details/86627696

(11)Hdfs读写流程,数据checkpoint流程
读流程:
https://blog.csdn.net/sghuu/article/details/98127600
写数据流程:
https://blog.csdn.net/sghuu/article/details/98122393
checkpoint流程:
https://blog.csdn.net/sghuu/article/details/98196539

(12)Sparkshuffle和hadoopshuffle原理、对比

(13)Hivesql怎么转化为MapReduce任务
在这里插入图片描述

(14)Spark调优
spark的四个方面调优

(15)Spark数据倾斜解决方案
spark数据倾斜的6种解决
https://blog.csdn.net/sghuu/article/details/103710145

(16)Yarn工作流程、组成架构

https://blog.csdn.net/sghuu/article/details/102959135

(17)Zookeeper首领选取、节点类型、zookeeper实现原理

(18)hbase的ha,zookeeper在其中的作用

(19)spark的内存管理机制,spark1.6前后对比分析

(21)spark rdd、dataframe、dataset区别

(22)spark里面有哪些参数可以设置,有什么用

(23)hashpartitioner与rangePartitioner的实现

(24)spark有哪几种join

(25)spark jdbc(mysql)读取并发度优化

(26)Spark join算子可以用什么替代

(27)HBase region切分后数据是怎么分的

(28)项目集群结构(spark和hadoop集群)

(29)spark streaming是怎么跟kafka交互的,具体代码怎么写的,程序执行流程是怎样的,这个过程中怎么确保数据不丢(直连和receiver方式)

(30)kafka如何保证高吞吐的,kafka零拷贝,具体怎么做的

(31)hdfs的容错机制

(32)zookeeper怎么保证原子性,怎么实现分布式锁

(33)kafka存储模型与网络模型

(34)Zookeeper脑裂问题

Scala

(1)隐式转换

(2)柯理化

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/138440.html原文链接:https://javaforall.net

(0)
上一篇 2022年5月31日 下午1:00
下一篇 2022年5月31日 下午1:16


相关推荐

  • 手机软件测试的简单认识方法_什么都不会去做软件测试

    手机软件测试的简单认识方法_什么都不会去做软件测试接触手机软件测试也有三四个月了,讲讲自己目前的想法。仅仅是一点小认识,很多还不够成熟,不够全面,欢迎各位指正交流。废话不多说了,请戳下刚开始当然就是根据已有的测试用例来执行,接触较好后就觉得

    2025年9月19日
    6
  • Log4j2 Demos(基础/时间&大小回滚/定期删除/日志脱敏)「建议收藏」

    Log4j2 Demos(基础/时间&大小回滚/定期删除/日志脱敏)「建议收藏」前言本章主要介绍Log4j2的几个例子与使用场景。Log4j2DemosLog4j2Demos(普通设置)<?xmlversion="1.0"encoding="UTF-8"?><Configurationstatus="debug&quo

    2022年5月7日
    60
  • 奇特的js语法

    奇特的js语法我想 大多数的学习后台语言后再学习 js 的语法时 都会像我一样 对某些语法有所困惑 因为 js 的语法相对 c 和 java 来说 不太严谨了 为了灵活却缺失了严谨 我觉得这样做不太好 造成各人写的代码风格都不一样 让人理解的难度加大了 好了 下面就来盘点那些奇特的 js 语法 1 它每一条语句可以不用分号分隔 不写也不会报错 2 单引号和双引号都代表字符类型 2 js 对数据类型的判断方法繁多且有缺陷

    2026年3月26日
    1
  • 分布式事务TCC方案Hmily——springcloud + feign + mybatis

    分布式事务TCC方案Hmily——springcloud + feign + mybatisTCC理论:分布式事务基础理论——TCCHmily介绍:分布式事务TCC方案——Hmily金融级柔性分布式事务解决方案介绍本文demo代码:GitHub依赖<dependency><groupId>org.dromara</groupId><artifactId>hmily-springcloud</artifactId><vers

    2022年5月13日
    74
  • html如何引入css文件?HTML引入外部css文件的四种方法

    html如何引入css文件?HTML引入外部css文件的四种方法在学习前端的时候 我们应该知道 css 给 html 标记添加各种样式 用来告诉浏览器 因该如何显示这些标记里面的内容 既然 css 是用来给 html 添加各种样式的 那么 html 中如何引入外部的 css 文呢 本篇文章将给大家来介绍关于 html 引入 css 文件的四种方法 下面我们就来看看具体的内容 1 html 引入 css 文件之直接在 div 中使用 css 样式制作 div css 网页 divstyle border 1pxredsolid html 引入 css 文件说明 htm divstyle border 1pxredsolid

    2026年3月17日
    2
  • linux之epoll

    1.epoll简介epoll 是Linux内核中的一种可扩展IO事件处理机制,最早在Linux2.5.44内核中引入,可被用于代替POSIXselect和poll系统调用,并

    2021年12月28日
    42

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号