Spark和Hadoop的区别和比较[通俗易懂]

Spark和Hadoop的区别和比较[通俗易懂]目录一、两者的各方面比较二、Spark相对Hadoop的优越性三、三大分布式计算系统Spark,是分布式计算平台,是一个用scala语言编写的计算框架,基于内存的快速、通用、可扩展的大数据分析引擎Hadoop,是分布式管理、存储、计算的生态系统;包括HDFS(存储)、MapReduce(计算)、Yarn(资源调度)一、实现原理的比较Hadoop和Spark都是并…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

目录

一、 两者的各方面比较

二、Spark相对Hadoop的优越性

三、三大分布式计算系统


Spark,是分布式计算平台,是一个用scala语言编写的计算框架,基于内存的快速、通用、可扩展的大数据分析引擎

Hadoop,是分布式管理、存储、计算的生态系统;包括HDFS(存储)、MapReduce(计算)、Yarn(资源调度)

 

一、实现原理的比较

Hadoop和Spark都是并行计算,两者都是用MR模型进行计算

Hadoop一个作业称为一个Job,Job里面分为Map Task和Reduce Task阶段,每个Task都在自己的进程中运行,当Task结束时,进程也会随之结束;

Spark用户提交的任务称为application,一个application对应一个SparkContext,app中存在多个job,每触发一次action操作就会产生一个job。这些job可以并行或串行执行,每个job中有多个stage,stage是shuffle过程中DAGScheduler通过RDD之间的依赖关系划分job而来的,每个stage里面有多个task,组成taskset,由TaskScheduler分发到各个executor中执行;executor的生命周期是和app一样的,即使没有job运行也是存在的,所以task可以快速启动读取内存进行计算。

ps:一个Application -> 多个job ->一个job多个stage -> 一个stage多个task

 

二、 两者的各方面比较

(1)Spark对标于Hadoop中的计算模块MR,但是速度和效率比MR要快得多;

(2)Spark没有提供文件管理系统,所以,它必须和其他的分布式文件系统进行集成才能运作,它只是一个计算分析框架,专门用来对分布式存储的数据进行计算处理,它本身并不能存储数据;

(3)Spark可以使用Hadoop的HDFS或者其他云数据平台进行数据存储,但是一般使用HDFS;

(4)Spark可以使用基于HDFS的HBase数据库,也可以使用HDFS的数据文件,还可以通过jdbc连接使用Mysql数据库数据;Spark可以对数据库数据进行修改删除,而HDFS只能对数据进行追加和全表删除;

(5)Spark数据处理速度秒杀Hadoop中MR;

(6)Spark处理数据的设计模式与MR不一样,Hadoop是从HDFS读取数据,通过MR将中间结果写入HDFS;然后再重新从HDFS读取数据进行MR,再刷写到HDFS,这个过程涉及多次落盘操作,多次磁盘IO,效率并不高;而Spark的设计模式是读取集群中的数据后,在内存中存储和运算,直到全部运算完毕后,再存储到集群中;

(7)Spark是由于Hadoop中MR效率低下而产生的高效率快速计算引擎,批处理速度比MR快近10倍,内存中的数据分析速度比Hadoop快近100倍(源自官网描述);

(8)Spark中RDD一般存放在内存中,如果内存不够存放数据,会同时使用磁盘存储数据;通过RDD之间的血缘连接、数据存入内存中切断血缘关系等机制,可以实现灾难恢复,当数据丢失时可以恢复数据;这一点与Hadoop类似,Hadoop基于磁盘读写,天生数据具备可恢复性;

(9)Spark引进了内存集群计算的概念,可在内存集群计算中将数据集缓存在内存中,以缩短访问延迟,对7的补充;

(10)Spark中通过DAG图可以实现良好的容错。

 

三、Spark相对Hadoop的优越性

(1)Spark基于RDD,数据并不存放在RDD中,只是通过RDD进行转换,通过装饰者设计模式,数据之间形成血缘关系和类型转换;

(2)Spark用scala语言编写,相比java语言编写的Hadoop程序更加简洁;

(3)相比Hadoop中对于数据计算只提供了Map和Reduce两个操作,Spark提供了丰富的算子,可以通过RDD转换算子和RDD行动算子,实现很多复杂算法操作,这些在复杂的算法在Hadoop中需要自己编写,而在Spark中直接通过scala语言封装好了,直接用就ok;

(4)Hadoop中对于数据的计算,一个Job只有一个Map和Reduce阶段,对于复杂的计算,需要使用多次MR,这样涉及到落盘和磁盘IO,效率不高;而在Spark中,一个Job可以包含多个RDD的转换算子,在调度时可以生成多个Stage,实现更复杂的功能;

(5)Hadoop中中间结果存放在HDFS中,每次MR都需要刷写-调用,而Spark中间结果存放优先存放在内存中,内存不够再存放在磁盘中,不放入HDFS,避免了大量的IO和刷写读取操作;

(6)Hadoop适合处理静态数据,对于迭代式流式数据的处理能力差;Spark通过在内存中缓存处理的数据,提高了处理流式数据和迭代式数据的性能;

 

四、三大分布式计算系统

Hadoop适合处理离线的静态的大数据;

Spark适合处理离线的流式的大数据;

Storm/Flink适合处理在线的实时的大数据。

 

 

 

 

 

 

 

 

 

 

 

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/219276.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • c语言贪吃蛇(简易版本含完整代码)

    c语言贪吃蛇(简易版本含完整代码)这个贪吃蛇是在我学完C语言的基本部分在跟着哈工大的c语言程序设计Mooc课程完了之后做的因为学完C语言很迷茫不晓得应该学什么学校里面的题库感觉刷起来又没有实际我能看到的东西我认为在阶段性的学习过程中应该找到自己能够看得到的成果才能刺激自己继续往前进继续学习不然很枯燥的学习谁都坚持不下去这也是在看了视频教程后自己一步步敲出来的其实还是建议大家在看懂了代码后自己实现因为不要怕自己忘不忘这又不是理论知识敲出来的代码就是自己的一步步的提升加油qwq这里是head.h头文件因为

    2022年6月28日
    28
  • 岭回归算法_tikhonov正则化与岭回归

    岭回归算法_tikhonov正则化与岭回归岭回归算法简介回归算法的本质上就是为了解决一个线性方程:Ax=b标准估计方法是普通的最小二法的线性回归,然而如果x是一个病态的矩阵,在这种情况下使用普通最小二法估计会导致过拟合或者欠拟合的情况。此外,岭回归还可以处理矩阵阵列的多重共线性问题。通常最小二乘法寻求的是最小花平方残差的综合,公式:在岭回归中,在这种最小化中加入正则化项:其中Г是Tikhonovmatrix矩阵,在许…

    2022年8月21日
    9
  • 属性动画与图片三级缓存

    属性动画与图片三级缓存属性动画动画 UI 渐变 变量值的变化 ObjectAnimat ofInt backgroundCo start end ValueAnimato for inti start iend i a i ValueAnimato ValueAnimato ofInt start end animation setD

    2025年9月8日
    4
  • BP神经网络预测模型(神经网络算法模型)

    学习率一般在(0,0.1)区间上取值.隐含层节点数量(√为开根号):①m=(√(i+j))+α②m=log2(i)③m=√(i*j)m:隐含层节点i:输入层节点数j:输出层节点数α:1-10之间的常数

    2022年4月11日
    59
  • c语言韦达定理求方程解,高一上韦达定理,高次,多元方程解法.doc

    c语言韦达定理求方程解,高一上韦达定理,高次,多元方程解法.doc实用文档PAGE文案大全一元二次方程根与系数关系(韦达定理),多元方程解法,高次方程解法一元二次方程根与系数的关系现行初中数学教材主要要求学生掌握一元二次方程的概念、解法及应用,而一元二次方程的根的判断式及根与系数的关系,在高中教材中的二次函数、不等式及解析几何等章节有着许多应用.本节将对一元二次方程根的判别式、根与系数的关系进行阐述.一)、一元二次方程的根的判断式一元二次方程,用配方法将其变形为…

    2025年7月24日
    3
  • 打开名为window2_connection string

    打开名为window2_connection stringDotNetTextBox是一个很不错的在线编辑工具,我一直在用它。最近使用中发现它和window的history对象有冲突,原因就是它定义了一个全局的名为history的对象,覆盖默认的window.history。所以当你想在页面中调用“后退”功能(window.history.go(-1))时会产生脚本错误,找不到对象或方法。解决方法:在history对象变量前定义一全局变量…

    2022年8月30日
    7

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号