spark与hadoop的关联和区别,以及spark为什么那么快

spark与hadoop的关联和区别,以及spark为什么那么快spark与hadoop的关联和区别,以及spark为什么那么快

大家好,又见面了,我是你们的朋友全栈君。

spark为什么快?

Spark SQL比Hadoop Hive快,是有一定条件的,而且不是Spark SQL的引擎比Hive的引擎快,相反,Hive的HQL引擎还比Spark SQL的引擎更快。

其实,关键还是在于Spark 本身快。

1,Spark是基于内存的计算,而Hadoop是基于磁盘的计算;Spark是一种内存计算技术。所谓的内存计算技术也就是缓存技术,把数据放到缓存中,减少cpu磁盘消耗。Spark和Hadoop的根本差异是多个任务之间的数据通信问题:Spark多个任务之间数据通信是基于内存,而Hadoop是基于磁盘。Hadoop每次shuffle操作后,必须写到磁盘,而Spark在shuffle后不一定落盘,可以cache到内存中,以便迭代时使用。如果操作复杂,很多的shufle操作,那么Hadoop的读写IO时间会大大增加。多个任务之间的操作也就是shuffle过程,因为要把不同task的相同信息集合到一起,这样内存的速度要明显大于磁盘了。

2、JVM的优化

Hadoop每次MapReduce操作,启动一个Task便会启动一次JVM,基于进程的操作。而Spark每次MapReduce操作是基于线程的,只在启动Executor是启动一次JVM,内存的Task操作是在线程复用的。

 

每次启动JVM的时间可能就需要几秒甚至十几秒,那么当Task多了,这个时间Hadoop不知道比Spark慢了多少。

 

考虑一种极端查询:Select month_id,sum(sales) from T group by month_id;

这个查询只有一次shuffle操作,此时,也许Hive HQL的运行时间也许比Spark还快。

 

结论:Spark快不是绝对的,但是绝大多数,Spark都比Hadoop计算要快。这主要得益于其对mapreduce操作的优化以及对JVM使用的优化。Spark比Hadoop的MR程序性能要高,正常在三到四倍左右,而并不是官网所说的高几百倍。

hadoop与spark的联系:

hadoop重在文件的存储,其核心也就是hdfs,分布式文件存储系统,其侧重点不在处理。而spark则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。

当然spark也不一定要依附于hadoop的文件系统,其他也是可以的。

在容错性方面,spark的处理要比hadoop强很多,spark提供了RDD,血缘关系图,DAG图,stage划分,在某一部分文件丢失时,可以根据从操作记录向前向后找回文件。而hadoop的某一文件出错就要从头再来了。

处理方法,spark提供了transformation和action这两大类的多个功能api,sparkStreaming流式算法,而hadoop的只有mapreducs。

最后hadoop比较稳定适合长期适合长期后台运行。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/106046.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 如何激活成功教程汽车–CAN协议

    如何激活成功教程汽车–CAN协议如何激活成功教程汽车–CAN协议1介绍2激活成功教程流程(以转速表为例)引自[2]一辆车就是一个网络连接到网络工具硬件软件CANbus激活成功教程CAN协议设置识别重播模糊测试可能的问题参考1介绍汽车后装的辅助驾驶设备,一般需要知道汽车的CAN协议,各汽车厂家的CAN协议又是保密的,这时就需要激活成功教程,因为CAN协议是明文,所以激活成功教程也就轻松些。2激活成功教程流程(以转速表为例)引自[2]一辆车就是一个网络一辆汽车由多台计算机组成,以控制发动机、变速器、窗户、锁、灯等。这些计算机被称为电子控制单元(ECU),它们通过网

    2022年6月28日
    58
  • springboot idea创建_idea创建java

    springboot idea创建_idea创建java如何在idea中创建一个SpringBoot项目(超详细教学)

    2022年10月9日
    1
  • JS–比想象中简单

    JS–比想象中简单JS–比想象中简单

    2022年4月24日
    54
  • 离散均匀分布的期望和方差(均值和方差的性质)

    总结一下概统用到的各种分布,以及其期望和方差。

    2022年4月12日
    379
  • 腾讯早期投资人_腾讯大涨

    腾讯早期投资人_腾讯大涨腾讯“炒基”帝国崛起?作者l大钊排版l勤燐电影《华尔街》里有句经典台词叫,“资本永不眠”。那资本如何不眠呢,无非就是“以钱生钱”,经济基础决定上层建筑,靠庞大的金融帝国撑起更大的商业梦想。近日,深圳证监局发布关于核准腾安基金销售(深圳)有限公司证券投资基金销售业务资格的批复。而腾讯集团相关负责人在接受《国际金融报》记者采访时表示,腾安基金销售(深圳)有限公司是腾讯全资控股的独立基金销售机构,以腾讯理财通平台为基础,开展基金销售业务。拿下第三方基金销售牌照后,腾讯在金融领域就已完成了第三

    2022年9月23日
    3
  • nslookup命令解析域名_nslookup是什么意思

    nslookup命令解析域名_nslookup是什么意思1、作用:查询DNS的记录,查看域名解析是否正常,在网络故障的时候用来诊断网络问题。2、命令解析命令格式:nslookupdomain[dns-server]示例:nslookupwww.163.com第一部分服务器:本机DNS服务器信息。192.168.3.1是我当前计算机的DNS服务器,由于是内网服务器名称无法获取第二部分非权威应答:Non-authoritativeanswer,除非实际存储DNSServer中获得域名解析回答的,都称为非权威应答。也就.

    2022年10月19日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号