sparksql 概述

sparksql 概述

<span>sparksql 概述</span>

 

什么是Spark SQL?

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。

 

<span>sparksql 概述</span>

 

我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!

<span>sparksql 概述</span>

 

Spark SQL的特点

1)易整合

 

<span>sparksql 概述</span>

 

2)统一的数据访问方式

 

<span>sparksql 概述</span>

 

3)兼容Hive

 

<span>sparksql 概述</span>

 

4)标准的数据连接

 

<span>sparksql 概述</span><span>sparksql 概述</span>

 

什么是DataFrame?

与RDD类似,DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格,除了数据以外,还记录数据的结构信息,即schema。

同时,与Hive类似,DataFrame也支持嵌套数据类型(struct、array和map)。从API易用性的角度上看,DataFrame API提供的是一套高层的关系操作,比函数式的RDD API要更加友好,门槛更低。

 

<span>sparksql 概述</span>

 

上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得Spark SQL可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么。

DataFrame是为数据提供了Schema的视图。可以把它当做数据库中的一张表来对待,DataFrame也是懒执行的。性能上比RDD要高,主要原因:

优化的执行计划:查询计划通过Spark catalyst optimiser(Spark的优化器)进行优化。

 

<span>sparksql 概述</span>

 

比如下面一个例子:

 

<span>sparksql 概述</span>

 

 

<span>sparksql 概述</span>

 

为了说明查询优化,我们来看上图展示的人口数据分析的示例。图中构造了两个DataFrame,将它们join之后又做了一次filter操作。如果原封不动地执行这个执行计划,最终的执行效率是不高的。因为join是一个代价较大的操作,也可能会产生一个较大的数据集。如果我们能将filter下推到 join下方,先对DataFrame进行过滤,再join过滤后的较小的结果集,便可以有效缩短执行时间。而Spark SQL的查询优化器正是这样做的。

简而言之,逻辑查询计划优化就是一个利用基于关系代数的等价变换,将高成本的操作替换为低成本操作的过程。

<span>sparksql 概述</span>

 

什么是DataSet?

1)是Dataframe API的一个扩展,是Spark最新的数据抽象。

2)用户友好的API风格,既具有类型安全检查也具有Dataframe的查询优化特性。

3)Dataset支持编解码器,当需要访问非堆上的数据时可以避免反序列化整个对象,提高了效率。

4)样例类被用来在Dataset中定义数据的结构信息,样例类中每个属性的名称直接映射到DataSet中的字段名称。

5)Dataframe是Dataset的特列,DataFrame=Dataset[Row] ,所以可以通过as方法将Dataframe转换为Dataset。Row是一个类型,跟Car、Person这些的类型一样,所有的表结构信息我都用Row来表示。

6)DataSet是强类型的。比如可以有Dataset[Car],Dataset[Person]

7)DataFrame只是知道字段,但是不知道字段的类型,所以在执行这些操作的时候是没办法在编译的时候检查是否类型失败的,比如你可以对一个String进行减法操作,在执行的时候才报错,而DataSet不仅仅知道字段,而且知道字段类型,所以有更严格的错误检查。就跟JSON对象和类对象之间的类比。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/119647.html原文链接:https://javaforall.net

(0)
上一篇 2021年11月27日 下午5:00
下一篇 2021年11月27日 下午6:00


相关推荐

  • unknowndevice修复_eclipse unable to launch

    unknowndevice修复_eclipse unable to launch相信做Android开发的,都会遇到这个问题,在这里,仅仅给自己解决问题的方式,供大家参考看一下图片,图片是从别的网站上摘的解决方案:1.重启手机;(我的解决方法,是在StackOverflow看到的 http://stackoverflow.com/questions/10731375/eclipse-target-unknown-in-android-device-

    2022年10月4日
    4
  • 【建议收藏】工作流vs智能体:程序员必知的AI技术选择指南

    【建议收藏】工作流vs智能体:程序员必知的AI技术选择指南

    2026年3月13日
    2
  • 可重入锁和不可重入锁的区别

    可重入锁和不可重入锁的区别不可重入锁示例(同一个线程不可以重入上锁后的代码段)如下是一个不可重入锁的逻辑过程,会发现执行main方法控制台会打印执行doJob方法前,然后就会一直线程阻塞,不会打印执行doJob方法过程中,原因在于第一次上锁后,由于没有释放锁,因此执行第一次lock后isLocked=true,这个时候调用doJob()内部又一次调用了lock()由于上个线程将isLocked=true,导致再次进入的时候就进入死循环。导致线程无法执行System.out.println(“执行doJob方法过程中”);这

    2022年6月26日
    37
  • fseek函数用法_fwrite函数的用法

    fseek函数用法_fwrite函数的用法转载请注明出处:https://blog.csdn.net/wl_soft50/article/details/7787521每天进步一点点–>函数fseek()用法在阅读代码时,遇到了很早之前用过的fseek(),很久没有用了,有点陌生,写出来以便下次查阅。函数功能是把文件指针指向文件的开头,需要包含头文件stdio.hfseek函数名:fseek功能:重定位流上的文件…

    2025年8月25日
    7
  • 小米6显示服务器出错,小米6解锁BL显示未连接手机解决办法以及各种小技巧汇总……

    小米6显示服务器出错,小米6解锁BL显示未连接手机解决办法以及各种小技巧汇总……本帖最后由为夫人而生于2017-6-2422:56编辑持续更新小米6未连接手机解决办法3:手机设置→关于手机→miui版本(一直点五次)→返回→更多设置→开发者选项→USB调试打开→手机绑定啥的解锁啥的都打开4:关机长按音量下加开机键出现兔子连接手机5:两种情况若显示连接直接解锁end;;;;;;;;;若显示没连接手机敲黑板重点来了右…

    2022年6月11日
    229
  • HDU 5651 xiaoxin juju needs help 数学

    HDU 5651 xiaoxin juju needs help 数学

    2021年9月13日
    46

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号