通过案例对SparkStreaming 透彻理解三板斧之二:解密SparkStreaming运行机制

通过案例对SparkStreaming 透彻理解三板斧之二:解密SparkStreaming运行机制

一:spark各个子框架的关系:

 上节课我们采用了降维的方式查看了整个spark streaming的大概运行的过程,再次强调,spark streaming 其实是构建在spark core之上的一个应用程序,如果要构建一个强大的spark应用程序 ,spark streaming 是一个值得借鉴的参考,spark streaming涉及多个job交叉配合,里面涉及到了spark的所有的核心组件,如果对spark streaming 精通了的话,可以说就精通了整个spark,所以精通掌握spark streaming是至关重要的

spark 的各个子框架都是基于spark core的。spark streaming在内部的处理机制是接受实时流的数据,并根据一定的时间间隔分成一批一批的数据,然后通过spark engine处理这些批数据,最后得到处理后的一批一批的数据。

对应的批数据,在spark内核对应RDD,在spark streaming中对应DStream ,一个DStream相当于RDD的模板,对应一组RDD(RDD的一个序列)

通俗点理解的话,在数据分成一批一批后,通过一个队列,然后spark引擎从该队列中依次一个一个的取出批数据,把批数据封装成一个DStream,因为DStream是RDD的模板,是RDD的一个逻辑级别的抽象,所以实质上是把数据封装成为物理级别的RDD.

二:Spark Streaming基础概念理解:

为了更好的理解spark streaming,我们先简单的对相关概念理解一下

1 离散流:(Discretized Stream ,DStream):这是spark streaming对内部的持续的实时数据流的抽象描述,也即我们处理的一个实时数据流,在spark streaming中对应一个DStream

2 批数据:将实时流时间以时间为单位进行分批,将数据处理转化为时间片数据的批处理

3 时间片或者批处理时间间隔:逻辑级别的对数据进行定量的标准,以时间片作为拆分流数据的依据。

4 窗口长度:一个窗口覆盖的流数据的时间长度。比如说要每隔5分钟统计过去30分钟的数据,窗口长度为6,因为30分钟是batch interval 的6倍

5 滑动时间间隔:比如说要每隔5分钟统计过去30分钟的数据,窗口时间间隔为5分钟

6 input DStream :一个inputDStream是一个特殊的DStream 将spark streaming连接到一个外部数据源来读取数据。

7 Receiver :长时间(可能7*24小时)运行在Excutor之上,每个Receiver负责一个inuptDStream (比如读取一个kafka消息的输入流)。每个Receiver,加上inputDStream 会占用一个core/slot

重点来了!!!我们用时空维度和空间维度分别对DStream 和RDD来更加深入并且另类的理解spark streaming,以及二者之间的关系。

DStream 对应时空维度,空间加上时间(从目前来看,spark streaming的精妙之一是用时间来解耦合,是目前所见最好的解耦合的方式),RDD对应空间维度,整个sparkStreaming是时空维度。

100756_ipwX_1253652.png

纵轴为空间维度:代表的是RDD的依赖关系构成的具体的处理逻辑的步骤,是用DStream来表示的。

横轴为时间维度:按照特定的时间间隔不断地生成job对象,并在集群上运行。

随着时间的推移,基于DStream Graph 不断生成RDD Graph ,也即DAG的方式生成job,并通过Job Scheduler的线程池的方式提交给spark cluster不断的执行。(sparkStreaming只关注时间维度不关注空间维度)

由上可知,RDD    与  DStream的关系如下:

1.RDD是物理级别的,而 DStream 是逻辑级别的

2.DStream是RDD的封装类,是RDD进一步的抽象

3.DStream 是RDD的模板。DStream要依赖RDD进行具体的数据计算

(注意:纵轴维度需要RDD,DAG的生成模板,需要TimeLine的job控制器

横轴维度(时间维度)包含batch interval,窗口长度,窗口滑动时间等。)

4.inputStream和outputStream分别代表数据的输入和输出

5.具体的job运行在spark cluster之上,此时系统的容错就非常重要,而spark streaimg的容错非常巧妙,它巧妙的借用了spark core rdd的容错而容错。(RDD可以指定StorageLevel来实现存放多个副本用来做容错)

6.事务处理:数据一定会被处理,并且只会对数据处理一次,这个特性对于那些诸如计费系统的实现非常重要

转载于:https://my.oschina.net/u/1253652/blog/668698

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/109043.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Redis的相关问题总结

    Redis的相关问题总结

    2021年11月7日
    42
  • vue3.0中关闭eslint(全部不检测)[通俗易懂]

    vue3.0中关闭eslint(全部不检测)[通俗易懂]前言:在项目中eslint检查是一个很棒的工具,但是在非正式场合,或者某些情况下,他会给我们带来很多不方便,这里分享下如何在新建项目后把他的eslint检查先关掉(正式项目不推荐关闭,因为良好的习惯是从每一行代码的规范开始)方法:打开我们的.eslintrc.js文件,把’@vue/standard’注释,然后把服务重启,重启,重启,重要的事情说三遍.eslintrc.jsmodule.exports={root:true,…

    2022年6月7日
    98
  • 精美的液晶数字字体素材[通俗易懂]

    精美的液晶数字字体素材[通俗易懂]液晶数字应该比较常见,那么液晶数字字体的应用也是相对广泛了,可以运用于一切需要液晶显示屏上的数字字体显示。对于这样一种有着广泛的应用数字字体,选择使用哪款液晶数字字体也是一个很重要的问题啦!为此,特意为大家收集了几款液晶数字字体供大家选择,喜欢的朋友赶紧收藏起来吧!  DS-Digital字体是一款比较常规的液晶数字字体,这款字体的仅支持数字和大写字母输入,字体端正,结构完整,整体视觉呈现效果…

    2025年7月27日
    4
  • Mybatis的多表关联查询(多对多)「建议收藏」

    Mybatis的多表关联查询(多对多)「建议收藏」Mybatis的多表关联查询(多对多)项目目录结构实现Role到User多对多业务要求用户与角色的关系模型编写角色实体类编写Role持久层接口实现的SQL语句编写映射文件测试代码实现User到Role的多对多业务要求编写用户实体类编写User持久层接口实现的SQL语句编写映射文件测试代码mybatis中的多表查询: 示例:用户和角色 一个用户可以有多个角色 一个角色可以赋予多个用户 步骤: 1、建立两张表:用户表,角色表 让用户表和角色表具有多对多的关

    2022年5月1日
    52
  • awk详解「建议收藏」

    awk详解「建议收藏」awk是linux中处理文本的强大工具,或者说是一种专门处理字符串的语言,它有自己的编码格式。awk的强大之处还在于能生成强大的格式化报告。awk的命令格式如下:其中常用选项有-F、-f等选项,后面会介绍。例如>awk-F:'{print$1}’file表示把file文件中每行数据以“:”分割后,打印出第一个字段。下面详细介绍使用方式。以下示例如不做…

    2022年7月11日
    14
  • mqttnet 详解_MQTTnet 3.0.5学习笔记

    mqttnet 详解_MQTTnet 3.0.5学习笔记段时间在使用MQTTnet,都说这个东西比较好,可是翻了翻网上没有例子给参考一下。今天算是找到了,给高手的帖子做个宣传吧.由于GitHub上介绍的东西比较少,以我的水平真是不知道怎么用,先照葫芦画瓢,再看看怎么回事吧:功能:把订阅与发布做成一个类,还带有自动重连的功能usingSystem.Threading;usingSystem.Threading.Tasks;usingMQTTnet;usi…

    2022年6月25日
    60

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号