大数据——数据流式处理「建议收藏」

大数据——数据流式处理「建议收藏」一、概念大数据中包含两种处理方式:流处理和批处理。流处理:即流式处理。流式处理假设数据的潜在价值是数据的新鲜度,需要尽快处理得到结果。在这种方式下,数据以流的方式到达。在数据连续到达的过程中,由于流携带了大量数据,只有小部分的流数据被保存在有限的内存中。流处理方式用于在线应用,通常工作在秒或毫秒级别。 批处理:批处理方式中,数据首先被存储,然后再分析。MapReduce是非常重要的…

大家好,又见面了,我是你们的朋友全栈君。

一、概念

   大数据中包含两种处理方式:流处理和批处理。

  • 流处理:即流式处理。流式处理假设数据的潜在价值是数据的新鲜度,需要尽快处理得到结果。在这种方式下,数据以流的方式到达。在数据连续到达的过程中,由于流携带了大量数据,只有小部分的流数据被保存在有限的内存中。流处理方式用于在线应用,通常工作在秒或毫秒级别。
  • 批处理:批处理方式中,数据首先被存储,然后再分析。MapReduce是非常重要的批处理模型。MapReduce的核心思想是,数据首先被分为若干小数据块chunks,随后这些数据块被并行处理并以分布的方式产生中间结果,最后这些中间结果被合并产生最终结果。

二、主流组件

    目前主流的流处理组件包括:Strom、Spark Streaming、KafKa、Flume、Flink、S3等,接下来将对上述组件做简要介绍。

  •     Flume:一个可以收集例如日志、事件等数据资源,并将这些庞大数据从各项数据资源中集中存储的工具/服务。其设计的原理也是基于将数据流,如日志数据从各种网站服务器上汇集起来存储到HDFS,HBase等集中存储器中。其结构图如下:

                                              大数据——数据流式处理「建议收藏」

     Flume优势

       1)Flume可以将源数据存储到任何集中存储器中,如:HDFS、HBase;

      2)数据收集速度超过写入速度时,提供平衡机制;

      3)提供上下文路由特征;

      4)Flume管道基于事务,保证数据传送和接受的一致性;

      5)Flume是可靠,高容错性的,提供定制。·

   Flume结构

                                              大数据——数据流式处理「建议收藏」

   如图所示,数据发生器产生的数据被单个运行在数据发生器所在服务器上的agent所通过事件event的方式被收集,之后数据收容器从各个agent上汇聚数据存入HDFS或HBase。

    Flume事件

    事件是Flume内部数据传输的最基本单元,由一个转载数据的字节数组(该数据组是从数据源接入点传入,并传输给传输器,也就是HDFS/HBase)和一个可选头部构成。其结构如下图所示:

                                                   大数据——数据流式处理「建议收藏」

    Flume Agent

     Flume内部有一个或者多个Agent,每一个Agent就是一共独立的守护进程(JVM),它从客户端或其他Agent接收数据,然后迅速将获取的数据传给下一个目的节点sink或者agent。其结构如下图所示,主要由source、channel、sink三部分组成。

                                                        大数据——数据流式处理「建议收藏」

     Source:

     从数据发生器接收数据,并将接收的数据以Flume的event格式传递给一个或者多个通道channal,Flume提供多种数据接收的方式,比如Avro,Thrift等;

     Channel:

     channal是一种短暂的存储容器,它将从source处接收到的event格式的数据缓存起来,直到它们被sinks消费掉,它在source和sink间起着一共桥梁的作用,channal是一个完整的事务,这一点保证了数据在收发的时候的一致性。并且它可以和任意数量的source和sink链接,支持的类型有: JDBC channel ,File System channel, Memort channel等;

     Sink:

     sink将数据存储到集中存储器比如Hbase、HDFS,它从channals消费数据(events)并将其传递给目标地,目标地可能是另一个sink,也可能HDFS,HBase。

                                         大数据——数据流式处理「建议收藏」                   

                                             

         大数据——数据流式处理「建议收藏」

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/142572.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • C语言中的sizeof()和strlen()的区别[通俗易懂]

    C语言中的sizeof()和strlen()的区别sizeof()和strlen()经常会被初学者混淆,但其中有有很大区别:1.sizeof()【操作数所占空间的字节数大小】是一种c中的基本运算符。可以以类型、指针、数组和函数等作为参数。头文件类型为unsignedint。运算值在编译的时候就出结果,所以可以用来定义数组维数。chara[5]=”123″;intb=sizeof(a);//b=5intc=strlen(a);//c=3sizeof()是一种单目操作符,是用来计算你

    2022年4月8日
    29
  • 计算机网络各协议总结_计算机网络实验总结

    计算机网络各协议总结_计算机网络实验总结计算机网络协议全面总结一、OSI七层协议物理层:很久很久以前,那时候还没有现在的外星人超级电脑,或者华为的P30。比较调皮的小明想要把自己机器上写好的一些个人游戏心得(如何玩好王者农药)发给小红(校花),希望博得芳心。小明个人比较勤,游戏总结心得总结的比较详细(大概有100M)。但是到底怎么才能从自己的机器上传给小红的机器呢,进过一番打听,他发现远在太平洋另一端的科学家已经发明了一种技术物…

    2022年10月3日
    0
  • 变量,常量,静态变量存储的位置

    变量,常量,静态变量存储的位置常见的存储区域可分为:1、栈由编译器在需要的时候分配,在不需要的时候自动清楚的变量的存储区。里面的变量通常是局部变量、函数参数等。2、堆由new分配的内存块,他们的释放编译器不去管,由我们的应用程序去控制,一般一个new就要对应一个delete。如果程序员没有释放掉,程序会一直占用内存,导致内存泄漏,在程序结束后,操作系统会自动回收。3、自由存储区由malloc等分配的内存

    2022年6月11日
    41
  • Linux下如何解压rar文件「建议收藏」

    Linux下如何解压rar文件「建议收藏」在windows下我们压缩解压文件通常后缀为rar,在linux下我们压缩解压文件通常后缀为tar默认在linux下我们不能解压压缩rar文件,那我们如何使用呢?我们可以下载rarlinux安装包

    2022年6月30日
    19
  • 最大子序列的和_子序列和最大值

    最大子序列的和_子序列和最大值53. 最大子序和

    2022年4月20日
    49
  • Java如何创建文件?java创建文件流程图文详解!「建议收藏」

    Java如何创建文件?java创建文件流程图文详解!「建议收藏」用Java创建文件是非常容易的。以前我们创建文件等等行为完全通过提示来进行的,学习了java后,我们便可利用java通过命令来创建文件。1、打开您的IDE工具,并创建一个文件。2、接下来,您需要对您之前创建的文件创建一个main方法,我这里创建的文件为File_createNewFile,入下图所示:3、接下来,您需要newFile,并给它传入一个我们要创建的文件名。我们这里创建的是test.txt。4、如果您没有导包,那么就会出错,您需要导包,导入的包入下图所示。5、

    2022年6月18日
    24

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号