Flume和Kafka的区别与联系「建议收藏」

Flume和Kafka的区别与联系「建议收藏」目录区别点一:区别点二:同样是流式数据采集框架,flume一般用于日志采集,可以定制很多数据源,减少开发量,基本架构是一个flume进程agent(source、拦截器、选择器、channel<MemoryChannel、FileChannel>、sink),其中传递的是原子性的event数据;使用双层Flume架构可以实现一层数据采集,一层数据集合;Flu…

大家好,又见面了,我是你们的朋友全栈君。

目录

区别点一:

区别点二:


同样是流式数据采集框架,

flume一般用于日志采集,可以定制很多数据源,减少开发量,基本架构是一个flume进程agent(source、拦截器、选择器、channel<Memory Channel、File Channel>、sink),其中传递的是原子性的event数据;

使用双层Flume架构可以实现一层数据采集,一层数据集合;

Flume的概念、基本架构

kafka一般用于日志缓存,是一个可持久的分布式消息队列,自带存储,提供push和pull两种存储数据功能;包括producer、kafkaCluster(broker:topic、partition)、consumer,依赖于Zookeeper(brokerid、topic、partition元数据存在ZNode,partition选举leader依赖Zookeeper);

Kafka的概念、基本架构

区别点一:

flume和kafka的侧重点不同,

而flume追求的是数据和数据源、数据流向的多样性,适合多个生产者的场景;flume有自己内置的多种source和sink组件,具体操作方式是编写source、channel和sink的.conf配置文件,开启flume组件的时候用命令关联读取配置文件实现;

# 开启flume的脚本部分:

$FLUME_HOME/bin/flume-ng 
agent
 -c $FLUME_HOME/conf
 -f $JOB_HOME/flume-hdfs.conf
 -n agent-hdfs
 -Dflume.root.logger=info,
 console >$FLUME_HOME/logs/flume-hdfs.log  2>&1 &

-c:flume启动读取的配置文件flume-env.sh(指定JDK路径)存储在/conf目录中
-f:编写好source、interceptor、selector、channel和sink的配置文件flume-hdfs.conf的存储目录
-n:表示给flume-hdfs.conf中的agent起名为agent-hdfs
--------------------以下可不写-------------------
-D:表示flume运行时动态修改flume.root.logger参数属性值,并将控制台日志打印级别设置为INFO级别。日志级别包括:log、info、warn、error,仅为Debug使用,生产环境一般不用
console:打印日志发送路径

kafka追求的是高吞吐,高负载,同一topic下可以有多个partition,由于是pull模式拉取数据,因此适合多个消费者的场景;kafka没有内置的producer和consumer组件,需要自己编写代码。

区别点二:

flume和kafka的定位有所不同:

1. flume

cloudera公司研发,适合多个生产者;

适合下游数据消费者不多的情况;(一个消费者开一个channel)

适合数据安全性要求不高的操作;(数据没有备份、没有副本)

适合与Hadoop生态圈对接的操作。(HDFS、Hbase等)

适合生产和收集数据

 

2. kafka

linkedin公司研发,适合多个消费者;

适合数据下游消费众多的情况;(kafka从磁盘读,并且只找Leader读)

适合数据安全性要求较高的操作,支持replication(多副本)。

适合消费数据

 

因此工作中常用的一种模型是:

线上数据 –> flume –> kafka –> HDFS –> hive/MR计算

                                              –> SparkStreaming计算

也有kafka与springboot组合,采集数据后交给sparkStreaming进行流式计算

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/152345.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Kafuka面试(整合Kafka两种模式区别)

    Kafuka面试(整合Kafka两种模式区别)整合Kafka两种模式说明★面试题:Receiver&Direct开发中我们经常会利用SparkStreaming实时地读取kafka中的数据然后进行处理,在spark1.3版本后,kafkaUtils里面提供了两种创建DStream的方法:1.Receiver接收方式:KafkaUtils.createDstream(开发中不用,了解即可,但是面试可能会…

    2022年5月31日
    52
  • vmware虚拟机安装windows10_虚拟机15安装教程win7

    vmware虚拟机安装windows10_虚拟机15安装教程win71.去下载win7原装镜像,推荐去官方网站下载:https://msdn.itellyou.cn/2.这里注意一点,防止下载的镜像可能出现差错,我们使用iHasher检验一下完整性,确定SHA1值跟我们下载的那个SHA1值一样就行3.打开vmware虚拟机,新建虚拟机4.这里我们选择自定义5.兼容性自己选择,可以向下兼容,点击下一步6.选择win7镜像,这里我们选稍后安装操作系统(…

    2022年9月28日
    4
  • TCP/IP协议详解

    TCP/IP协议详解认识HTTP协议它是互联网协议(InternetProtocolSuite),一个网络通信模型,是互联网的一个基本的构架。HTTP协议是HyperTextTransferProtocol(超文本传输协议)的缩写,是用于从万维网(WWW:WorldWideWeb)服务器传输超文本到本地浏览器的传送协议。HTTP是一个基于TCP/IP通信协议来传递数据(HTML文件,图片文件…

    2022年6月13日
    46
  • java获取服务器文件路径,干货满满!

    java获取服务器文件路径,干货满满!一、SpringCloud微服务概念定义提起微服务,不得不提SpringCloud全家桶系列,SpringCloud是一个服务治理平台,是若干个框架的集合,提供了全套的分布式系统解决方案。包含了:服务注册与发现、配置中心、服务网关、智能路由、负载均衡、断路器、监控跟踪、分布式消息队列等等。SpringCloud通过SpringBoot风格的封装,屏蔽掉了复杂的配置和实现原理,最终给开发者留出了一套简单易懂、容易部署的分布式系统开发工具包。开发者可以快速的启动服务或构建应用、同时能够

    2022年7月11日
    45
  • 过分了,别人用来做桌面应用开发,这家伙却用来撩妹(2)-上帝给你开了各种撩妹窗口(Tkinter)

    过分了,别人用来做桌面应用开发,这家伙却用来撩妹(2)-上帝给你开了各种撩妹窗口(Tkinter)

    2022年2月21日
    46
  • linux convert 添加文字,Linux convert命令有什么用

    linux convert 添加文字,Linux convert命令有什么用Linuxconvert命令有什么用?Linux强大的图片处理功能强大的convert命令—介绍他的主要原因也是应为编程语言在linux下都可以调用使用convent命令可以对图片进行各种处理-trim:裁剪图像四周空白区域;-transparentcolor:去除图像中指定的颜色;-densitygeometry:设定图像的DPI值,若不明DPI值的概念,可参考《有关pt,p…

    2022年7月16日
    12

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号