flume中hdfs sinks参数配置详解

flume中hdfs sinks参数配置详解Flume 中的 HDFSSink 应该是非常常用的 其中的配置参数也比较多 在这里记录备忘一下 channel typehdfspath 写入 hdfs 的路径 需要包含文件系统标识 比如 hdfs namenode flume webdata 可以使用 flume 提供的日期及 host 表达式 filePrefix 默认值 FlumeData 写入 hdfs 的文件名前缀 可以使

Flume中的HDFS Sink应该是非常常用的,其中的配置参数也比较多,在这里记录备忘一下。

  • channel
  • type

hdfs

  • path

写入hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/webdata/

可以使用flume提供的日期及%{host}表达式。

  • filePrefix

默认值:FlumeData

写入hdfs的文件名前缀,可以使用flume提供的日期及%{host}表达式。

  • fileSuffix

写入hdfs的文件名后缀,比如:.lzo .log等。

  • inUsePrefix

临时文件的文件名前缀,hdfs sink会先往目标目录中写临时文件,再根据相关规则重命名成最终目标文件;

  • inUseSuffix

默认值:.tmp

临时文件的文件名后缀。

  • rollInterval

默认值:30

hdfs sink间隔多长将临时文件滚动成最终目标文件,单位:秒;

如果设置成0,则表示不根据时间来滚动文件;

注:滚动(roll)指的是,hdfs sink将临时文件重命名成最终目标文件,并新打开一个临时文件来写入数据;

  • rollSize

默认值:1024

当临时文件达到该大小(单位:bytes)时,滚动成目标文件;

如果设置成0,则表示不根据临时文件大小来滚动文件;

  • rollCount

默认值:10

当events数据达到该数量时候,将临时文件滚动成目标文件;

如果设置成0,则表示不根据events数据来滚动文件;

  • idleTimeout
  • batchSize

默认值:100

每个批次刷新到HDFS上的events数量;

  • codeC

文件压缩格式,包括:gzip, bzip2, lzo, lzop, snappy

  • fileType

默认值:SequenceFile

文件格式,包括:SequenceFile, DataStream,CompressedStream

当使用DataStream时候,文件不会被压缩,不需要设置hdfs.codeC;

当使用CompressedStream时候,必须设置一个正确的hdfs.codeC值;

  • maxOpenFiles

默认值:5000

最大允许打开的HDFS文件数,当打开的文件数达到该值,最早打开的文件将会被关闭;

  • minBlockReplicas

默认值:HDFS副本数

写入HDFS文件块的最小副本数。

该参数会影响文件的滚动配置,一般将该参数配置成1,才可以按照配置正确滚动文件。

待研究。

  • writeFormat

写sequence文件的格式。包含:Text, Writable(默认)

  • callTimeout

默认值:10000

       执行HDFS操作的超时时间(单位:毫秒);

  • threadsPoolSize

默认值:10

hdfs sink启动的操作HDFS的线程数。

  • rollTimerPoolSize

默认值:1

hdfs sink启动的根据时间滚动文件的线程数。

  • kerberosPrincipal

HDFS安全认证kerberos配置;

  • kerberosKeytab

HDFS安全认证kerberos配置;

  • proxyUser

代理用户

  • round

默认值:false

是否启用时间上的”舍弃”,这里的”舍弃”,类似于”四舍五入”,后面再介绍。如果启用,则会影响除了%t的其他所有时间表达式;

  • roundValue

默认值:1

时间上进行“舍弃”的值;

  • roundUnit

默认值:seconds

时间上进行”舍弃”的单位,包含:second,minute,hour

 

示例:

a1.sinks.k1.hdfs.path = /flume/events/%y-%m-%d/%H%M/%S

a1.sinks.k1.hdfs.round = true

a1.sinks.k1.hdfs.roundValue = 10

a1.sinks.k1.hdfs.roundUnit = minute

当时间为2015-10-16 17:38:59时候,hdfs.path依然会被解析为:

/flume/events//17:30/00

因为设置的是舍弃10分钟内的时间,因此,该目录每10分钟新生成一个。

  • timeZone

默认值:Local Time

时区。

  • useLocalTimeStamp

默认值:flase

是否使用当地时间。

  • closeTries

默认值:0

hdfs sink关闭文件的尝试次数;

如果设置为1,当一次关闭文件失败后,hdfs sink将不会再次尝试关闭文件,这个未关闭的文件将会一直留在那,并且是打开状态。

设置为0,当一次关闭失败后,hdfs sink会继续尝试下一次关闭,直到成功。

  • retryInterval

默认值:180(秒)

hdfs sink尝试关闭文件的时间间隔,如果设置为0,表示不尝试,相当于于将hdfs.closeTries设置成1.

  • serializer

默认值:TEXT

序列化类型。其他还有:avro_event或者是实现了EventSerializer.Builder的类名。

 

下面的配置中,在HDFS的/tmp/lxw1234/目录下,每天生成一个格式为的目录,

目标文件每5分钟生成一个,文件名格式为:log__13.43.lzo

目标文件采用lzo压缩。

  
  1. agent_lxw1234.sinks.sink1.type = hdfs
  2. agent_lxw1234.sinks.sink1.hdfs.path = hdfs://cdh5/tmp/lxw1234/%Y%m%d
  3. agent_lxw1234.sinks.sink1.hdfs.filePrefix = log_%Y%m%d_%H
  4. agent_lxw1234.sinks.sink1.hdfs.fileSuffix = .lzo
  5. agent_lxw1234.sinks.sink1.hdfs.useLocalTimeStamp = true
  6. agent_lxw1234.sinks.sink1.hdfs.writeFormat = Text
  7. agent_lxw1234.sinks.sink1.hdfs.fileType = CompressedStream
  8. agent_lxw1234.sinks.sink1.hdfs.rollCount = 0
  9. agent_lxw1234.sinks.sink1.hdfs.rollSize = 0
  10. agent_lxw1234.sinks.sink1.hdfs.rollInterval = 600
  11. agent_lxw1234.sinks.sink1.hdfs.codeC = lzop
  12. agent_lxw1234.sinks.sink1.hdfs.batchSize = 100
  13. agent_lxw1234.sinks.sink1.hdfs.threadsPoolSize = 10
  14. agent_lxw1234.sinks.sink1.hdfs.idleTimeout = 0
  15. agent_lxw1234.sinks.sink1.hdfs.minBlockReplicas = 1
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/220197.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月17日 下午9:00
下一篇 2026年3月17日 下午9:01


相关推荐

  • 八皇后算法解析[通俗易懂]

    八皇后算法解析[通俗易懂]今天研究力扣的一道题死活写不出来对应的算法,没办法自己算法基础太差。于是看了下答案,发现使用什么回溯算法,菜鸟表示平时开发期间写的最复杂的程序就是写了两层for循环,已经很牛逼了有木有?这个回溯算法什么鬼?于是乎百度了下,算是了解了回溯算法是什么玩意儿。这里分析一波八皇后算法来加深一下理解。https://blog.csdn.net/microopithecus/article/details/…

    2022年4月20日
    57
  • 分页 模糊查询「建议收藏」

    分页 模糊查询「建议收藏」一、所有的web项目都会用到分页显示和模糊查询,对于有些人不知道该怎么写二、今天我用springMVC和myBatis写的分页和模糊分享给大家,不喜勿喷三、数据库是mysql四、其实写分页就是新建一个分页的类,定义页码每页数量共几页当前页数总数量五、判断多少页,获取总数量除以每页显示的数量,有余数+1页六、sql语句就是用…

    2022年5月11日
    46
  • Do not use lsnrctl and sqlplus as SYSDBA in RAC

    Do not use lsnrctl and sqlplus as SYSDBA in RAC

    2022年3月12日
    50
  • 「建议收藏」Pycharm使用教程(非常详细,非常实用)「建议收藏」

    「建议收藏」Pycharm使用教程(非常详细,非常实用)「建议收藏」Pycharm使用教程1、Jetbrains家族和Pycharm版本划分:pycharm是Jetbrains家族中的一个明星产品,Jetbrains开发了许多好用的编辑器,包括Java编辑器(IntelliJIDEA)、JavaScript编辑器(WebStorm)、PHP编辑器(PHPStorm)、Ruby编辑器(RubyMine)、C和C++编辑器(CLion)、.Net编辑器(Rider)、iOS/macOS编辑器(AppCode)等。pycharm现在在官网[https://www.jetb

    2022年8月25日
    7
  • goland 2021 激活码【中文破解版】

    (goland 2021 激活码)2021最新分享一个能用的的激活码出来,希望能帮到需要激活的朋友。目前这个是能用的,但是用的人多了之后也会失效,会不定时更新的,大家持续关注此网站~https://javaforall.net/100143.htmlIntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,上面是详细链接哦~ML…

    2022年3月21日
    47
  • 无需Visual Studio,5容易的 – 分为报告

    无需Visual Studio,5容易的 – 分为报告

    2022年1月5日
    54

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号