大数据:简述对数据采集平台的认识
大数据:简述对数据采集平台的认识
一、数据采集平台的认识
- 数据源多种多样
- 数据量大
- 变化快
- 如何保证数据采集的可靠性的性能
- 如何避免重复数据
- 如何保证数据的质量
接下来,简单介绍当前可用的六款数据采集的产品,关注它们是如何做到高可靠,高性能和高扩展。
二、数据采集平台的产品
- Apache Flume
详情请看文章:《大数据:数据采集平台之Apache Flume》 - Fluentd
详情请看文章:《大数据:数据采集平台之Fluentd》 - Logstash
详情请看文章:《大数据:数据采集平台之Logstash》 - Apache Chukwa
详情请看文章:《大数据:数据采集平台之Apache Chukwa 》 - Scribe
详情请看文章:《大数据:数据采集平台之Scribe 》 - Splunk Forwarder
详情请看文章:《大数据:数据采集平台之Splunk Forwarder》
三、总结
上述几种流行的数据收集平台,它们大都提供高可靠和高扩展的数据收集。大多平台都抽象出了输入,输出和中间的缓冲的架构。利用分布式的网络连接,大多数平台都能实现一定程度的扩展性和高可靠性。
其中Flume,Fluentd是两个被使用较多的产品。如果你用ElasticSearch,Logstash也许是首选,因为ELK栈提供了很好的集成。Chukwa和Scribe由于项目的不活跃,不推荐使用。
参考:https://mp.weixin..com/s/emQ_94T0_Hw3ywQc0-4Dtg
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/218072.html原文链接:https://javaforall.net
