大数据:简述对数据采集平台的认识

大数据:简述对数据采集平台的认识大数据 简述对数据采集平台的认识一 数据采集平台的认识任何完整的大数据平台 一般包括以下的几个过程 amp nbsp amp nbsp amp nbsp amp nbsp amp nbsp amp nbsp 数据采集 amp gt 数据存储 amp gt 数据处理 amp am



大数据:简述对数据采集平台的认识


一、数据采集平台的认识

  1. 数据源多种多样
  2. 数据量大
  3. 变化快
  4. 如何保证数据采集的可靠性的性能
  5. 如何避免重复数据
  6. 如何保证数据的质量

接下来,简单介绍当前可用的六款数据采集的产品,关注它们是如何做到高可靠,高性能和高扩展。

二、数据采集平台的产品

  1. Apache Flume
    详情请看文章:《大数据:数据采集平台之Apache Flume》
  2. Fluentd
    详情请看文章:《大数据:数据采集平台之Fluentd》
  3. Logstash
    详情请看文章:《大数据:数据采集平台之Logstash》
  4. Apache Chukwa
    详情请看文章:《大数据:数据采集平台之Apache Chukwa 》
  5. Scribe
    详情请看文章:《大数据:数据采集平台之Scribe 》
  6. Splunk Forwarder
    详情请看文章:《大数据:数据采集平台之Splunk Forwarder》

三、总结

上述几种流行的数据收集平台,它们大都提供高可靠和高扩展的数据收集。大多平台都抽象出了输入,输出和中间的缓冲的架构。利用分布式的网络连接,大多数平台都能实现一定程度的扩展性和高可靠性。

其中Flume,Fluentd是两个被使用较多的产品。如果你用ElasticSearch,Logstash也许是首选,因为ELK栈提供了很好的集成。Chukwa和Scribe由于项目的不活跃,不推荐使用。

参考:https://mp.weixin..com/s/emQ_94T0_Hw3ywQc0-4Dtg

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/218072.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月18日 上午8:06
下一篇 2026年3月18日 上午8:07


相关推荐

  • 安卓原生镜像(中国网站)「建议收藏」

    安卓原生镜像(中国网站)「建议收藏」安卓原生镜像(谷歌中国站)找了半天百度,好不容易看到,赶紧收藏起来:原生安卓包:https://developers.google.cn/android/images?h1=zh=cn#angler

    2022年6月19日
    37
  • JAVA 解析xml的工具类

    JAVA 解析xml的工具类packagecom xml util importjava io IOException importjava io StringReader importjava util ArrayList importjava util List importjava util Map importjava util Set importjava util TreeMap importnet sf json JSONArray importnet sf json JSONO

    2026年1月25日
    2
  • Vue前端项目-主页布局-左侧导航菜单(静态)[通俗易懂]

    Vue前端项目-主页布局-左侧导航菜单(静态)[通俗易懂]目录1、修改侧边栏组件2、滚动条样式3、导入并使用组件实现效果:NavMenu的详细用法:https://element.eleme.cn/#/zh-CN/component/menu1、修改侧边栏组件为侧边栏组件,添加导航菜单侧边栏组件:src/layout/components/Sidebar/index.vue<tem…

    2022年7月26日
    34
  • 前端性能优化之“离线缓存manifest”

    前端性能优化之“离线缓存manifest”在本专栏的这一篇文章中 给各位引出了一个 不同寻常的 性能体验优化方式 离线缓存 并介绍了它的简单用法 本文来详细说说 啥是离线缓存离线缓存又叫 ApplicationC 是从浏览器缓存中分出来一块缓存区 用来存储一定的资源 它是 HTML5 的新特性 你可以使用它将构成 web 应用程序的资源 如 HTML css JavaScript 图片等存储到本地缓存中 这样不仅可以使以后进来时更加方便 还可以在离线状态时 无差别 继续使用 web 应用 离线缓存和普通的浏览器网页缓存有明显的区别

    2026年3月18日
    2
  • ubuntu18.04怎么设置中文_电脑全英文怎么换中文

    ubuntu18.04怎么设置中文_电脑全英文怎么换中文本文介绍如何将Ubuntu18.04安装后的英文界面,更改为中文界面,即系统语言由英文改为简体中文。注意,与安装中文输入法不同,两者也没有冲突。首先进入设置(Setting),选择区域和语言(Reg

    2022年8月1日
    14
  • 试题 算法训练 猴子分苹果

    试题 算法训练 猴子分苹果试题算法训练猴子分苹果题目描述 资源限制时间限制 1 0s 内存限制 256 0MB 问题描述 秋天到了 n 只猴子采摘了一大堆苹果放到山洞里 约定第二天平分 这些猴子很崇拜猴王孙悟空 所以都想给他留一些苹果 第一只猴子悄悄来到山洞 把苹果平均分成 n 份 把剩下的 m 个苹果吃了 然后藏起来一份 最后把剩下的苹果重新合在一起 这些猴子依次悄悄来到山洞 都做同样的操作 恰好每次都剩下了 m 个

    2026年3月18日
    1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号