【2020】DBus,一个更能满足企业需求的大数据采集平台「建议收藏」

【2020】DBus,一个更能满足企业需求的大数据采集平台「建议收藏」功能远超Sqoop、DataX、Flume、Logatash、Filebeat等采集工具深知其他组件的局限性,才能彰显DBus的优越感当前有很多数据采集工具(Sqoop、DataX、Flume、Logatash、Filebeat等),他们或多或少都存在一些局限性。一个共性问题是缺乏统一的数据源端管控,所以也就无法找到统一的数据入口,那后续处理元数据或者血缘分析会异…

大家好,又见面了,我是你们的朋友全栈君。

功能远超Sqoop、DataX、Flume、Logatash、Filebeat等采集工具

【2020】DBus,一个更能满足企业需求的大数据采集平台「建议收藏」

【2020】DBus,一个更能满足企业需求的大数据采集平台「建议收藏」【2020】DBus,一个更能满足企业需求的大数据采集平台「建议收藏」【2020】DBus,一个更能满足企业需求的大数据采集平台「建议收藏」【2020】DBus,一个更能满足企业需求的大数据采集平台「建议收藏」【2020】DBus,一个更能满足企业需求的大数据采集平台「建议收藏」

 

深知其他组件的局限性,才能彰显DBus的优越感

当前有很多数据采集工具(Sqoop、DataX、Flume、Logatash、Filebeat等),他们或多或少都存在一些局限性。

【2020】DBus,一个更能满足企业需求的大数据采集平台「建议收藏」

一个共性问题是缺乏统一的数据源端管控,所以也就无法找到统一的数据入口,那后续处理元数据或者血缘分析会异常困难。

除此之外,现有各种数据采集工具的数据同步方法也有一定的局限性。比如:

(1)各个数据使用方在业务低峰期各种抽取所需数据(缺点是存在重复抽取而且数据不一致)

(2)由统一的数仓平台通过sqoop到各个系统中抽取数据(缺点是sqoop抽取方法时效性差,一般都是T+1的时效性)

(3)基于trigger或时间戳的方式获得增量的变更(缺点是对业务方侵入性大,带来性能损失等)

这些方案都不能算完美,要想同时解决数据一致性和实时性,比较合理的方法应该是基于日志的解决方案,同时能够提供消息订阅的方式给下游系统使用。在这个背景下DBus就诞生了。

DBus到底是什么?给我一个完美的解释

DBus(数据总线)项目为了统一数据采集需求而生, 专注于数据的收集及实时数据流计算,通过简单灵活的配置,以无侵入的方式对源端数据进行采集,采用高可用的流式计算框架,对公司各个IT系统在业务流程中产生的数据进行汇聚,经过转换处理后成为统一JSON的数据格式(UMS),提供给不同数据使用方订阅和消费,充当数仓平台、大数据分析平台、实时报表和实时营销等业务的数据源。支持多租户管理,提供租户级资源、数据隔离机制。

看DBus官网,了解更多更新一手资料

https://github.com/BriData/DBus

看DBus架构,聚焦DBus两大核心功能

【2020】DBus,一个更能满足企业需求的大数据采集平台「建议收藏」

DBUS主要分为两个部分:

(1)贴源数据采集

(2)多租户数据分发

两个部分之间以Kafka为媒介进行衔接。无多租户资源、数据隔离需求的用户,可以直接消费源端数据采集这一级输出到kafka的数据,无需再配置多租户数据分发

继续深入贴源数据采集功能模块

DBUS源端数据采集大体来说分为两部分:

读取RDBMS增量日志的方式来 实时获取增量数据日志,并支持全量拉取;基于logtash,flume,filebeat等抓取工具来实时获得数据,以可视化的方式对数据进行结构化输出;

以下为具体实现原理:

【2020】DBus,一个更能满足企业需求的大数据采集平台「建议收藏」

主要模块如下:

(1)日志抓取模块:从RDBMS的备库中读取增量日志,并实时同步到kafka中;

(2)增量转换模块:将增量数据实时转换为UMS数据,处理schema变更,脱敏等;

(3)全量抽取程序:将全量数据从RDBMS备库拉取并转换为UMS数据;

(4)日志算子处理模块:将来自不同抓取端的日志数据按照算子规则进行结构化处理;

(5)心跳监控模块:对于RDMS类源,定时向源端发送心跳数据,并在末端进行监控,发送预警通知;对于日志类,直接在末端监控预警。

(6)web管理模块:管理所有相关模块。

继续深入多租户数据分发功能模块

对于不同租户对不同源端数据有不同访问权限、脱敏需求的情形,需要引入Router分发模块,将源端貼源数据,根据配置好的权限、用户有权获取的源端表、不同脱敏规则等,分发到分配给租户的Topic。这一级的引入,在DBUS管理系统中,涉及到用户管理、Sink管理、资源分配、脱敏配置等。不同项目消费分配给他的topic。

【2020】DBus,一个更能满足企业需求的大数据采集平台「建议收藏」

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/140554.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 【NOIP2012提高组】国王游戏[通俗易懂]

    【NOIP2012提高组】国王游戏[通俗易懂]题目描述恰逢H国国庆,国王邀请n位大臣来玩一个有奖游戏。首先,他让每个大臣在左、右手上面分别写下一个整数,国王自己也在左、右手上各写一个整数。然后,让这n位大臣排成一排,国王站在队伍的最前面。排好队后,所有的大臣都会获得国王奖赏的若干金币,每位大臣获得的金币数分别是:排在该大臣前面的所有人的左手上的数的乘积除以他自己右手上的数,然后向下取整得到的结果。国王不希望某一个大臣获得特别多…

    2022年8月22日
    16
  • AssetBundle 详解

    AssetBundle 详解文章目录AssetBundle的定义和作用什么是AssetBundle用处AssetBundle使用流程图指定资源的AssetBundle属性构建AssetBundle包核心代码详解上传AB包加载AB包和包里面的资源加载本地的AB包加载服务器上的AB包AssetBundle分组策略按照逻辑实体分组按照资源类型分组按照使用分组构建AB后产生的文件AssetBund…

    2022年6月29日
    29
  • python之open函数

    python之open函数1小序功能:打开某个文件,创建一个file对象,调用相关方法进行读写.格式:open(name[,mode[,buffering]])序号参数描述1name2mode3buffering

    2022年5月26日
    57
  • html5 数字滚动选择器,Odometer使用JavaScript和CSS制作数字滑动效果

    html5 数字滚动选择器,Odometer使用JavaScript和CSS制作数字滑动效果Odometer 是一个使用 JavaScript 和 CSS 技术 制作出数字上下滑动的动画效果插件 有点类似与我们的天然气的读数的动画效果 这个插件是轻量级的 压缩版本只有 3kg 使用 CSS3 动画技术 所以运行起来非常的流畅 需要这种效果的朋友不妨试试这个插件 所有的主题都可以自定义文字的大小和 Odometer 元素的标签 兼容性 Odometer 能在 IE8 FF4 Safari6 Chrom

    2026年1月30日
    1
  • win10 使用 cmd 查看端口占用情况,关闭占用端口的相关程序「建议收藏」

    win10 使用 cmd 查看端口占用情况,关闭占用端口的相关程序「建议收藏」前言:工作中常用端口偶尔被占用,特写此文章记录1.查看被占用的端口号执行命令:netstat-ano|findstr端口号2.通过PID查看占用端口的程序执行命令:tasklist|findstrPID3.通过PID关闭占用的程序此方法可以通过cmd关闭也可以通过任务管理器关闭CMD执行命令:taskkill/T/F/PIDPID通过任务管理器找到对应的PID程序右键结束程序…

    2022年5月12日
    45
  • 大数据平台建设经验「建议收藏」

    大数据平台建设经验「建议收藏」大数据平台建设技术背景Facebook的DREP原则!!思路建设流程经验教训生产案例饿了么大数据平台建设大数据平台逻辑架构图工具链架构图!!流入三个源数据流的UV计算渠道订单一个大数据平台省了20个IT人力——敦奴数据平台建设案例分享引跑科技副总裁张晓东:引跑DBone数据库助力大数据建设需求挖掘五步曲,快速建设大数据项目整合公司3个网站后台管理子系统的经验总结-实现多系统的单点登录(ASP.N

    2022年6月12日
    37

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号