各大公司的大数据质量监控平台

各大公司的大数据质量监控平台转自:https://zhuanlan.zhihu.com/p/41679658在这个信息化时代,你用手机打开微信聊天、打开京东app浏览商品、访问百度搜索、甚至某些app给你推送的信息流等等,数据无时无刻不在产生。数据,已经成为互联网企业非常依赖的新型重要资产。数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力。MichaelHammer(《Reengineeringt…

大家好,又见面了,我是你们的朋友全栈君。

转自:https://zhuanlan.zhihu.com/p/41679658

在这个信息化时代,你用手机打开微信聊天、打开京东app浏览商品、访问百度搜索、甚至某些app给你推送的信息流等等,数据无时无刻不在产生。

数据,已经成为互联网企业非常依赖的新型重要资产。数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力。Michael Hammer(《Reengineering the Corporation》一书的作者)曾说过,看起来不起眼的数据质量问题,实际上是拆散业务流程的重要标志。 数据质量管理是测度、提高和验证质量,以及整合组织数据的方法等一套处理准则,而体量大、速度快和多样性的特点,决定了大数据质量所需的处理,有别于传统信息治理计划的质量管理方式。

本文主要探讨了一二线互联网公司数据质量监控平台。

一、Data Quality Center(DQC阿里巴巴数据质量监控平台)

1.系统架构图

各大公司的大数据质量监控平台

(1)基于线上业务数据,进行数据采集

(2)基于监控规则库,执行SQL任务,进行计算处理

(3)基于用户规则,发送数据报警(短信、邮件)

2.系统流程图

各大公司的大数据质量监控平台

(1)用户进行规则配置

(2)通过定时的调度任务触发检查任务执行

(3)基于任务配置,获取样本数据

(4)基于计算返回检验结果

(5)调度根据检验结果,决定是否阻断干预(强依赖、弱依赖)

二、 Apache Griffin(Ebay开源数据质量监控平台)

1.系统架构

各大公司的大数据质量监控平台

(1)从准确性、完整性、时效性、唯一性等多个维度进行监控

(2)计算结果存储至ES、HDFS

(3)计算结果metrics展示

(4)支持实时和离线

(5)优势:开源

2.系统技术路线

各大公司的大数据质量监控平台

 

3.metrics展示

各大公司的大数据质量监控平台

 

三、 DataMan(美团点评数据质量监控平台)

1.系统架构

DataMan系统建设总体方案基于美团的大数据技术平台。自底向上包括:检测数据采集、质量集市处理层;质量规则引擎模型存储层;系统功能层及系统应用展示层等。整个数据质量检核点基于技术性、业务性检测,形成完整的数据质量报告与问题跟踪机制,创建质量知识库,确保数据质量的完整性(Completeness)、正确性(Correctness)、当前性(Currency)、一致性(Consistency)。

各大公司的大数据质量监控平台

各大公司的大数据质量监控平台

2.metric展示

各大公司的大数据质量监控平台

 

 

四、 BDP(京东大数据质量监控平台)

京东数据质量监控系统(简称:数据质量系统) 是数据仓库、数据集市中表的数据变化进行监控。数据质量系统根据用户设定采集项配置、规则项配置、预警规则设置(枚举值),对用户指定的表进行每日定时数据采集、计算,并与历史数据或维表进行比对验证。最终将触发预警规则的异常数据以短信、邮件、App 等方式及时通知给用户。

1.系统架构图

各大公司的大数据质量监控平台

关系型数据库mysql和非关系型数据库HBase作为数据源,进行监控

2.系统流程图

各大公司的大数据质量监控平台

(1)数据监控(2)运行日志(3)数据报警(4)规则配置

3.监控展示

各大公司的大数据质量监控平台

 

上述主要分析了当前各大公司主要在使用或者开发的数据质量方面的平台,无论是离线数据监控还是实时数据监控,均有涉及。然而可能你的公司没有这么多的人力或者物力,但是由于数据量的增长,需要考虑数据治理方面的问题,就可以考虑采用开源的平台,在此基础上开发或者优化,毕竟站在前人的肩膀上才能看的更远,走的更快。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/132797.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • VS2017专业版使用最新版Qt5.9.2教程(最新教材)

    VS2017专业版使用最新版Qt5.9.2教程(最新教材)VS2017专业版使用最新版Qt5.9.2教程(最新教材)目录VS2017专业版使用最新版Qt5.9.2教程(最新教材)运行环境:1.安装Qt5.9.22.安装Qt5.9与VS2017之间的插件:3.配置QtVSTool的环境.4.设置创建的Qt的项目的属性,对包含目录、引用目录、库目录进行环境配置5.Qt的环境变量配置6.开心,开心,开心的样子,运行成功…

    2022年6月7日
    53
  • cmd批处理命令~%dp0与~%dpn1的解析

    cmd批处理命令~%dp0与~%dpn1的解析1、最简单的做法是在cmd命令输入:for/?,回车,就能看到详细的解析对一组文件中的每一个文件执行某个特定命令。FOR%variableIN(set)DOcommand[command-parameters]%variable指定一个单一字母可替换的参数。(set)指定一个或一组文件。可以使用通配符。command指定对每个文件执行的命令。…

    2022年9月16日
    4
  • 震荡波病毒原代码(勒索病毒源代码)

    #include#include#include#include#include#defineNORM”/033[00;00m”#defineGREEN”/033[01;32m”#defineYELL”/033[01;33m”#defineRED”/033[01;31m”#defineBANNERGREEN”[%%]”YELL”mandrag

    2022年4月14日
    79
  • CSS中 RGB颜色查询对照表

    CSS中 RGB颜色查询对照表颜色代码表Ⅰ #000000 #2F0000 #600030 #460046 #28004D #272727 #4D0000 #820041 #5E005E #3A006F #3C3C3C #600000 #9F0050 #750075 #4B0091

    2022年5月16日
    37
  • APP开发防套路秘籍!

    APP开发防套路秘籍!在互联网软件开发行业混迹多年,深知这个行业的水有多深。就拿APP开发来说,市场上APP开发外包公司实在太多了,大中小都应有尽有,稍不留神,就很容易被“不正规”的公司给套路了。为此,整理了一份“三要一不”防套路秘籍,一起来学习下吧!1.要整体外包大多数企业,想要开发一款APP,都会首选外包这种方式。而外包又有两种形式,即整体外包和半外包。顾名思义,整体外包就是将UI、前端、后台都交给一个外包公司…

    2022年5月18日
    31
  • 我用kafka两年踩过的一些非比寻常的坑

    我用kafka两年踩过的一些非比寻常的坑

    2022年2月18日
    40

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号