大数据治理包括哪几个方面

大数据治理包括哪几个方面在数据治理中 涉及到了前端业务系统 后端业务数据库系统再到业务终端的数据分析 从源头到终端再回到源头 形成的一个闭环负反馈系统 同样地 在数据治理中 我们也需要一套标准化的规范来指导数据的采集 传输 储存以及应用 数据治理包括数据规划 数据采集 数据储存管理 数据应用四个方面 根据每一个方面的特点 我们可以将数据治理总结为四个字 即 理 采 存 用 01 理 梳理业务流程 规划数据资源 对于企业来说 每天的实时数据都会超过 TB 级别 需要采集用户的哪些数据 这么多的数据放

  在数据治理中,涉及到了前端业务系统,后端业务数据库系统再到业务终端的数据分析,从源头到终端再回到源头,形成的一个闭环负反馈系统。同样地,在数据治理中,我们也需要一套标准化的规范来指导数据的采集、传输、储存以及应用。

  数据治理包括数据规划、数据采集、数据储存管理、数据应用四个方面。根据每一个方面的特点,我们可以将数据治理总结为四个字,即“理”、“采”、“存”、“用”。

  01理:梳理业务流程,规划数据资源

  对于企业来说,每天的实时数据都会超过TB级别,需要采集用户的哪些数据,这么多的数据放在哪里,如何放,以什么样的方式放?这些问题都是需要事先进行规划的,需要有一套从无序变为有序的流程,这个过程需要跨部门的协作,包括了前端、后端、数据工程师、数据分析师、项目经理等角色的参与。

  02采:ETL采集、去重、脱敏、转换、关联、去除异常值

  前后端将采集到的数据给到数据部门,数据部门通过ETL工具将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,目的是将散落和零乱的数据集中存储起来。

  03存:大数据高性能存储及管理

  这么多的业务数据存在哪里?这需要有一高性能的大数据存储系统,在这套系统里面将数据进行分门别类放到其对应的库里面,为后续的管理及使用提供最大的便利。

  04用:即时查询、报表监控、智能分析、模型预测

  数据治理的最终目的就是辅助业务进行决策,前面的三个方面都是为最终的查询、分析、监控做铺垫。这个阶段就是数据分析师的主场,分析师们运用这些标准化的数据可以进行即时的查询、指标体系和报表体系的建立、业务问题的分析,甚至是模型的预测。

  数据治理是指将零散的用户数据通过采集、传输、储存等一系列标准化的流程变成格式规范、结构统一的数据,并有严格和规范的综合数据管控;对这些标准化的数据进行进一步加工分析成为具有指导意义的业务监控报表、业务监控模型以帮助业务进行辅助决策。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/234025.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 【PHP SPL笔记】

    这几天,我在学习PHP语言中的SPL。这个东西应该属于PHP中的高…

    2022年1月18日
    35
  • [面试] Golang 面试题

    [面试] Golang 面试题本文章收录于:后端工程师面试题目总结(提供参考答案)目录1.make与new的区别2.简要描述go中的main和init函数的区别3.下面的代码输出什么,若会报错报什么错?4.这段代码会输出什么?5、简述channel和mutex锁机制的原理异同与使用场景6、sync.WaitGroup的使用场景?7、写一段闭包代码,阐述其作用8、执行这段代码会发生什…

    2022年6月29日
    28
  • jdk源码分析之ArrayList

    ArrayList关键属性分析ArrayList采用Object数组来存储数据/*** The array buffer into which&

    2021年12月26日
    38
  • settime和setinterval_setinterval是异步还是同步

    settime和setinterval_setinterval是异步还是同步setTimeout和setInterval的语法相同。它们都有两个参数,一个是将要执行的代码字符串,还有一个是以毫秒为单位的时间间隔,当过了那个时间段之后就将执行那段代码。这两个函数的区别是:setInterval在执行完一次代码之后,经过了那个固定的时间间隔,它还会自动重复执行代码,而setTimeout只执行一次那段代码。有一次我没有分清,使用了setInterval,导致电脑崩溃了。setTimeout表面上是只执行一次,只是起到延迟作用。但是也可以通过创建一个函数循环重复调用…

    2022年10月4日
    2
  • 5G接入网与基站演进

    5G接入网与基站演进5G 基站重组 AAU 有源天线单元 ActiveAntenn RRU 有源射频 无源天线 BBU 的部分物理层功能 DU 分布式单元 由 BBU 中部分物理层和实时服务的功能所分割而成 由于对时延要求极高 DU 需与 AAU 就近部署 1ms 以内 一个 DU 可连接多个 AAU CU 中央单元 BBU 中非实时的功能分割而出 CU 可采用云化部署方式 支持核心网 UPF 下沉与边缘计算融合部署 一个 CU 可管理一个或多个 DU 减少前传带宽和时延 5G 基站前传 AAU 和 DU 之间 带宽高达数百 G 至 Tbps 传

    2025年11月29日
    3
  • QueryInterface函数

    QueryInterface函数《COM技术内幕》§3——QueryInterface函数§3——IUnknown.CPP代码清单:////IUnkown.cpp//// #include#include voidtrace(constchar*msg){cout //InterfaceinterfaceIX:IUnknown

    2022年6月29日
    23

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号