数据中台 总结

数据中台 总结

2019是数据中台的元年,但是数据中台为啥突然火了?

数据中台被誉为大数据的下一站,由阿里兴起,核心思想是数据共享,并在 2018 年因为“腾讯数据中台论”再度成为了人们谈论的焦点。在 3 月 15 日 ThoughtWorks 技术雷达峰会上,关于数据中台的话题也获得了众多参会者的热烈关注。

数据中台的概念是最早由阿里巴巴首次提出,是为了应对像双十一这样的业务高峰、应对大规模数据的线性可扩展问题、应对复杂业务系统的解耦问题,而在技术、组织架构等方面采取的一些变革,其本质上还是一个平台,阿里称之为“共享服务平台(Shared Platform as Service,SPAS)”。SPAS采用的是基于面向服务的架构SOA理念的 “去中心化”的服务架构,所有的服务都是以“点对点”的方式进行交互。阿里之所以选择“去中心化”的分布式服务架构,主要是考虑到扩展性。

数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。

<span>数据中台 总结</span>

数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。这些服务跟企业的业务有较强的关联性,是这个企业独有的且能复用的,它是企业业务和数据的沉淀,其不仅能降低重复建设、减少烟囱式协作的成本,也是差异化竞争优势所在。

数据中台建设的基础还是数据仓库和数据中心,并且在数仓模型的设计上也是一脉传承,之所以我们现在处处推崇数据中台建设及应用,一个是因为数据中台确实有过人之处,另一个是这套模型在阿里体现了巨大的应用价值。

数据中台跟之前大数据平台最大的区别,在于数据中台距离业务更近,能更快速地响应业务和应用开发的需求,可追溯,更精准。

<span>数据中台 总结</span>

数据中台最核心的是OneData体系。这个体系实质上是一个数据管理体系,包括全局数据仓库规划、数据规范定义、数据建模研发、数据连接萃取、数据运维监控、数据资产管理工具等。数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合,出于分析性报告和决策支持目的而创建。

数据中台是一个数据集成平台,它不仅仅是为数据分析挖掘而建,它更重要的功能是作为各个业务的数据源,为业务系统提供数据和计算服务。数据中台的本质就是“数据仓库+数据服务中间件”。中台构建这种服务时是考虑到可复用性的,每个服务就像一块积木,可以随意组合,非常灵活,有些个性化的需求在前台解决,这样就避免了重复建设,既省时、省力,又省钱。

数据中台是建立在分布式计算平台和存储平台,理论上可以无限扩充平台的计算和存储能力。而多数的传统数仓工具都是建立的单机的基础上,一旦数据量变大,会受单机容量的限制。

<span>数据中台 总结</span>

数据中台构成

“数据中台”一般包含以下几个部分:

  1. 数据仓库:用来存储数据的,结构性数据、非结构性数据等,还有离线数据和实时数据等;
  2. 大数据中间件:包含了大数据计算服务、大数据研发套件、数据分析及展现工具;
  3. 数据资产管理:按照阿里的体系应该分为垂直数据、公共数据和萃取数据3层;

 

数据中台解决的问题可以总结为如下三点:

  1. 效率问题:为什么应用开发增加一个报表,就要十几天时间?为什么不能实时获得用户推荐清单?当业务人员对数据产生一点疑问的时候,需要花费很长的时间,结果发现是数据源的数据变了,最终影响上线时间。
  2. 协作问题:当业务应用开发的时候,虽然和别的项目需求大致差不多,但因为是别的项目组维护的,所以数据还是要自己再开发一遍。
  3. 能力问题:数据的处理和维护是一个相对独立的技术,需要相当专业的人来完成,但是很多时候,我们有一大把的应用开发人员,而数据开发人员很少。

这三类问题都会导致应用开发团队变慢。这就是中台的关键——让前台开发团队的开发速度不受后台数据开发的影响。

数据中台的出现,解决的是数据存储、连通和使用中所遇到的种种问题,如数据孤岛、数据治理、数据共享等等。

通过打通多源异构数据,统一治理、管理企业数据,数据中台可以让数据高效可用,为企业业务提供支持、为客户提供高效服务。

与传统数据库相比,数据中台还有一个重要的优点:提升人及其组织的生产效率。

数据中台最初诞生的初衷是解决组织膨胀所造成的效率下降问题。具体业务的开展需要技术、产品、市场等各个方面的支持,对于大型公司来说,这些基础支持工作会有很大程度上的重复。部门内部、部门间的协调颇为耗费精力,不仅信息无法共享,资源也会被浪费。

一个数据全面、技术能力过硬、可以统一调用的数据中台,能够为业务线提供统一支持,同时帮助企业精简业务团队配置,实现「扁平化」。管理效率和组织运作效率都可以得到提升,业务也更敏捷灵活。

<span>数据中台 总结</span>

Data API 是数据中台的核心,它是连接前台和后台的桥梁,通过 API 的方式提供数据服务,而不是直接把数据库给前台、让前台开发自行使用数据。

<span>数据中台 总结</span>

数据处理需求的演进历程

<span>数据中台 总结</span>

数据中台的核心理念在于“数据取之于业务,用之于业务”,即它相比于数据平台注重的是对业务的积累和沉淀,构建了从数据生产到消费,消费后产生的数据再回流到生产流程的闭环过程。

数据中台和数据仓库、数据平台的关键区别

概括地说,三者的关键区别有以下几方面:

  1. 数据中台是企业级的逻辑概念,体现企业 D2V(Data to Value)的能力,为业务提供服务的主要方式是数据 API;
  2. 数据仓库是一个相对具体的功能概念,是存储和管理一个或多个主题数据的集合,为业务提供服务的方式主要是分析报表;
  3. 数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集;
  4. 数据中台距离业务更近,为业务提供速度更快的服务;
  5. 数据仓库是为了支持管理决策分析,而数据中台则是将数据服务化之后提供给业务系统,不仅限于分析型场景,也适用于交易型场景;
  6. 数据中台可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层。

数据仓库具有历史性,其中存储的数据大多是结构化数据,这些数据并非企业全量数据,而是根据需求针对性抽取的,因此数据仓库对于业务的价值是各种各样的报表,但这些报表又无法实时产生。数据仓库报表虽然能够提供部分业务价值,但不能直接影响业务。

数据平台的出现是为了解决数据仓库不能处理非结构化数据和报表开发周期长的问题,所以先撇开业务需求、把企业所有的数据都抽取出来放到一起,成为一个大的数据集,其中有结构化数据、非结构化数据等。当业务方有需求的时候,再把他们需要的若干个小数据集单独提取出来,以数据集的形式提供给数据应用。

而数据中台是在数据仓库和数据平台的基础上,将数据生产为为一个个数据 API 服务,以更高效的方式提供给业务。

数据中台优势:

  • 灵活,随意组合
  • 避免重复建设
  • 通用业务能力沉淀,前台减负
  • 统一服务接口,提升运营效率

建设数据中台的挑战及应对策略

数据中台建设面临的挑战包括:

  • 梳理业务场景:搞清楚数据中台如何对业务产生价值。
  • 建设数据中台的优先级策略:需求可能大而全,但我们不能直接建大而全的数据中台,应该根据业务重要性来排需求的优先级。
  • 数据治理问题:和业务独立开的数据治理少有成功的,大的数据标准要有(数据资产目录),通过数据资产目录将共有的纬度、共性的业务模型提炼出来,在此基础之上数据治理需要跟业务场景紧密结合。

 

数据中台团队和技术选型

数据中台团队通常需要包含以下角色:

  • 业务专家团队:了解业务、梳理业务场景,确定数据资产与业务场景的一一对应关系,确定业务场景的优先级,为数据中台的建设提供依据。
  • 数据工程团队:建设和维护数据中台,包括 ETL、数据采集,以及数据中台性能和稳定性保证,利用中台的工具采集、存储、加工、处理数据。
  • 数据分析团队:分析数据价值、探索场景,生产更多的数据服务。
  • 数据治理团队:梳理数据标准、构件数据安全和隐私规范,利用开源去中心化的数据治理工具(比如 atlas、wherehows)来围绕业务场景解决数据质量和安全问题。
  • 智能算法团队:为数据分析、业务探索提供智能和算法工具。

数据中台的核心价值是什么

  • 创新力—-帮助企业用数据思维激活行业沉淀,形成发展新动力。业务人员和技术人员需要从各自不同角度去发掘业务价值,并将业务价值转变为更接地气的用户角度的东西,易懂易用易理解,用户才会接受。
  • 场景驱动—-外部环境及内部业务调整,快速适应不断变化的需求。场景驱动需要将被动变成主动,问题发生时,能够基于数据资产体系及服务体系的积累快速给出响应。
  • 经验沉淀—-资产价值挖掘过程中,需将经验转换为数据资产体系的一部分。业务方通过对场景的理解,快速选择所需的数据能力验证数据价值,验证过程及结果数据,做为数据资产沉淀的重要部分,回馈到数据中台中,做为持续优化的关键能力。

从以上三点,我们可看出数据中台依托的是企业的内外部的业务需求驱动,自身创新挖掘以及根据业务场景进行驱动创新来赋能业务应用,这个过程是一个循环的过程,需要将这种过程资产形成经验积累下来,以此更好的打造数据中台的适应能力。

出处:https://zhuanlan.zhihu.com/p/88537265

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/119542.html原文链接:https://javaforall.net

(0)
上一篇 2021年11月22日 下午4:00
下一篇 2021年11月22日 下午4:00


相关推荐

  • PhpStorm-2021.3.2 激活码破解方法

    PhpStorm-2021.3.2 激活码破解方法,https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

    2022年3月15日
    92
  • python怎么实现检验_python实现KMO检验和Bartlett’s球形检验

    python怎么实现检验_python实现KMO检验和Bartlett’s球形检验1.KMOKMO(Kaiser-Meyer-Olkin)检验统计量是用于比较变量间简单相关系数和偏相关系数的指标。主要应用于多元统计的因子分析。KMO统计量是取值在0和1之间。使用说明:Kaiser给出了常用的kmo度量标准: 0.9以上表示非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合。KMO统计量是取值在0和1之间。当所有变量间的简单相关系数平方和远远大于…

    2022年6月17日
    45
  • 实例讨论数据可视化的配色思路怎么写_配色分析案例

    实例讨论数据可视化的配色思路怎么写_配色分析案例引子有一数据集如下:数据解读:研究对象的目标层A分为B1,B2,B3三个准则层;B1层下有C1,C2,C3,C44个指标;B2层下只有C5一个指标;B3层有C6,C7,C83个指标。指标权重是该指标在所属准则层的权重;组合权重是该指标在目标层的权重。现在,要绘制上述数据的“组合权重”的饼图。如何给这个饼图配色呢?数据可视化配色的误区下图是群友绘制的图:他自己对结果不满意,他认为是颜色搭配太丑。我们来看看,他的配色问题出在哪:颜色太

    2022年10月2日
    4
  • 关于write()和fsync()

    关于write()和fsync()writessize_twrite(intfd,constvoid*buf,size_tcount);将数据写到文件中.注意,如果文件是保存在硬盘中,write()函数调用返回之后,并不表示数据已经写入到硬盘中,这时如果掉电,数据可能会丢失.fsyncintfsync(intfd);程序调用本函数,通知内核把数据写到硬盘(file)中.比如,…

    2022年5月31日
    53
  • 一分钟速算口诀_速算口诀表完整版

    一分钟速算口诀_速算口诀表完整版“一分钟速算口诀”:两位数相乘,在十位数相同、个位数相加等于10的情况下,如62×68=4216计算方法:6×(6+1)=42(前积),2×8=16(后积)。一分钟速算口诀中对特殊题的定理是:任意两位数乘以任意两位数,只要魏式系数为“0”所得的积,一定是两项数中的尾乘尾所得的积为后积,头乘头(其中一项头加1的和)的积为前积,两积相邻所得的积。如(1)33×46=1518(个位数相加小于10,所以十

    2025年8月9日
    5
  • 重绘与回流_html回流重绘

    重绘与回流_html回流重绘文章目录css图层图层创建的条件重绘(Repaint)回流触发重绘的属性触发回流的属性常见的触发回流的操作优化方案requestAnimationFrame—-请求动画帧写在最后css图层浏览器在渲染一个页面时,会将页面分为很多个图层,图层有大有小,每个图层上有一个或多个节点。也就是我们各种各样的Dom标签在渲染DOM的时候,浏览器所做的工作实际上是:1.获取DOM后分割为多个图层2.对每个图层的节点计算样式结果 (Recalculatestyle–样式重计算)3.为每个节点生

    2025年8月5日
    6

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号