数仓分层架构

数仓分层架构目录 1 分层的目的 2 一种通用的数据分层设计 3 各层涉及的计算引擎和存储系统 4 数据分层实现 4 1 数据基础层 4 2 数据中间层 1 分层的目的数仓分层是一套行之有效的数据组织和管理方法 使得数据体系更有序 数据结构更清晰每一个数据分层都有它的作用域和职责 在使用表的时候能更方便的定位和理解 减少重复开发规范数据分层 开发一些通用的中间层数据 能够减少极大的重复计算 统一数据口径通过数据分层 提供统一的数据出口 统一对外输出的数据口径 复杂问题简单化将一个复杂

1、分层的目的

数仓分层是一套行之有效的数据组织和管理方法,使得数据体系更有序。

① 数据结构更清晰

每一个数据分层都有它的作用域和职责,在使用表的时候能更方便的定位和理解。

② 减少重复开发

规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。

③ 统一数据口径

通过数据分层,提供统一的数据出口,统一对外输出的数据口径。

④ 复杂问题简单化

将一个复杂的任务分解成多个步骤完成,每一层解决特定的问题。

2、一种通用的数据分层设计

  • ODS:存放原始数据
    ?直接接入的原始日期数据
    ?从业务库直接同步而来的数据

  • DW:存放数仓中间层数据
    ?DWD:保留数据的原始粒度,在ODS的基础上,对数据进行加工和处理,提供更干净的数据
    ?DWM: 存放轻度汇总的数据,即保留的维度较多
    ?DWS:存放数据集市(宽表)数据,即高度汇总的数据
    在这里插入图片描述



  • APP:面向业务定制的应用数据
    ?业务个性化数据
    ?服务于特定的场景,复用性不强

3、各层涉及的计算引擎和存储系统

在这里插入图片描述

4、数据分层实现

我们常用的数据仓库的数据分层通常分为集市层、中间层、基础数据层上下三层结构。由传统的多层结构减少到上下三层结构的目的是为了压缩整体数据处理流程的长度,同时扁平化的数据处理流程有助于数据质量控制和数据运维。

在上下三层的结构的右侧,我们增加了流式数据,将其添加成数据体系的一部分。这是因为当前的数据应用方向会越来越关注数据的时效性,越实时的数据价值度越高。但是,由于流式数据集的采集、加工和管理的成本较高,一般都会按照需求驱动的方式建设;此外,考虑到成本因素,流式数据体系的结构更加扁平化,通常不会设计中间层。
在这里插入图片描述

4.1 数据基础层

  1. 数据采集:
  2. 数据清洗:
  3. 数据归类:
  4. 数据结构化:
  5. 数据规范化:

4.2 数据中间层

参考

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/207543.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月19日 下午1:39
下一篇 2026年3月19日 下午1:39


相关推荐

  • linux convert 添加文字,Linux convert命令有什么用

    linux convert 添加文字,Linux convert命令有什么用Linuxconvert命令有什么用?Linux强大的图片处理功能强大的convert命令—介绍他的主要原因也是应为编程语言在linux下都可以调用使用convent命令可以对图片进行各种处理-trim:裁剪图像四周空白区域;-transparentcolor:去除图像中指定的颜色;-densitygeometry:设定图像的DPI值,若不明DPI值的概念,可参考《有关pt,p…

    2022年7月16日
    13
  • 织梦获取当前栏目的父级栏目

    织梦获取当前栏目的父级栏目

    2021年9月24日
    45
  • scss、sass 和 css 的区别

    scss、sass 和 css 的区别项目中 会经常使用诸如 scss sass 的 style 样式 它们和 css 有什么区别呢 less 大家应该都不陌生 同样的 scss sass 一样 它们都可以称为 CSS 预处理器语言 简单来说 scss 和 sass 的区别 就在于文件扩展名不同 sass 和 scss sass 是以严格缩进式语法规则来书写的 不带大括号 和分号 而 SCSS 的语法和 CSS 书写

    2026年3月17日
    2
  • windows/linux 下iozone参数详解

    windows/linux 下iozone参数详解iozone是一个文件系统的benchmark工具,可以测试不同的操作系统中文件系统的读写性能。可以测试Read,write,re-read,re-write,readbackwards,readstrided,fread,fwrite,randomread,pread,mmap,aio_read,aio_write等等不同的模式下的硬盘的性能。测试的时候请注意…

    2025年7月26日
    7
  • eclipse 自动补全提示会卡死[通俗易懂]

    eclipse 自动补全提示会卡死[通俗易懂]这是Eclipse3.6版本的特有问题,想彻底解决此问题的话,还是建议换为3.5/3.4;在保持版本不变的前提下,可以按如下方法优化下:解决办法:1.找到你的JDK安装目录下的src.zip文件;2.打开eclipse:Window菜单->Preference->Java->InstalledJREs;3.在列表中选择你eclipse正在使用的JRE,然后Edit;

    2022年10月15日
    4
  • c语言rtp协议,RTP系列:RTP协议详解和分析

    c语言rtp协议,RTP系列:RTP协议详解和分析1、RTP概述实时传输协议(Real-timeTransportProtocol或简写RTP)是一个网络传输协议,作为因特网标准在RFC3550(该文档的旧版本是RFC1889)有详细说明。RFC3551(STD65,旧版本是RFC1890)详细描述了使用最小控制的音频和视频会议。RTP协议详细说明了在互联网上传递音频和视频的标准数据包格式。它一开始被设计为一个多播协议,但后来被用在…

    2022年6月28日
    76

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号