大数据——数仓分层

大数据——数仓分层首先需要理解数仓分层的概念并不是客观存在的 它是多数人的主观的臆断 所谓存在即合理 之所以要怎么分层就是很多人一开始就这么分 然后一致使用下来发现也跟预想的一样 于是 就有了数仓的层次概念 清晰数据结构 每一个数据分层都有它的作用域和职责 在使用表的时候能更方便地定位和理解减少重复开发 规范数据分层 开发一些通用的中间层数据 能够减少极大的重复计算统一数据口径 通过数据分层 提供统一的数据出口 统一对外输出的数据口径复杂问题简单化 将复杂的任务分解成多个步骤来完成 每一层只处理单一的步骤 比较简单和容易理解

数仓项目数仓分层

1、为什么要数仓分层?

(1)数仓分层存在性:

首先需要理解数仓分层的概念并不是客观存在的,它是多数人的主观的臆断;所谓存在即合理,之所以要怎么分层就是很多人一开始就这么分,然后一致使用下来发现也跟预想的一样。于是,就有了数仓的层次概念。

(2)数仓分层的好处:

  • 清晰数据结构:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解
  • 减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算
  • 统一数据口径:通过数据分层,提供统一的数据出口,统一对外输出的数据口径
  • 复杂问题简单化:将复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。当数据出现问题之后,不用修复所有的数据,只需要从有问题的步骤开始修复。
  • 屏蔽原始数据的异常:不必改一次业务就需要重新接入数据。

2、数仓层级分类

大数据——数仓分层
  1. ODS层(Operational Data Source 操作数据源):这一层的数据绝大部分都是直接从业务数据通过增量或者全量拉过来的,数据基本和业务库是一致的。考虑到以后数据追溯的问题,这一层测数据最好不要做任何过多的数据清洗,清洗过程一般放在DWD层例如:电商行业中的每天的订单详情表、APP页面的点击、曝光、埋点数据详情表;
  2. DWD层(Data Warehouse Detail 数据明细层):该层一般保持和ODS层一样的数据粒度,对ODS层中的数据进行脱敏、剔脏等动作,一般不影响数据结构,仅仅对数据的条数产生影响;例如:剔除用户信息表中性别不应该出现除男女以外的数据【只是举个例子,对于性别这种表单,一般采取的选择的形式,不会让用户自行发挥】
  3. DWM层(Data Warehouse middle 数据中间层):根据DWD中的数据进行简单的聚合处理形成的中间层数据,这部分数据一般具备初步的统计意义和常用属性;例如:用户各品类的购买金额、累积消费额等等;
  4. DWS层(Data Warehouse Service 数据服务层):该层也称为主题层,也就是我们常说的宽表。该层的数据已经具备分类主题,且对应的表的数量相对较少。例如:按照业务区分商品主题、供应链主题、用户主题、流量主题等等;
  5. ADS层(Application Data Service 数据应用层):该层的数据就是根据数据报表的需求,用了做报表展示、公司周报、月报、季报和年报等等;常用的BI工具有:PowerB、FineBI、Tableau、Oracle Apex等;
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/224663.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月17日 上午11:26
下一篇 2026年3月17日 上午11:26


相关推荐

  • 一、SpringBoot+MybatisPlus+P6spy环境搭建

    一、SpringBoot+MybatisPlus+P6spy环境搭建

    2021年7月12日
    90
  • DRF 3.x Filtering 过滤使用示例和配置方法

    DRF 3.x Filtering 过滤使用示例和配置方法重写 BaseFilterBa 并重写 filter queryset self request queryset view 方法 该方法应返回一个经过过滤的新查询集 除了允许客户端执行搜索和过滤外 通用过滤器后端对于限制对任何给定请求或用户应可见的对象也很有用 仅允许用户查看自己对象的过滤器

    2026年3月19日
    2
  • C++共享内存实现

    C++共享内存实现服务端 1 创建共享内存区域 nbsp 2 内存映射到当前进程 3 写入数据 include stdafx h include lt windows h gt include lt iostream gt usingnamespa defineBUF SIZE4096intm 定义共享数据 charszBuffer

    2026年3月17日
    1
  • Stata如何快速安装外部命令

    Stata如何快速安装外部命令Stata 如何快速安装外部命令来自微信公众号 TidyFridy1 之前在安装 Stata 外部命令时 访问外网速度很慢 安装 SSC 外部命令没有成功 出现过 stacktraceno 的提示 解决办法 Stata 的安装文件夹都需要是英文的 不能有中文字符 换成英文路径就好了 2 通过 tssc 命令安装成功两个外部命令 outreg2 和 synthtsscins 还有其他安装命令的方法如从 net 和 ssc

    2026年3月26日
    2
  • noip宝藏_拼图寻宝图书馆

    noip宝藏_拼图寻宝图书馆寻宝#include<bits/stdc++.h>usingnamespacestd;constintN=10009,M=109;intn,m,a[N][M],num[N][M],qty[N];intmain(){ scanf(“%d%d”,&n,&m); for(inti=1;i<=n;i++){ for(intj=0;j<m;j++){ scanf(“%d%

    2022年8月22日
    4
  • 增长思维和增长黑客_黑客手册中文版

    增长思维和增长黑客_黑客手册中文版原书:《增长黑客手册——如何用数据驱动爆发式增长》点击图片可放大查看(放大后上下滑动查看)

    2025年12月13日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号