五个步骤教你数据清洗_数据仓库ods层

五个步骤教你数据清洗_数据仓库ods层关于ODS层是否做数据清洗一直是存在争议的,但有一点是可以确定的,对于比较重的清洗工作是要留到后面数仓的ETL过程中进行处理。但是,有这么一种情况:我们在长期的生产实际过程中,发现部分已知的数据问题的处理可以通过自动化的方式来处理,这种方式通常在数据入库之前,做额外的加工处理后再做入库操作。数据清洗的主要工作是处理那些不符合要求的数据,从而提升数据质量,比如一些常见的问题:错误的数据、重复的数据错误的数据这种错误通常是业务系统处理不够健全造成的,比如字符串数据后面有回车空格、日期格式不正确、日期

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

关于ODS层是否做数据清洗一直是存在争议的,但有一点是可以确定的,对于比较重的清洗工作是要留到后面数仓的ETL过程中进行处理。

但是,有这么一种情况:我们在长期的生产实际过程中,发现部分已知的数据问题的处理可以通过自动化的方式来处理,这种方式通常在数据入库之前,做额外的加工处理后再做入库操作。

数据清洗的主要工作是处理那些不符合要求的数据,从而提升数据质量,比如一些常见的问题:错误的数据、重复的数据

  • 错误的数据

这种错误通常是业务系统处理不够健全造成的,比如字符串数据后面有回车空格、日期格式不正确、日期越界等等,这些问题如果不在ODS层做处理,后续的解析处理过程中也是要留意处理的

  • 重复的数据

例如,一些前端系统迁移过后的新老表融合可能会存在大量的重复历史数据,这也可以在数据清洗这一步骤中完成消除重复数据的操作。需要注意的是,在数据清洗后还需要对ODS的数据做稽核,还需要对脏数据做稽核校验,脏数据的校验主要集中在数据量上,如果数据量波动特别大则需要人工介入处理。

其实,在大多数的情况下,是不需要做数据清洗处理的,可以把这个清洗环节放到后面的明细层ETL中进行处理。

我的建议是尽可能少作清洗,若是在这一层作清洗,建议只在几种状况下作清洗:

  • 简单的数据标准化,好比表和字段命名
  • 默认值填充,好比性别为空的都补0
  • 清洗规则十分明确,好比说说字段拆解:接收到的json数据拆成多个明确字段
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/185654.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 谷歌提示密码外泄_你不要把手机丢了泄露

    谷歌提示密码外泄_你不要把手机丢了泄露前不久,Google正式对外推出了基于Gmail的Google Buzz,以此重新进入了微博客和社交网络服务。Google Buzz可以认为是一个类似微博客的状态更新工具,用户可以在里面分享消息、图片

    2022年10月15日
    2
  • 写字板(Windows程序设计)

    写字板(Windows程序设计)前言c正编译生成debug,exe等文件,同样也可以通过exe"反编译"生成相对应的文件,一劳永逸,任君选择(`・ω・´)(~~我们老师为了给我们看要求效果给了

    2022年7月1日
    24
  • Android studio 一个项目引入另一个项目作为Libary「建议收藏」

    Android studio 一个项目引入另一个项目作为Libary「建议收藏」1.在我们开发Android项目时,有时需要一个项目作为另一个项目的工具类的引用,这样就需要配置下,使得MyLibrary到MyApplication作为一个module。我们直接截图上步骤:1.

    2022年8月5日
    9
  • Windows环境下Anaconda3安装配置pytorch详细步骤(踩坑汇总)

    Windows环境下Anaconda3安装配置pytorch详细步骤(踩坑汇总)【机器学习】Windows环境下Anaconda安装配置pytorch详细步骤(踩坑汇总)Anaconda安装Anaconda检验安装并配置基础环境Pytorch这次安装过程可以说是一波三折了,感觉几乎所有奇奇怪怪的问题都遇见了。感觉很少有遇见这么多问题的同学,所有索性汇总一下写出来给大家做个参考。因为也是我第一次写博客,所以希望大家多批评指正,我会虚心改正的哈。希望对大家有帮助!Anacon…

    2022年6月24日
    147
  • Mysql decimal详解

    Mysql decimal详解Mysqldecimal如何定义特点特点一详解如何定义decimal(totalCount,afterCount)参数说明totalCount:数字数量总和afterCount:小数点后数字数量总和特点每4字节存储9位数字,不足9位试具体位数决定占用空间最多存储65位数字,其中小数点前最多占35个,小数点后最多占30小数点占一字节最大空间占用为31字节特点一详解12(9+3)位数字,占6(4+2)位,3位数字最大值为999,1字节(28,256)<999

    2022年7月17日
    21
  • sublime text3激活码 2021【在线注册码/序列号/破解码】

    sublime text3激活码 2021【在线注册码/序列号/破解码】,https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

    2022年3月19日
    98

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号