ETL开发流程小记(1)[通俗易懂]

ETL开发流程小记(1)[通俗易懂][原创]ETL开发流程随笔ETL开发ETL工作目标ETL工作目的主要有:ETL工作流程准备工作ETL设计ETL开发ETL测试功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章U…

大家好,又见面了,我是你们的朋友全栈君。

ETL开发

数据仓库ODS到DWD的ETL工作流程记录

ETL工作目标

目前我们做销售主题域下的ODS-DWD层的ETL工作,我准备把 工作中遇到的问题和想法记录下来,好的开始我们的主题

ETL工作目的主要有:

		1.源系统ERP各城市库的整合
		2.每个城市不同规则的统一、数据转换
		3.数据缺失值的处理(填充的规则怎么定)
		4.异常值的处理
		5.内容中不该出现或者存在的字符处理(寻找我们应用的数据的前端校验设计是否良好)
		6.去重处理
		还有个问题是 例如 房源表在其他系统中是否存在我们想要的数据

ETL工作流程

准备工作

逻辑设计

ETL脚本开发

脚本自测

  • 准备工作-ETL设计-脚本开发-脚本自测

准备工作

1.各城市库整合,按城市分区过程中收集各城市系统存在的数据格式不统一的问题	ETL设计-数据格式需求.doc2.准备好 数据仓库dwd层建表DDL	-->	销售主题域DW层定版-20191119.xlsx	其中包含维度表、事实表的数据字典、修改日志、字段的ddl 构成语句	数据仓库数据字典0802.xlsx	为源系统的数据字典3.审核确定事实维度表的加载策略,变更内容、变更记录4.清洗规则说明.doc5.脚本规范说明6.脚本模版说明

ETL开发上线包

主要任务介绍上线包文件组成

ETL开发模版统一和规范

  • 统一出事和周期开发脚本模版
  • 统一数据处理变更脚本模版
  • 统一应用开发脚本模版
  • 统一Sql 文件脚本模版
  • 统一ETL逻辑设计文档模版
  • 规范类型转换
  • 规范脚本测试和自测
  • 规范自动调度系统配置

ETL设计

  • 主要任务:
    完成ETL过程设计
    (数据整合、转换、清洗、数据勘查的设计)
    • 输出:
      数据缺失异常值校验.xlsx
      ETL映射表.xlsx
      ETL实施方案.xlsx
    • 此表中包含
      ods层到dwd 或者中间表的 映射
      ETL工作者归属
      每个表的清洗、整合逻辑记录在此表

ETL开发

  • 主要任务:
    根据ETL设计的逻辑开发脚本
    • 输入:
      数据仓库数据字典0802.xlsx
      ETL映射表.xlsx
      ETL实施方案.xlsx
      销售主题域DW层定版-20191119.xlsx
    • 输出:
      初始化/周期/数据处理/代码表/sql脚本/mapreduceJob/sparkJob

ETL测试

自动调度系统配置

待完善

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/133057.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 《老友记》典故集解 Season 1-10

    《老友记》典故集解 Season 1-10第一季第一集Mr.PotatoHead瑞秋和众人谈到了她逃婚的原因,她说这是因为她突然发现她的未婚夫巴里医生长得活像“薯头先生(Mr.PotatoHead)”,这是在美国家喻户晓的卡通人物。如果大家看过《玩具总动员(ToyStory)》,就会在里面发现他和他的夫人“薯头太太(Mrs.PotatoHead)”叽叽歪歪,经常批评这、批评那的形象。尽管“薯头先生”很…

    2022年7月11日
    17
  • Django设置超时时间_python获取当前时间戳

    Django设置超时时间_python获取当前时间戳前言我们都知道时区,标准时区是UTC时区,django默认使用的就是UTC时区,所以我们存储在数据库中的时间是UTC的时间,但是当我们做的网站只面向国内用户,或者只是提供内部平台使用,我们希望存储在

    2022年7月28日
    86
  • rabitmq,redis以及kafuka作为消息队列的区别[通俗易懂]

    rabitmq,redis以及kafuka作为消息队列的区别[通俗易懂]kafukakafuka涉及到的名词词意解释:Kafka作为时下最流行的开源消息系统,被广泛地应用在数据缓冲、异步通信、汇集日志、系统解耦等方面。相比较于RocketMQ等其他常见消息系统,Kafka在保障了大部分功能特性的同时,还提供了超一流的读写性能。针对Kafka性能方面进行简单分析,相关数据请参考:https://segmentfault.com/a/119000000398…

    2022年4月30日
    53
  • [Android-ARCore开发]ARCore从入门到放弃2-Demo介绍和扩展

    昨天只是简单运行了官方的Demo,今天抽时间看了下文档和代码,大概了解一下原理。Demo功能很简单,打开之后自动检测平面,手指触摸平面会在触摸位置放置一个机器人。检测平面成功后如下面截图所示,可以看到很多蓝色小点和平面的菱形网状图。蓝色点称为锚点,结合手机传感器用于追踪手机移动。详细原理介绍参考官网介绍网格、小点和机器人都是使用OpenGL在SurfaceView上绘制的,看代码发现,当手指点击时

    2022年3月11日
    43
  • 【转载】C#扫盲之:==/Equals /ReferenceEquals 异同的总结,相等性你真的知道吗?

    【转载】C#扫盲之:==/Equals /ReferenceEquals 异同的总结,相等性你真的知道吗?

    2021年11月20日
    48
  • JAVA能写大型游戏么?「建议收藏」

    JAVA能写大型游戏么?「建议收藏」JAVA能写大型游戏么?答:不能,所谓的大型游戏一般都是指端游。必须是C++这没办法C++和java的效率还是有很大差距的。在游戏业Java可以搞什么?那就是页游和手游的服务端了,页游的前端都是Flash,手游的前端是coco2dx(C++),unity3D(C#或JS)你可以看看37游戏墨麟集团上海易娱明朝网络动网先锋掌趣科技等等游戏公司他们都找Java游戏服务端的…

    2022年5月27日
    62

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号