ETL开发流程小记(1)[通俗易懂]

ETL开发流程小记(1)[通俗易懂][原创]ETL开发流程随笔ETL开发ETL工作目标ETL工作目的主要有:ETL工作流程准备工作ETL设计ETL开发ETL测试功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章U…

大家好,又见面了,我是你们的朋友全栈君。

ETL开发

数据仓库ODS到DWD的ETL工作流程记录

ETL工作目标

目前我们做销售主题域下的ODS-DWD层的ETL工作,我准备把 工作中遇到的问题和想法记录下来,好的开始我们的主题

ETL工作目的主要有:

		1.源系统ERP各城市库的整合
		2.每个城市不同规则的统一、数据转换
		3.数据缺失值的处理(填充的规则怎么定)
		4.异常值的处理
		5.内容中不该出现或者存在的字符处理(寻找我们应用的数据的前端校验设计是否良好)
		6.去重处理
		还有个问题是 例如 房源表在其他系统中是否存在我们想要的数据

ETL工作流程

准备工作

逻辑设计

ETL脚本开发

脚本自测

  • 准备工作-ETL设计-脚本开发-脚本自测

准备工作

1.各城市库整合,按城市分区过程中收集各城市系统存在的数据格式不统一的问题	ETL设计-数据格式需求.doc2.准备好 数据仓库dwd层建表DDL	-->	销售主题域DW层定版-20191119.xlsx	其中包含维度表、事实表的数据字典、修改日志、字段的ddl 构成语句	数据仓库数据字典0802.xlsx	为源系统的数据字典3.审核确定事实维度表的加载策略,变更内容、变更记录4.清洗规则说明.doc5.脚本规范说明6.脚本模版说明

ETL开发上线包

主要任务介绍上线包文件组成

ETL开发模版统一和规范

  • 统一出事和周期开发脚本模版
  • 统一数据处理变更脚本模版
  • 统一应用开发脚本模版
  • 统一Sql 文件脚本模版
  • 统一ETL逻辑设计文档模版
  • 规范类型转换
  • 规范脚本测试和自测
  • 规范自动调度系统配置

ETL设计

  • 主要任务:
    完成ETL过程设计
    (数据整合、转换、清洗、数据勘查的设计)
    • 输出:
      数据缺失异常值校验.xlsx
      ETL映射表.xlsx
      ETL实施方案.xlsx
    • 此表中包含
      ods层到dwd 或者中间表的 映射
      ETL工作者归属
      每个表的清洗、整合逻辑记录在此表

ETL开发

  • 主要任务:
    根据ETL设计的逻辑开发脚本
    • 输入:
      数据仓库数据字典0802.xlsx
      ETL映射表.xlsx
      ETL实施方案.xlsx
      销售主题域DW层定版-20191119.xlsx
    • 输出:
      初始化/周期/数据处理/代码表/sql脚本/mapreduceJob/sparkJob

ETL测试

自动调度系统配置

待完善

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/133057.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Window 平台下添加 tree 命令[通俗易懂]

    Window 平台下添加 tree 命令[通俗易懂]在WIndow平台下,系统自带的命令行工具CMD可以使用dir命令来以树结构打印目录文件,Powershell工具可以使用tree命令。但是,一般为了开发方便,通常会使用更接近Linux命令的Git-Bash作为常用的命令行工具,然而Git-Bash却不支持tree命令。以下为给Window平台下Git-Bash添加tree命令的方法。tree获取路…

    2022年7月24日
    36
  • 彻底理解js中的闭包

    彻底理解js中的闭包闭包是js的一个难点也是它的一个特色,是我们必须掌握的js高级特性,那么什么是闭包呢?它又有什么用呢?我们都知道,js的作用域分两种,全局和局部,基于我们所熟悉的作用域链相关知识,我们知道在js作用域环境中访问变量的权利是由内向外的,内部作用域可以获得当前作用域下的变量并且可以获得当前包含当前作用域的外层作用域下的变量,反之则不能,也就是说在外层作用域下无法获取内层作用域下的变量,同样在不同的…

    2022年6月24日
    23
  • Ubuntu16.04忘记用户登录密码以及管理员密码,重置密码的解决方案[通俗易懂]

    Ubuntu16.04忘记用户登录密码以及管理员密码,重置密码的解决方案[通俗易懂]1.问题现象:由于自己想修改一下当前用户名,结果乱改了部分配置文件导致登陆时,原先的密码失效2.问题原因问题原因,搞不懂,只是修改了/etc/shadow和/etc/sudoers这俩文件3.解决方案在系统开机前常按shift键进入grub界面,如下:选择*ubuntu高级选项按enter键进入如下界面通过up键和down键选中recoverymode…

    2022年9月29日
    2
  • 计算机网络之TCP/UDP协议详解[通俗易懂]

    计算机网络之TCP/UDP协议详解[通俗易懂]深度理解TCP/IP1.TCP基础知识1.1什么是TCP?1.2什么是TCP连接?1.3TCP协议段格式1.4TCP主要特点2.UDP基础知识2.1UDP是什么?2.2UDP的协议段格式2.3UDP的主要特点2.4UDP的缓冲区3.TCP和UDP区别总结4.TCP保证可靠的机制4.1重传机制(这里只说了超时重传)4.2滑动窗口4.3流量控制4.3拥塞控制1.TCP基础知识1.1什么是TCP?TCP是⾯向连接的、可靠的、面向字节流的传输层通信协议面向连接:只能一对一连接,

    2022年5月9日
    36
  • itoa函数,srpintf()函数 ,atoi函数

    itoa函数,srpintf()函数 ,atoi函数

    2021年9月27日
    84
  • platform_driver_register 与 platform_device_register「建议收藏」

    platform_driver_register 与 platform_device_register「建议收藏」
    platfrom_driver_register()是在设备注册时进行绑定的.以USB为例:先插上USB设备并挂到总线上,然后在安装USB设备驱动的过程中,从总线上遍历各个设备,看是否有与驱动相匹配的设备,如果有,则两者绑定,就是platfrom_driver_register()
     
    platfrom_device_register()是在驱动注册时进行绑定的.以USB为例:先安装USB驱动程序,然后当USB设备插入时,就遍历总线上各个驱动,看两者是否匹配,如果相配则

    2022年7月14日
    20

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号