kettle教程二

kettle教程二转载:http://www.cnblogs.com/limengqiang/archive/2013/01/16/KettleApply2.html1、应用场景这里简单概括一下几种具体的应用场景,按网络环境划分主要包括:表视图模式:这种情况我们经常遇到,就是在同一网络环境下,我们对各种数据源的表数据进行抽取、过滤、清洗等,例如历史数据同步、异构系统数据交互、数据对称发布或备份等都归属于这…

大家好,又见面了,我是你们的朋友全栈君。

转载:http://www.cnblogs.com/limengqiang/archive/2013/01/16/KettleApply2.html

1、应用场景

这里简单概括一下几种具体的应用场景,按网络环境划分主要包括:

  • 表视图模式:这种情况我们经常遇到,就是在同一网络环境下,我们对各种数据源的表数据进行抽取、过滤、清洗等,例如历史数据同步、异构系统数据交互、数据对称发布或备份等都归属于这个模式;传统的实现方式一般都要进行研发(一小部分例如两个相同表结构的表之间的数据同步,如果sqlserver数据库可以通过发布/订阅实现),涉及到一些复杂的一些业务逻辑如果我们研发出来还容易出各种bug;

  • 前置机模式:这是一种典型的数据交换应用场景,数据交换的双方A和B网络不通,但是A和B都可以和前置机C连接,一般的情况是双方约定好前置机的数据结构,这个结构跟A和B的数据结构基本上是不一致的,这样我们就需要把应用上的数据按照数据标准推送到前置机上,这个研发工作量还是比较大的;

  • 文件模式: 数据交互的双方A和B是完全的物理隔离,这样就只能通过以文件的方式来进行数据交互了,例如XML格式,在应用A中我们开发一个接口用来生成标准格式的XML,然后用优盘或者别的介质在某一时间把XML数据拷贝之后,然后接入到应用B上,应用B上在按照标准接口解析相应的文件把数据接收过来;

综上3种模式如果我们都用传统的模式无疑工作量是巨大的,那么怎么做才能更高效更节省时间又不容易出错呢?答案是我们可以用一下Kettle-_-!

2、DEMO实战

2、1 实例1:数据库TestA中的UserA表到数据库TestB的UserB表

1)为方便演示,我这边把Sql脚本贴出来,大家直接复制在sqlserver中运行即可,sql脚本如下:

kettle教程二
简单表之间交换

 

2)Kettle实现方式

功能简述:数据库TestA中的UserA表到数据库TestB的UserB表;

实现流程:建立一个转换和一个作业Job;

A:建立一个转换:打开Kettle.exe,选择没有资源库,进入主界面,新建一个转换,转换的后缀名为ktr,转换建立的步骤如下:

步骤1:创建DB连接,选择新建DB连接,如下图,我们输入相应的Sqlserver配置信息之后点击Test按钮测试是否配置正确!

kettle教程二

我们需要建立两个DB连接,分别为TestA和TestB;

步骤2:建立步骤和步骤关系,点击核心对象,我们从步骤树中选择【表输入】,如下图,这样拖拽一个表输入之后,我们双击表输入之后,我们自己可以随意写一个sql语句,这个语句表示可以在这个库中随意组合,只要sql语句没有错误即可,我这里只是最简单的把TestA中的所有数据查出来,语句为select * from usersA。

kettle教程二

接下来我们创建另外一个步骤【插入/ 更新】,然后在【表输入】上同时按住shift键和鼠标左键滑向【插入/ 更新】,这样建立两个步骤之间的连接,【插入/ 更新】执行的逻辑是如果UserA表中的记录在UserB中不存在那么就插入,如果存在就更新,如下图,在插入更新中我们可以做一些关键条件和字段映射,这里我们是最简单的!点击保存,把我们建立的转换保存一下。

kettle教程二

建立好转换之后,我们可以直接运行这个转换,检查一下是否有错,如图,有错误都会在下面的控制台上输出。

kettle教程二

B:如果我们需要让这个转换定时执行怎么办呢,那么我们需要建立一个作业job,见下图,在简单表同步这个转换中,我们把在A步骤中建立的ktl配置上,注意路径的正确性;

kettle教程二

这样我们在【Start】步骤上面双击,如图:

kettle教程二

这样这个作业就制定好了,点击保存之后,我们就可以在图形化界面上点击开始执行了!

2、2 实例2:全面进阶的一个稍微复杂的例子

根据客户,帐户,交易表中的数据,生成对应的数据文件,将数据文件可以导入到对应表中,并且可以用job来调用整个流程。
目标:
1),提交对应的Kettle文件
2),Kettle流程可以正确执行,不报错
3),对应的数据文件生成并格式无误,对应表中有数据并格式无误
说明:
源表:数据库etltest中存在3张表:
kettle教程二
目标表:etltest中一张表
kettle教程二
 
Kettle具体解决方式,步骤比较繁琐,大家可以直接到下载中下载Demo数据库文件和ktr、kjb来实战测试,这样是最好的,下面的操作仅供参考,转换预览图如下:
kettle教程二

操作步骤:
在EtltestTrans页面下,点击左侧的【Core Objects】,点击【Input】,选中【表
输入】,拖动到主窗口释放鼠标。
双击【表输入】图标
数据库连接选择刚刚创建好的etltest数据库连接,在主窗口写入对应的查询
语句
Select * from trade ,如下图:

kettle教程二

点击确定完成。
点击左侧的【Lookup】,选中【数据库查询】,拖动到主窗口释放鼠标。
按住shift键,用鼠标点中刚才创建的【表输入】,拖动到【数据库查询】上,
则建立了两个环节之间的连接,如图:

kettle教程二

双击【数据库查询】

步骤名称写入account 表查询,数据库连接选择刚刚创建好的etltest 数据库
连接,查询的表写入account,查询所需的关键字中,表字段写入acctno,比较
操作符写入“=”,字段1写入acctno。
在查询表返回的值里面写入custno,确定完成,如下图:

kettle教程二
同上,再创建一个数据库查询,命名为cust表查询,查询的表写入cust,查
询所需的关键字写入custno=custno,查询表返回的值写入custname,custid,
custtype,如下图:

kettle教程二
点击左侧的【Transform】,选中【过滤记录】,拖动到主窗口释放鼠标。
点击左侧的【Scripting】,选中两个【Modified Java Script Value】,拖动到主窗
口释放鼠标。分别双击打开,重命名为“对公类型修改”和“对私类型修改”。
同时,分别创建【过滤记录】和【对公类型修改】,【对私类型修改】的连接。
双击【规律记录】打开。
第一个<field>里面选择custtype,点击<value>,在Enter value 里面写入1,
确定,如图:

kettle教程二
在发送true数据给步骤里,选择【对私类型修改】,在发送false数据给步骤
里,选择【对公类型修改】,确定保存,如图:

kettle教程二
双击【对公类型修改】,在里面写入javascript 脚本语句
var custtype_cn=’对公客户交易’
在字段中写入custtype_cn,类型选为string。确定。
同理,在【对私类型修改】中,在里面写入javascript脚本语句
var custtype_cn=’对私客户交易’
在字段中写入custtype_cn,类型选为string。确定。
点击左侧的【Transform】,选中两个【增加常量】,拖动到主窗口释放鼠标。
分别双击打开,重命名为“增加对公常量”和“增加对私常量”。
分别建立【对公类型修改】和【对私类型修改】与【增加对公常量】和【增
加对私常量】的连接,如图:

kettle教程二
双击【增加对公常量】,名称写入value,类型选择string,值写入“这是一
笔对公客户发生的交易”,确定保存。
同理,双击【增加对私常量】,名称写入value,类型选择string,值写入“这
是一笔对私客户发生的交易”,确定保存。
点击左侧的【Output】,选中【文本文件输出】,拖动到主窗口释放鼠标。
建立【增加对公常量】,【增加对私常量】和【文本文件输出】的连接,如图:

kettle教程二
双击打开【文本文件输出】,文件名称写入D:\etltest\etltest.txt
点击内容标签,根据情况进行修改,例如
点击字段标签
名称依次写入tradeid,acctno,amt,custno,custname,custid,custtype_cn,
value,类型根据各个字段实际类型进行选择
确定保存
点击保存创建好的transformation。
点击运行这个转换。
点击launch,开始运行
当所有状态都变已完成时,则转换完成,如图:

kettle教程二

3、Demo下载

例子1和例子2下载

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/142522.html原文链接:https://javaforall.net

(0)
上一篇 2022年5月23日 下午4:00
下一篇 2022年5月23日 下午4:00


相关推荐

  • 性能测试包括哪些测试?

    性能测试包括哪些测试?

    2026年3月19日
    2
  • ROC及AUC计算方法及原理「建议收藏」

    ROC及AUC计算方法及原理「建议收藏」1.非均衡分类问题在大多数情况下不同类别的分类代价并不相等,即将样本分类为正例或反例的代价是不能相提并论的。例如在垃圾邮件过滤中,我们希望重要的邮件永远不要被误判为垃圾邮件,还有在癌症检测中,宁愿误判也不漏判。在这种情况下,仅仅使用分类错误率来度量是不充分的,这样的度量错误掩盖了样例如何被错分的事实。所以,在分类中,当某个类别的重要性高于其他类别时,可以使用Precison和Recall多个比…

    2022年5月13日
    57
  • TCP-IP详解:Nagle算法

    TCP-IP详解:Nagle算法SmallPacketP 在使用一些协议通讯的时候 比如 Telnet 会有一个字节字节的发送的情景 每次发送一个字节的有用数据 就会产生 41 个字节长的分组 20 个字节的 IPHeader 和 20 个字节的 TCPHeader 这就导致了 1 个字节的有用信息要浪费掉 40 个字节的头部信息 这是一笔巨大的字节开销 而且这种 Smallpacket 在广域网上会增加拥塞的出现

    2026年3月18日
    1
  • 前端学到什么程度可以找到工作(应届毕业生有什么优势)

    目录1.前端开发下载安装VScode优化配置2、插件安装3、设置字体大小4、开启完整的Emmet语法支持5、视图2.Node.js入门2.1、什么是Node.js2.2、Node.js有什么用2.3、安装下载:2.4、快速入门2.5、服务器端应用开发3、ES6入门3.2、let声明变量3.3、const声明常量3.4、解构赋值创建3.5、模板字符串创建3.6、声明对象简写创建3.7、定义方法简写3.8、对象拓展

    2022年4月16日
    50
  • 敏捷开发(scrum)简介

    敏捷开发(scrum)简介敏捷开发 scrum 是一种软件开发的流程 强调快速反应 快速迭代 价值驱动 Scrum 的英文意思是橄榄球运动的一个专业术语 表示 争球 的动作 运用该流程 你就能看到你团队高效的工作 一 四大价值观 特点 敏捷开发的特点就是下面 4 句话 个体与交互 胜过 过程与工具 可以工作的软件 胜过 面面俱到的文挡 客户协作 胜过 合同谈判 响应变化 胜过 遵循计划 说明 1 敏捷开发 scrum 适用于竞争激烈 快速变化的市场 敏捷的客户协作观念 快速迭代能帮助团队以最小成本 最快速

    2026年3月18日
    2
  • 【网络知识补习】❄️| Cookie详解 和 Document.cookie使用文档+运行实例「建议收藏」

    【网络知识补习】❄️| Cookie详解 和 Document.cookie使用文档+运行实例「建议收藏」Cookie详解什么是Cookie?Cookie是一些数据,存储于你电脑上的文本文件中。当web服务器向浏览器发送web页面时,在连接关闭后,服务端不会记录用户的信息。Cookie的作用就是用于解决“如何记录客户端的用户信息”:当用户访问web页面时,他的名字可以记录在cookie中。在用户下一次访问该页面时,可以在cookie中读取用户访问记录。Cookie以名/值对形式存储,如下所示:username=JohnDoe当浏览器从服务器上请求web

    2022年7月20日
    22

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号