kettle工具使用一二三[通俗易懂]

kettle工具使用一二三[通俗易懂]1:关于ID生成器。如果一个转化流程里的两个分支分别使用了GenerateID组件,请注意“计数器名称”,这个很重要。1)如果改名字不同,则最总汇总结果中的id是会分别生成的,也就是说会出现重复的id。2)如果名字相同,最终结果中id是不会重复的。2:关于序列生成器首先抱歉,上面所说的“GenerateID“组件,其实指的就是序列生成器。kettle5.3中包含两个序列生成器组件,一个…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用
1: 关于ID生成器。


如果一个转化流程里的两个分支分别使用了Generate ID组件, 请注意“计数器名称”,这个很重要。


1) 如果改名字不同,则最总汇总结果中的id是会分别生成的,也就是说会出现重复的id。

2) 如果名字相同,最终结果中id是不会重复的。

2:关于序列生成器
首先抱歉,上面所说的“Generate ID“组件,其实指的就是序列生成器。
kettle5.3中包含两个序列生成器组件,一个是”增加序列“,一个是”根据字段值来改变序列“。
1)增加序列
有两种用法:
a. 使用数据库来生成序列。
这种用法是需要连接数据库,如oracle,并且指定一个sequence名。其原理是利用数据库本身的功能来辅助生成序列。
b. 使用转换计数器来生成序列
通常指定一个”计数器名称”,并指定起始值、步进值、最大值三个参数。可见,其用法与在数据库里创建sequence相同。
2)根据字段值来改变序列
这个生成器的核心用法在于, 根据上个步骤的输出流(对生成器来说是输入流)的某一个或几个字段的变化来生成序列。对于输入流,如果指定的某一个或某几个字段的值没有变化,那么序列生成器会从起始值开始,根据规则来生成序列;如果变化了,序列生成器则从起始值重新开始生成序列。

应用场景,参看这样的输入流图例:

kettle工具使用一二三[通俗易懂]

发现”group“字段具有重复性,如果要依据每个不同的group值来重新生成序列,序列生成器的配置可以如下:

kettle工具使用一二三[通俗易懂]

在序列器编辑中,指定”group“字段作为是序列器是否重新从起始值开始的判断依据。

最终生成的数据如下:

kettle工具使用一二三[通俗易懂]

序列生成器的用法解释到此结束。

2:关于分析查询组件(analytic query)
这个组件的作用相当奇特,它可以在一个输入流中根据当前数据行往上回溯或者往下预查询一个数据行(一条记录)中的某些字段的值,回溯或者预查询的位置能以参数的方式指定。
另一个奇特之处在于,它可以在输入流中指定一个或多个字段,然后依据这些字段对输入流中的数据进行分组。依据当前数据行的位置, 回溯或者预查询其它数据行的字段的值时,同时还要参考分组字段的值是否有变化。 如果回溯或者预查询的数据行的分组字段跟当前行不同,那么返回null,否则的话返回确定的值。
以上是该组件的核心用法,需多读并用心理解。
以下举例说明。
测试表简短说明:
一个教师信息表中有rownum字段,代表数据行号; 另一个字段是教师能力Faculty字段(取值01,02,03等)。 很多教师都拥有相同的Faculty值。 

接下来配置分析查询组件,如图:

kettle工具使用一二三[通俗易懂]

在分组字段加入Faculty字段, 然后在“要取值的字段“中指定要回溯或者要预查询的字段名。 ”新增加的字段“的意思是,回溯或者预查询的字段的值将以什么字段名显示在本条数据里。“类型”里要指明是向前还是向后查询,N的意思不用解释了吧,相信聪明的你一定看的懂。

下面给出一个执行的样例:

kettle工具使用一二三[通俗易懂]

上图中,LEAD_SEQ代表向前2行seqence字段的值,LAG_SEQ代表向后两行sequence的值,LEAD4_SEQ代表向前4行sequence的值。 请千万注意该值的变化,有Faculty字段在起作用。

该组件讲解完毕。



版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/182623.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • vscode php 代码提示 自动完成

    vscode php 代码提示 自动完成原来一直用phpstorm感觉挺强大的,但phpstorm是收费的,很麻烦。现在用vscode,发现代码提示功能比phpstorm还要强大,还要好用。php相关插件:PHPIntelephense:代码提示插件TabNine:AI代码提示,非常强大,它支持23种编程语言、5种编辑器PHPNamespaceResolver:PHP命名空间解析器;可以导入和扩展类;PHPDocBlocker:注释自动生成器,/**回车?优秀,必装。…

    2022年9月1日
    17
  • linux hexdump命令_hexdump用法

    linux hexdump命令_hexdump用法Linux中hexdump命令简介hexdump主要用来查看“二进制”文件的十六进制编码。*注意:它能够查看任何文件,不限于与二进制文件。*语法hexdump[选项][文件]…选项-nlength:格式化输出文件的前length个字节-C:输出规范的十六进制和ASCII码-b:单字节八进制显示-c:单字节字符显示-d:双字节十进制显示-o:双字节八进制显示-…

    2022年4月19日
    184
  • 【微信开放平台】微信第三方扫码登录(亲测可用)「建议收藏」

    【微信开放平台】微信第三方扫码登录(亲测可用)「建议收藏」开放平台需要企业认证才能注册,正好这次公司提供了一个账号,调通以后,就顺便写一篇博客吧。公众平台与开放平台的区别微信开放平台主要面对移动应用/网站应用开发者,为其提供微信登录、分享、支付等相关权限和服务。微信公众平台微信公众平台用于管理、开放微信公众号(包括订阅号、服务号、企业号),简单的说就是微信公众号的后台运营、管理系统。这里想吐槽一下,微信基本注册全都要邮箱,公众号一…

    2022年6月4日
    138
  • Pytest(6)重复运行用例pytest-repeat「建议收藏」

    Pytest(6)重复运行用例pytest-repeat「建议收藏」前言平常在做功能测试的时候,经常会遇到某个模块不稳定,偶然会出现一些bug,对于这种问题我们会针对此用例反复执行多次,最终复现出问题来。自动化运行用例时候,也会出现偶然的bug,可以针对单个用例,

    2022年7月29日
    6
  • OHEM算法及Caffe代码详解

    OHEM算法及Caffe代码详解这是CVPR2016的一篇论文,用于目标检测,本篇博文先介绍这个算法,然后介绍其Caffe代码。论文:TrainingRegion-basedObjectDetectorswithOnlineHardExampleMining论文链接:https://arxiv.org/abs/1604.03540算法概述:OHEM(onlinehardexampleminiing)算法的

    2022年5月22日
    37
  • 广东电信最新DNS更新了[通俗易懂]

    广东电信最新DNS更新了[通俗易懂]原来广东电信最新dns更新了!记录一下,方便以后查找!运行超过10年时间的广东地区骨干dns域名服务器系统:202.96.128.68,因严重超负荷运作多年,从12月3日开始正式迁移,共分一个月时间,全省范围内的电信用户(包括宽、窄带、专线用户)将采用新的域名服务器。中国电信广州用户“首选dns服务器”为:61.144.56.100“备用dns服务器”为:61.144.56.101中…

    2022年7月11日
    58

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号