Kettle — 使用手册

Kettle — 使用手册介绍 ETL 是 EXTRACT 抽取 TRANSFORM 转换 LOAD 加载 的简称 实现数据从多个异构数据源加载到数据库或其他目标地址 是数据仓库建设和维护中的重要一环 也是工作量较大的一块 Kettle 是 ETL 中其中一个开源工具 基于纯 Java 开发 kettle 有两种脚本 transformati 转换 和 Job 作业 Kettle 有三个主要组件 Spoon Kitchen P

介绍

ETL是EXTRACT(抽取)、TRANSFORM(转换)、LOAD(加载)的简称,实现数据从多个异构数据源加载到数据库或其他目标地址,是数据仓库建设和维护中的重要一环,也是工作量较大的一块。Kettle是ETL中其中一个开源工具,基于纯Java开发。

kettle有两种脚本transformation(转换)和Job(作业)

Kettle有三个主要组件:Spoon、Kitchen、Pan

         Spoon:是一个图形化的界面,可以让我们用图形化的方式开发转换和作业。windows选择Spoon.bat;Linux选择Spoon.sh

         Kitchen:利用Kitchen可以使用命令行调用Job

         Pan:利用Pan可以用命令行的形式调用Trans

         Carte:Carte是一个轻量级的Web容器,用于建立专用、远程的ETL Server。

声明

1.Kettle最早叫做Kettle,后来该名为PDI,不过大多数人还是习惯于叫Kettle

2.我们这里使用的版本是最新的Kettle 8.1的版本

3.说明一下Kettle的帮助文档可以在Spoon中找到,如果有任何问题可以去帮组文档中查找

Kettle — 使用手册

运行PDI Client(Spoon)

PDI Client启动分为两种:一种是安装包方式安装,然后在菜单栏中启动,这种方式并不是我们想要的。另外一种是通过解压zip包,然后通过启动脚本spoon.bat或者spoon.sh启动Spoon。

如果正确启动,则出现的主界面应该是下面这样的。

Kettle — 使用手册

界面整体功能的介绍在Spoon的帮助文档中有详细的介绍,下图中的章节。

Kettle — 使用手册

Kettle的使用流程

1.创建一个简单的转换

首先这个转换的事例是把testdb数据库中的t_user表的数据拷贝到test表数据库中的user表。

1)创建一个转换

Kettle — 使用手册

2)连接到testdb和test数据库

Kettle — 使用手册

连接好以后应该会在DB连接中出现两个数据库连接。

Kettle — 使用手册

3)在核心对象中拖入一个表输入

Kettle — 使用手册

并对表输入进行属性设置。

Kettle — 使用手册

4)然后在核心对象中拖入插入/更新组件

Kettle — 使用手册

5)按住shift从表输入到插入/更新

Kettle — 使用手册

6)然后在对插入/更新进行配置,在用来查询的关键字中需要设置连接的字段。

Kettle — 使用手册

7)最后保存,并运行这个转换,看看是否正确。

Kettle — 使用手册

2.创建一个简单的作业

这个作业就是将之前的转换以定时执行的方式运行。

1)拖入开始组件,这里设置的间隔时间的3分钟

Kettle — 使用手册

2)拖入转换组件,将刚刚保存的转换文件配置到Transformation属性中。

Kettle — 使用手册

3)点击运行按钮,运行配置的作业。

3.连接资源库

在实际的团队开发过程中,不可能将自己的转换、作业和调度等配置存放在自己的电脑中。而Kettle的资源库正可以将我们的转换、作业等存储下来,构成一种协作平台。

转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称。Kettle支持连接的资源库类型有三种:

         1.Pentaho Repository:使用的是Kettle公司自己的服务器,一般自己公司不会使用

         2.Database Repository:保存在数据库的资源库,通过用户名密码访问

         3.File Repository:保存的服务器硬盘的资源库,不用密码就可以使用

1)连接资源库

点击右侧的Connect按钮,打开资源连接的Dialog,这里我们需要选择Other Repository

Kettle — 使用手册

然后在选择Database Repository,如下所示。

Kettle — 使用手册

2)配置数据库连接,点击Database Connection进行配置

Kettle — 使用手册

3)完成配置后,点击finish即可。配置完成后,数据库中会多出一些表,选择Connect Now。

Kettle — 使用手册

4)选择连接后,我们需要输入用户名密码,即可连接到指定的资源库。注意,这里的用户名密码默认是admin/admin(管理员)或者guest/guest(访问者)。然后在title上会显示连接的资源库。

Kettle — 使用手册

注意:上面的连接配置不要使用中文,包括资源名等等。不然会出现资源库配置为灰色,而且没有Connect按钮。解决方案见Kettle常见错误。

4.使用资源库进行协作开发

1.转换或作业的导入导出

1)导入

当我们有转换或作业在外部需要导入到资源库时,我们可以选择文件—从XML文件导入,选择我们需要导入的文件。

Kettle — 使用手册

然后将文件保存,会弹出Save界面,选择保存的目录和文件名即可。

Kettle — 使用手册

2)导出

当我们需要将资源库中的作业和转换保存到本地使用时,我们可以选择文件—导出,进行导出。

Kettle — 使用手册

2.探索资源库

选择工具—资源库—探索资源库,可以连接到当前连接的资源库。

Kettle — 使用手册

下面就连接上的资源库。浏览Tab主要是资源库中存在的转换和作业

Kettle — 使用手册

在浏览的目录或者文件上可以进行以下的各种操作。在这里我实在是没有找不到access controll和历史版本查看的功能。

Kettle — 使用手册

3.资源连接库管理

在右侧的显示个人信息地方我们可以管理资源库。

Kettle — 使用手册

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/201246.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月20日 上午9:45
下一篇 2026年3月20日 上午9:45


相关推荐

  • docker部署mysql 实现远程连接[通俗易懂]

    1.dockersearchmysql查看mysql版本2.dockerpullmysql要选择starts最高的那个name进行下载3.dockerimages查看下载好的镜像4.启动mysql实例dockerrun–namedockermysql-p3307:3306-eMYSQL_ROOT_PASS…

    2022年4月11日
    48
  • photoshop是目前图像处理理最顶级的一款软件_图片处理软件app

    photoshop是目前图像处理理最顶级的一款软件_图片处理软件app说到照片和图像编辑/操纵,真的没有更好的应用,AdobePS图象处理软件。 摄影师和创意工作室会同意这是总理的照片编辑应用期。不幸的是,PS图象处理软件还配备了一个陡峭的学习曲线和价格标签,我们必须考虑我们不会使用矫枉过正的1/3的功能包装成PS图象处理软件。 记住让我们看一些免费的在线和客户端安装的应用程序可以在互联网上看。 选项是巨大的所以我缩小了我的审查,只有最好的在线和客户端安装

    2022年4月20日
    61
  • HTTP常见端口_8443端口

    HTTP常见端口_8443端口常见端口地点HTTP服务器,默认的端口号为80/tcp(木马Executor开放此端口);HTTPS(securelytransferringwebpages)服务器,默认的端口号为443/tcp443/udp;Telnet(不安全的文本传送),默认端口号为23/tcp(木马TinyTelnetServer所开放的端口);FTP,默认的端口号为21/tcp(木马DolyTro…

    2026年1月19日
    3
  • 多线程之join方法

    多线程之join方法一.前言:    在很多情况下,我们都是通过主线程创建并启动子线程的,如果子线程中需要耗费大量的时间计算的话,主线程往往会比子线程先结束,这个时候就会导致有时候主线程想获取子线程计算之后的结果,但是却获取不到。这个时候,我们就可以通过join方法来解决这个问题。二.join方法的作用:join方法的作用是使所属的线程对象x正常执行run()方法中的任务,而使当前线程z进行无限期的…

    2022年5月4日
    32
  • JDBC连接大全哦

    JDBC连接大全哦

    2021年4月25日
    132
  • Kafka 发送消息 Idempotent

    Kafka 发送消息 IdempotentStart 我们先来回答一下上个例子最后问题的答案 很遗憾 Producer 并不能证明消息发送成功了 如果设置了 retry Producer 会再次发送消息 这会导致消息重复 如何避免 有两种办法 一种是 Idempotent 也就是说支持重复发送 broker 会自动认为是一条消息 另一种办法是使用事务 下面的例子演示使用 Idempotent packageshang

    2026年3月18日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号