kettle 教程(一):简介及入门「建议收藏」

kettle 教程(一):简介及入门「建议收藏」kettle是纯java开发,开源的ETL工具,用于数据库间的数据迁移。可以在Linux、windows、unix中运行。有图形界面,也有命令脚本还可以二次开发。kettle的官网是https://community.hitachivantara….

大家好,又见面了,我是你们的朋友全栈君。

介绍

kettle 是纯 java 开发,开源的 ETL工具,用于数据库间的数据迁移 。可以在 Linux、windows、unix 中运行。有图形界面,也有命令脚本还可以二次开发。

kettle 的官网是 https://community.hitachivantara.com/docs/DOC-1009855,github 地址是 https://github.com/pentaho/pentaho-kettle

安装

这边以 windows 下的配置为例,linux 下配置类似。

jdk 安装及配置环境变量

由于 kettle 是基于 java 的,因此需要安装 java 环境,并配置 JAVA_HOME 环境变量。

建议安装 JDK1.8 及以上,7.0以后版本的 kettle 不支持低版本 JDK。

下载 kettle

官网 下载 kettle ,解压到本地即可。

下载相应的数据库驱动

由于 kettle 需要连接数据库,因此需要下载对应的数据库驱动。

例如 MySQL 数据库需要下载 mysql-connector-java.jar,oracle 数据库需要下载 ojdbc.jar。下载完成后,将 jar 放入 kettle 解压后路径的 lib 文件夹中即可。

注意:本文基于 pdi-ce-7.0.0.0-25 版本进行介绍,低版本可能有区别。

启动

双击 Spoon.bat 就能启动 kettle 。

转换

转换包括一个或多个步骤,步骤之间通过跳(hop)来连接。跳定义了一个单向通道,允许数据从一个步骤流向另一个步骤。在Kettle中,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。

  1. 打开 kettle,点击 文件->新建->转换。

    kettle 教程(一):简介及入门「建议收藏」

  2. 在左边 DB 连接处点击新建。

    kettle 教程(一):简介及入门「建议收藏」

  3. 根据提示配置数据库,配置完成后可以点击测试进行验证,这边以 MySQL 为例。

    kettle 教程(一):简介及入门「建议收藏」

  4. 在左侧找到表输入(核心对象->输入->表输入),拖到右方。

    kettle 教程(一):简介及入门「建议收藏」

  5. 双击右侧表输入,进行配置,选择数据源,并输入 SQL。可以点击预览进行预览数据。

    1535002043389

    kettle 教程(一):简介及入门「建议收藏」

  6. 在左侧找到插入/更新(核心对象->输出->插入/更新),拖到右方。

    kettle 教程(一):简介及入门「建议收藏」

  7. 按住 Shift 键,把表输入和插入/更新用线连接起来。

    kettle 教程(一):简介及入门「建议收藏」

  8. 双击插入/更新进行配置。

    kettle 教程(一):简介及入门「建议收藏」

  9. 点击运行,就可以运行这一个转换。

    kettle 教程(一):简介及入门「建议收藏」

  10. 运行结束后,我们可以在下方看到运行结果,其中有日志,数据预览等,我们可以看到一共读取了多少条数据,插入更新了多少数据等等。

    kettle 教程(一):简介及入门「建议收藏」

这样就完成了一个最简单的转换,从一个表取数据,插入更新到另一个表。

作业

如果想要定时运行这个转换,那么就要用到作业。

  1. 新建一个作业。

    kettle 教程(一):简介及入门「建议收藏」

  2. 从左侧依次拖动 START 、转换、成功到右侧,并用线连接起来。

    kettle 教程(一):简介及入门「建议收藏」

  3. 双击 START,可以配置作业的运行间隔,这边配置了每小时运行一次。

    kettle 教程(一):简介及入门「建议收藏」

  4. 双击转换,选择之前新建的那个转换。

    kettle 教程(一):简介及入门「建议收藏」

  5. 点击运行,就能运行这次作业,点击停止就能停止。在下方执行结果,可以看到运行的日志。

    kettle 教程(一):简介及入门「建议收藏」

这样就完成了一个最简单的作业,每隔1小时,将源表的数据迁移到目标表。

总结

kettle 是一个非常强大的 ETL 工具,通过图形化界面的配置,可以实现数据迁移,并不用开发代码。

通过它的作业,kettle 能自动地运行转换。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/142121.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • django drf jwt_jwt验证原理

    django drf jwt_jwt验证原理前言带着问题学习是最有目的性的,我们先提出以下几个问题,看看通过这篇博客的讲解,能解决问题吗?什么是JWT?为什么要用JWT?它有什么优势?JWT的认证流程是怎样的?JWT的工作原理?我们

    2022年8月7日
    6
  • pycharm交互式编程_环境影响因素有哪些

    pycharm交互式编程_环境影响因素有哪些讲解关于PycharmIDE当中一个叫做PythonConsole交互式开发环境。关于这个环境长什么样子以及怎么用,可以跟着我的步骤来看看。一、使用PythonConsole交互式开发环境打开Pycharm界面,然后单击界面最下面的PythonConsole这个按钮,单击后会调出一个控制台,这个控制台将自动加载已经调试过的解释器。在这个控制台里,程序员可以在三个绿色箭头>>>后面直接书写代码,在不加print的时候也行输出数据,当然print在这里也是可以用的。左边

    2022年8月27日
    6
  • 经典算法—冒泡排序

    经典算法—冒泡排序原文链接:冒泡排序—经典排序算法|逍遥游冒泡排序(BubbleSort)以其“在排序过程中相邻元素不断交换,一些元素慢慢被换到最后,看起来就像是元素在冒泡一样”而得名,是一种简单的基于关键词比较的排序算法。算法原理冒泡排序的原理(以递增序为例)是每次从头开始依次比较相邻的两个元素,如果后面一个元素比前一个要大,说明顺序不对,则将它们交换,本次循环完毕之后再次从…

    2022年6月14日
    35
  • oracle 19c ora-01017,Oracle 19c RMAN 连接PDB ORA-01017 错误解决方法

    oracle 19c ora-01017,Oracle 19c RMAN 连接PDB ORA-01017 错误解决方法在Oracle19c中,RMAN连接PDB时可能会出现ORA-01017的错误,如下:[dave@www.cndba.cnadmin]$rmantarget'”dave/dave@daveassysbackup”‘RecoveryManager:Release19.0.0.0.0-ProductiononWedFeb1716:33:292021Version…

    2022年5月31日
    108
  • python数组-1成员_python[1,2,3]*3

    python数组-1成员_python[1,2,3]*3使用python版本3.7首先先了解下python3.7中的下标,python下标有两套,一套是正的,一套是负的a=’python’中的python的下标可以如下组python正下标012345负下标-6-5-4-3-2-1对应位置的正下标-负下标=len(a)使用正下标时,下标i………………………

    2022年8月13日
    8
  • 常用字符编码及乱码分析[通俗易懂]

    常用字符编码及乱码分析[通俗易懂]常见的编码GBK、GB2312:表示国标编码,GDB包含简体中文和繁体中文,而DB2312只包含简体中文,也就是说,这两种编码都是描述中文的编码UNICODE编码:Java提供的16进制编码,可以描述世界上任意的文字信息,但是有个问题,若现在所有的字母都使用16进制编码,那么这个编码太庞大了,会造成网络传输的负担ISO8859-1:国际通用编码,但是所有的编码都需要进行转换UTF编码:相…

    2022年5月29日
    54

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号