kettle工具练习

kettle工具练习一.抽取CSV文件csv.extract.csv中的数据保存至数据库extract中的数据表csv中。1.打开kettle工具创建一个转换csv_extract,并添加“CSV文件输入”控件,“表输出”控件及Hop跳连接线,用于实现CSV文件数据的抽取功能,具体效果如下图所示:2.配置CSV文件输入控件,具体操作如下图所示:获取字段…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

一.抽取CSV文件csv.extract.csv中的数据保存至数据库extract中的数据表csv中。

1.打开kettle工具创建一个转换csv_extract,并添加“CSV文件输入”控件,“表输出”控件及Hop跳连接线,用于实现CSV文件数据的抽取功能,具体效果如下图所示:

kettle工具练习

2.配置CSV文件输入控件,具体操作如下图所示:

kettle工具练习

                                                       获取字段

kettle工具练习

                                                       预览数据

3.配置表输出控件,具体操作如下图示:

kettle工具练习

设置映射匹配

 kettle工具练习

    表输出控件配置效果

4.运行csv_extract

kettle工具练习

从上图可以看出,CSV文件输入控件输入101条数据并写入该控件100条数据(其中有一条数据为表头数据),而表输出控件读取CSV文件输入控件中的100条数据并写入该控件,最终进行输出。也就是说,表输出控件将从CSV文件输入流中读取的100条数据均写入数据表csv中。

5.查看数据表csv中的数据,通过SQLyog工具,查看数据表是否已经成功插入100行数据,结果如下图所示:

kettle工具练习 

 通过上图可看出,数据表csv中已经成功插入数据(这里只展示部分数据),说明成功实现了将CSV文件csv_extract.csv中的数据抽取到数据表csv中。

二.抽取JSON文件json_extract.js中的数据保存至数据库extract中的数据表json中。

1.打开kettle工具创建转换,并添加JSONinput控件。表输出控件以及Hop跳连接线,用于实现抽取JSON文件中的key值为id,field和value的数据,并保存至数据表json中,具体操作如下图所示:

kettle工具练习

2.配置JSON input 控件,具体操作效果如下图所示:

 kettle工具练习

 

 

 

kettle工具练习

 kettle工具练习

 kettle工具练习

 kettle工具练习

 3.配置表输出控件,具体操作效果如下图所示:

kettle工具练习

 kettle工具练习

 kettle工具练习

 kettle工具练习

 4.运行json_extract转换,实现将JSON文件中的数据抽取到数据表json中,执行结果如下图所示:

kettle工具练习

 从上图看出,JSON input控件输入2条数据并写入该控件中,JSON input2控件读取JSON input控件的2条数据的data字段中并获取6条数据作为输入并写入该控件中,表输出控件读取JSON input控件的2条数据,从这两条数据的data字段共获取6条数据作为输入并写入该控件中,也就是说,表输出控件从JSON input2流中读取6条数据均写入数据表json中。

5.查看数据表json是否已经成功插入6条数据,查看结果如下图所示:

kettle工具练习 

 从上图可以看出,数据表json中已经成功插入数据,说明成功实现了将JSON文件json_extract.json中key值为id,field,value的数据抽取到数据表json中。

注:本文所涉及操作详情请查《数据清洗–黑马程序员编著》一书第四章数据抽取。

后记:此次练习数据抽取操作过程中主要面临数据库连接问题,对于我个人而言,刚开始数据库连接与MySQL应用的确无从下手,面对数据库连接失败以及MySQL卸载与重新安装的确耗费了大量时间,尤其MySQL安装与卸载,不过通过求助周围人和网上查找详细资料也解决了这些问题。

 

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/181086.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • java静态代理实现_静态注册和动态注册的优缺点

    java静态代理实现_静态注册和动态注册的优缺点思考:以常见的增删改查为例,在执行增删改的时候我们需要开启事务,执行完成后需要提交事务假如说你Service里有100个增删改的方法,那这100个方法里除了你自己真正需要处理的业务逻辑外,每个方法都还需要去关注开启事务,提交事务这些动作。那有没有稍微好点的办法解决呢?于是就出现了代理模式的概念,那什么是代理模式呢?1、什么是代理模式简单来说:代理就是对目标方法进行增强。什么意思呢?…

    2022年10月17日
    1
  • hadoop hive 手记

    hadoop hive 手记

    2022年3月8日
    45
  • 汉罗塔非递归_汉诺塔递归原理

    汉罗塔非递归_汉诺塔递归原理/*汉诺塔递归和非递归算法实现*/#includeusingnamespacestd;typedefstructTower{intheight;chara,b,c;}Tower;typedefstructNode{Towerelement;Node*pNext;}Node,*LinkList;typedefstruct

    2022年10月12日
    3
  • http,socks5,socks4代理的区别[通俗易懂]

    http,socks5,socks4代理的区别[通俗易懂]HTTP代理:能够代理客户机的HTTP访问,主要是代理浏览器访问网页,它的端口一般为80、8080、3128等;SOCKS代理:SOCKS代理与其他类型的代理不同,它只是简单地传递数据包,而并不关心是何种应用协议,既可以是HTTP请求,所以SOCKS代理服务器比其他类型的代理服务器速度要快得多。SOCKS代理又分为SOCKS4和SOCKS5,二者不同的是SOCKS4代理只支持TCP协议(即传输…

    2022年6月15日
    38
  • Sql分页查询方式

    Sql分页查询方式Sql的三种分页查询方式先说好吧,查询的数据排序,有两个地方(1、分页前的排序。2、查询到当前页数据后的排序)第一种1、先查询当前页码之前的所有数据idselecttop((当前页数-1)*每页数据条数)idfrom表名2、再查询所有数据的前几条,但是id不在之前查出来的数据中selecttop每页数据条数*from表名whereidnotin( selecttop((当前页数-1)*每页数据条数)idfrom表名 )3、查询出当前页面的所有数据后,再

    2022年6月26日
    68
  • Pytest(15)pytest分布式执行用例[通俗易懂]

    Pytest(15)pytest分布式执行用例[通俗易懂]前言平常我们功能测试用例非常多时,比如有1千条用例,假设每个用例执行需要1分钟,如果单个测试人员执行需要1000分钟才能跑完当项目非常紧急时,会需要协调多个测试资源来把任务分成两部分,于是执行时间

    2022年8月6日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号