KETTLE教程-初探

KETTLE教程-初探KETTLE概念、学习指南

大家好,又见面了,我是你们的朋友全栈君。

概念阐述

  1. ETL(Extract-Transform-Load)工具,即数据抽取、转换、装载。国内称为水壶
  2. 工作流程:将各种来源数据汇入到水壶中,进行数据处理,以特定格式输出到文件、数据库等装载容器
  3. 来自Borderfree的副总裁Warren Chang对Pentaho-KETTLE的评价:在业务中传递数据是一门艺术,而Pentaho将艺术转变成巨大的商业价值

优点

  • 直观的拖放设计,想拖什么就拖什么,然后组合在一起
  • 丰富的访问数据来源的组件,支持关系型数据库、非关系型数据库、大数据仓库、企业应用(如日志平台)等等
    • 关系型数据库-Relational database management system(RDBMS):Oracle、IBM-DB2、MySQL、Miscrosoft SQL Server
    • 非关系型数据库和对象存储:MongoDB、Cassandra,HBase、Hitachi Content Platform
    • 分析型数据库:Vertica、Greenplum、Teradata、SAP HANA、Amazon Redshift、Google Big Query、Microsoft Azure SQL Data、Warehouse (DW)
    • 业务应用(猜测是获取大量数据的接口,如日志系统):Salesforce、Google Analytics
    • Spark and Hadoop: Cloudera、Hortonworks、Amazon EMR、MapR、Microsoft Azure HDInsights
    • 非结构化数据:xml、json、excel、csv、txt、avro、parquet、orc、音频、视频等非结构化文件
  • 通过数据获取组件,快速获取、分析和装载大量数据,产出分析图表、直观分析结果或分析报告
  • 强大的组件组合能力,将一个个转换组合起来,完成功能,包括通知和警报
  • 完整的企业级调度系统,支持协调工作流程,拥有用于测试、优化作业执行的调试器
  • 丰富的数据分析、数据质量控制组件,去除不符合业务规则、冗余的数据、验证数据的标准性(如电子邮箱)
    • 如计数、数学函数、字符串处理、过滤、排序、正则验证等
  • 强大的管理功能
    • 共享存储库(转换和作业),开发人员、数据分析师、数据管理员进行协作
    • 版本管理,可以回退到某个版本的作业
    • 用户角色权限管理或集成第三方安全认证系统

流程介绍

有两个技术名词,Transformation(转换)和Job(作业)
转换可以包含多个转换、多个组件
作业可以包含多个转换、多个作业、多个组件

环境准备

  • JDK-1.8
  • Data Integration-6.1(最新为8.2Stable,Data Integration文件夹为历史版本,Pentaho 8.x文件夹为8以上版本)下载

工具结构

工具架构描述

版本更替

  • 待梳理
版本 新增特性
KETTLE-8.2 https://help.pentaho.com/Documentation/8.2/Whats_New
KETTLE-8.1 https://help.pentaho.com/Documentation/8.1/Whats_New
KETTLE-8.0 https://help.pentaho.com/Documentation/8.0/Whats_New
KETTLE-7.1 https://help.pentaho.com/Documentation/7.1/Whats_New
KETTLE-7.0 https://help.pentaho.com/Documentation/7.0/0C0
KETTLE-6.1 https://help.pentaho.com/Documentation/6.1/0C0
KETTLE-6.0 https://help.pentaho.com/Documentation/6.0/0C0
KETTLE-5.4 https://help.pentaho.com/Documentation/5.4/0T0/040
KETTLE-5.3 https://help.pentaho.com/Documentation/5.3/0T0/040
KETTLE-5.2 https://help.pentaho.com/Documentation/5.2/0T0/040/005
KETTLE-5.1 https://help.pentaho.com/Documentation/5.1/0T0/040/000

学习资料

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/142575.html原文链接:https://javaforall.net

(0)
上一篇 2022年5月23日 下午2:00
下一篇 2022年5月23日 下午2:00


相关推荐

  • python安装包的离线安装方法

    python安装包的离线安装方法说明 python 的离线安装有时候 由于不同模块有很多依赖包 所以很容易出错 python 在线安装只需要 pipinstall 包名 会自动安装依赖包 所以一般不会出现安装问题 1 各种 Python 的安装包 主要提供 Linux 版本的后缀是 whl 和 tar gz 可以搜索相关的包 https pypi org 2 各种 Python 的安装包 主要提供 Windows 版本的后缀是

    2026年3月19日
    2
  • Java Agent字节码增强技术实现链路追踪[通俗易懂]

    Java Agent字节码增强技术实现链路追踪[通俗易懂]javaagent

    2025年7月16日
    7
  • Mybatis使用IN语句查询

    Mybatis使用IN语句查询一 简介在 SQL 语法中如果我们想使用 in 的话直接可以像如下一样使用 select fromHealthCo 4 3 但是如果在 MyBatis 中的使用 in 的话 像如下去做的话 肯定会报错 Map lt String Object gt selectByUser Param useType StringuseT

    2026年3月20日
    2
  • Unity Odin从入门到精通(三):静态检查器详解

    Unity Odin从入门到精通(三):静态检查器详解前言:开发者可以使用静态检查器来选择项目工程、Unity引擎、.Net框架中所有的类型,并查看其所有的静态成员。打开静态检查器:在Unity的菜单栏中选择【Tools->OdinInspector->StaticInspector】菜单项来打开静态检查器。如下图所示:查看静态检查器的源码:首先在Rider当中切换到Assemblies视图。接着在该视图的列表当中选择Sirenix.OdinInspector.Editor程序集。然后从该程序集的列表当中选择Sirenix.Odi

    2022年7月21日
    15
  • 九章龙虾 – 好未来推出的教师专属 AI 原生桌面智能体与教学办公助手

    九章龙虾 – 好未来推出的教师专属 AI 原生桌面智能体与教学办公助手

    2026年3月19日
    3
  • xp显示rpc服务器不可用,XP系统如何解决RPC服务器不可用?

    xp显示rpc服务器不可用,XP系统如何解决RPC服务器不可用?使用打印机或其他操作安装计算机时 它会提示 RPC 服务器不可用 很多人都会遇到这个问题 许多朋友可能不了解 RPC 他们不知道如何解决它 当用户在 WinXP 系统计算机上运行时 RPC 服务器不可用该怎么办 让我们来看看 WinXP 系统 RPC 服务器不可用的解决方案 教程 方法 1 RPC 是英语远程过程调用协议的缩写 中文定义是远程过程调用协议 它是一种通过网络从远程计算机程序请求服务而不了解底层网络技术的

    2026年3月17日
    1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号