Lanius大数据治理平台

Lanius大数据治理平台Lanius 大数据治理平台 是由渝州大数据实验室研发推出的一款国产可控的 ETL 处理及数据调度的产品 拥有生产级 易使用 智能化的特点 以推动国内数据治理发展为目标 向个人及政企单位免费开源

        数据继土地、劳动力、资本之后成为新兴的生产要素,各国政府相继制定战略规划,加大对数据汇聚、分析、安全等方面的投入,我国国务院和各地方政府也不断出台政策,在大数据治理研究方面给予支持。

        ETL处理做为数据治理的重要环节已有几十年的发展历史,然而目前流行的ETL工具(Informatica、Datastage、ODI、Kettle等)几乎全部由国外各大厂商垄断。国内虽然有出现过几款工具,但是由于使用习惯、市场压制等原因,一直得不到较好发展,部分工具已停止研发,这对我国数据市场的发展无疑是十分不利的。

一、Lanius产品简介

        “Lanius大数据治理平台”是由渝州大数据实验室研发推出的一款国产可控的ETL处理及数据调度的产品,拥有生产级、易使用、智能化的特点。以推动国内数据治理发展为目标,向个人及政企单位免费开源。

        Lanius主要由数据治理设计器(Lanius Design)、数据治理调度器(Lanius Orchestrate)两部分组成。Lanius Design用于开发人员设计数据ETL任务,Lanius Orchestrate则用于运维人员调度该任务。两部分协调统一,数据处理任务才能有条不紊的执行下去。

二、产品特色

1、Lanius Design

        对于Kettle,ETL爱好者都比较熟悉。作为一款国外开源的老牌ETL工具,有着多年的发展历史,但其对国内的支持却不够友好,比如:

  • 国产环境下兼容性不好,汉化不彻底,中英混杂
  • 数据库驱动粒度太大,同一款数据库多个版本间只能使用一个驱动包
  • 插件体系缺乏版本管理机制,在插件功能更迭时需要同时更新相关转换/作业
  • 插件体系缺乏热插拔机制,无法保障生产环境升级时的连续性

        不过作为一款优秀的ETL工具,它仍然为该领域的发展提供了坚实的基础和不可磨灭的贡献,因此Lanius Design选择对Kettle进行二次开发,并在此基础之上针对国内环境进行全面改进优化。

目前已完成以下几方面:

  • 国产兼容

Lanius Desgin全面支持国产CPU芯片、操作系统、数据库软件、中间件,代码全部可控;对操作界面做深度汉化,提高其对国内用户的友好性。

  • 驱动绑定

在做数据迁移操作时,部分时候会需要将数据在同一品牌不同版本的数据库之间进行迁移,比如在一个转换中将数据从MySQL5.7迁移到MySQL5.8。由于Kettle的驱动包是全局共享的,无法同时指定两个不同版本的数据库驱动包,而Lanius Design将驱动和转换中的步骤进行绑定,可以在同一转换、同一插件、不同步骤中分别指定不同的驱动。

  • 版本管理

提供插件多版本管理机制,允许同一款插件同时存在多个版本,完美解决插件在新旧版本更迭时出现的兼容性问题。比如上线一款新的插件A1.0,但是可能因为需求分析不到位,存在一些功能上的不足,为此需经过升级再发布插件A2.0。由于A1.0已经在若干项目中使用,不能简单粗暴的替换,而应该确保多个版本的共存使用,此时,版本管理功能就派上用场了。

  • 热插拔

对插件类加载器进行了改良升级,所有插件可以在不停止程序、不重启的情况下实现安装与卸载,提高了生产环境下的连续可用性。

Lanius大数据治理平台

        此外,实验室正在同步开发若干其他方面的功能,如执行背压。让一个转换中的步骤之间可以相互感知到数据的处理速度,步调一致的处理数据,防止出现瓶颈导致内存溢出问题,从而提高平台的稳定性。 

Lanius大数据治理平台

2、Lanius Orchestrate

        在介绍Lanius Orchestrate之前不得不说一下Kettle另一大问题——缺少运维调度,这也导致了Kettle对生产环境的不友好,使用者很难监测和控制转换作业的执行过程,因此在人力的投入上需要增加数量及专业性,导致人力成本增加。

        Lanius Orchestrate是一款配合Lanius Design使用的WEB版运维调度平台,产品具有以下特点:

  • 完全开源

Orchestrate代码已经通过Gitee平台完全开源,遵循木兰2.0开源协议,可放心用于商业项目中。

开源地址:

lanius-orchestrate-client: lanius-orchestrate 前端项目Lanius大数据治理平台https://gitee.com/yuzhou-big-data-laboratory/lanius-orchestrate-client

lanius-orchestrate-server: lanius-orchestrate 后端项目Lanius大数据治理平台https://gitee.com/yuzhou-big-data-laboratory/lanius-orchestrate-server

  • 调度灵活

实现调度任务的单个或批次的新增、删除、修改、查询、启动、停止等操作,任务和转换/作业相关联,实现转换/作业的自动化调度,支持对任务执行结果进行自动分析,支持根据任务结果进一步触发其他任务事件。

  • 运维方便

提供详细的指标监视页面,以便掌控全局;提供邮件、短信等多种主动通知方式,无需专人值守;汇总各个节点任务执行日志,提供统一的渠道排查相关问题;让运维工作不再困难。

Lanius大数据治理平台

  • 高效稳定

在某些大型项目中,需要部署多套程序来应对高频、量大的数据处理需求。Orchestrate支持同时管理多台服务器、多个ETL任务节点,提高数据处理的效率和稳定性,更贴近生产需求。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/219826.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月17日 下午9:48
下一篇 2026年3月17日 下午9:48


相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号