数据同步工具

全栈程序员-站长 • 2022年6月28日下午1:16 • 未分类 • 阅读 31

大家好，又见面了，我是你们的朋友全栈君。

公司要搞数据平台，首当其冲的是把旧库的数据导入到新库中，原本各种数据库大部分都提供了导入导出的工具，但是数据存储到各个地方，mongdb,hbase,mysql,oracle等各种各样的不同数据库，同步起来头都大了

因此最近使用了一些数据同步工具，记录下来：

离线导入导出

DataX

阿里的Datax是比较优秀的产品，基于python，提供各种数据村塾的读写插件，多线程执行，使用起来也很简单，定义好配置json文件执行脚本就可以了，非常适合离线数据，增量数据可以使用一些编码的方式实现，但是也仅仅针对insert数据比较有效，update数据就不适合。

github地址：https://github.com/alibaba/DataX

目前DataX支持的数据库

数据同步工具

Sqoop

http://sqoop.apache.org/

Sqoop是针对大数据而生的，专注于Hadoop(Hive)与传统的数据库数据的传递，是Hadoop生态的一员。在数据库的支持的丰富性上不如DataX，但是如果你用hadoop，用sqoop是更好的选择，因为做Apache的顶级项目，他背后的支持远远比阿里一家公司靠谱的多

Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

Kettle

Kettle作为传统ETL工具，目前也都已经有了nosql数据库的支持，而且kettle还有图形界面可以用，使用起来简单多了。而且本来就是专门做ETL的，是Pentaho指定的ETL组件，对于数据清洗等处理数据的环节支持更好。但是数据效率一般，而且在生产环境也很少弄台windows机器，适合小项目，数据量比较小的同步。

Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，数据抽取高效稳定。

Kettle 中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。

实时同步

实时同步最灵活的还是用kafka做中间转发，当数据发生变化时，记录变化到kafka，需要同步数据的程序订阅消息即可，需要研发编码支持。这里说个mysql数据库的同步组件，阿里的canal和otter

canal

https://github.com/alibaba/canal

canal是基于mysql的binlog进行数据同步的中间件。简单来说，Canal 会将自己伪装成 MySQL 从节点（Slave），并从主节点（Master）获取 Binlog，解析和贮存后供下游消费端使用。Canal 包含两个组成部分：服务端和客户端。服务端负责连接至不同的 MySQL 实例，并为每个实例维护一个事件消息队列；客户端则可以订阅这些队列中的数据变更事件，处理并存储到数据仓库中。

使用的话，安装好canal，配置好数据库参数，再编写一个客户端消费canal传过来的数据就可以了。如何使用官网写的挺清楚了，可以直接看官网。

otter

https://github.com/alibaba/otter

otter是在canal基础上又重新实现了可配置的消费者，使用otter的话，刚才说过的消费者就不需要写了，而otter提供了一个web界面，可以自定义同步任务及map表。非常适合mysql库之间的同步。

数据同步工具

而且通过retl_buff表的监控，也可以实现一些全量数据的同步。

但是otter也有一些不好的地方，比如界面上的参数并不是所有的都有用，文档写的一般，不是很清晰。但是想想省了好多事，还是非常好的一款中间件。

详细参见官网，安装部署研究下问题不大。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/154010.html原文链接：https://javaforall.net

数据同步工具

离线导入导出

DataX

Sqoop

Kettle

实时同步

canal

otter

关于作者

全栈程序员-站长

发表回复

数据同步工具

离线导入导出

DataX

Sqoop

Kettle

实时同步

canal

otter

关于作者

全栈程序员-站长

相关推荐

net framework 4.0安装失败0x80240037_0x80300001

AI_Agents(六)_构建可靠的AI智能体

使用python连接数据库

网络字节序和IP地址详解

biee java_BIEE入门篇之一 BIEE的安装

UE4 Slate三 SlateUI代码讲解

发表回复