DataX使用指南

DataX使用指南简介DataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS等各种异构数据源之间高效的数据同步功能。DataX采用了框架+插件的模式,目前已开源,代码托管在github。DataX安装部署及小试1.下载压缩包:下载页面地址:https://github.com/a…

大家好,又见面了,我是你们的朋友全栈君。

简介

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。DataX采用了框架 + 插件 的模式,目前已开源,代码托管在github。

DataX安装部署及小试

1.下载压缩包:

下载页面地址:https://github.com/alibaba/DataX 在页面中【Quick Start】—>【Download DataX下载地址】进行下载。下载后的包名:datax.tar.gz。解压后{datax}目录下有{bin conf job lib log log_perf plugin script tmp}几个目录。

2.安装

将下载后的压缩包直接解压后可用,前提是对应的java及python环境满足要求。
  System Requirements:

  • Linux
  • JDK(1.6以上,推荐1.6)
  • Python(推荐Python2.6.X)一定要为python2,因为后面执行datax.py的时候,里面的python的print会执行不了,导致运行不成功,会提示你print语法要加括号,python2中加不加都行 python3中必须要加,否则报语法错
  • Apache Maven 3.x (Compile DataX)

3.测试

配置测试样例:下面我们配置一组 从mysql数据库到另一个mysql数据库。  

第一步、创建作业的配置文件(json格式)

可以通过命令查看配置模板:  

python datax.py -r {YOUR_READER} -w {YOUR_WRITER} DataX使用指南当然也可以从https://github.com/alibaba/DataX自行配置。 DataX使用指南

第二步、根据配置文件模板填写相关选项

根据模板配置json文件(mysql2mysql.json)如下:

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "mysqlreader", 
                    "parameter": {
                        "column": [
							"id",
                            "name"
						], 
                        "connection": [
                            {
                                "jdbcUrl": ["jdbc:mysql://127.0.0.1:3306/dq"], 
                                "table": ["table1"]
                            }
                        ], 
                        "password": "123456", 
                        "username": "root"
                    }
                }, 
                "writer": {
                    "name": "mysqlwriter", 
                    "parameter": {
                        "column": [
                        "id",
                        "name"
						], 
                        "connection": [
                            {
                                "jdbcUrl": "jdbc:mysql://ip地址:端口/test", 
                                "table": ["table2"]
                            }
                        ], 
                        "password": "123456", 
                        "username": "root"
                    }
                }
            }
        ], 
        "setting": {
            "speed": {
                "channel": "1"
            }
        }
    }
}

第三步:启动DataX

启动之前数据库

DataX使用指南

DataX使用指南

启动

python datax.pyD:\Software\install\Environment\DataX\datax\job\mysql2mysql.json DataX使用指南DataX使用指南

启动之后数据库

DataX使用指南

 

出现的问题:

  • Python版本要为2,原因前面已经说过了
  • cmd乱码解决:输入CHCP 65001
  • 数据库中的数据中文乱码解决:在json文件中jdbcUrl项加上:?characterEncoding=utf8

“jdbcUrl”: [“jdbc:mysql://127.0.0.1:3306/dq?characterEncoding=utf8”]

Java通过python命令执行DataX任务

上代码:

public class TestDatax {
    public static void main(String[] args) {
        try {
            WebLogs.info("start");
            
            String windowcmd = "cmd /c python datax.py D:\\Software\\install\\Environment\\DataX\\datax\\job\\mysql2mysql.json";
            WebLogs.info(windowcmd);
            //.exec("你的命令",null,new File("datax安装路径"));
            Process pr = Runtime.getRuntime().exec(windowcmd,null,new File("D:\\Software\\install\\Environment\\DataX\\datax\\bin"));
            BufferedReader in = new BufferedReader(new InputStreamReader(pr.getInputStream()));
            String line = null;
            while ((line = in.readLine()) != null) {
                WebLogs.info(line);
            }
            in.close();
            pr.waitFor();
            WebLogs.info("end");
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

DataX使用指南回首往昔,更进一步。

DataX使用指南喜欢就点个赞关注一下呗 ~~

 

一个从装环境开始的学习记录公众号,欢迎大家关注:

DataX使用指南

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/145629.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Python中优先级_低优先级队列不止5把

    Python中优先级_低优先级队列不止5把优先级队列是一种容器型数据结构,它能管理一队记录,并按照排序字段(例如一个数字类型的权重值)为其排序。由于是排序的,所以在优先级队列中你可以快速获取到最大的和最小的值。你可以认为优先级队列是一种修改过的普通队列:普通队列依据记录插入的时间来获取下一个记录,优先级队列依据优先级来获取下一个记录,而优先级取决于排序字段的值。优先级队列经常用来解决调度问题,比如给更紧急的任务更高的优先级。我们以操作系统…

    2022年9月23日
    4
  • java8时间新特性(localDate 和 Date 之间互转)

    java8时间新特性(localDate 和 Date 之间互转)时间日期相减java8新特性

    2022年10月3日
    3
  • ForkJoin之RecursiveAction和RecursiveTask的简单使用

    ForkJoin之RecursiveAction和RecursiveTask的简单使用ForkJoin之RecursiveAction和RecursiveTask的简单使用Java提供的多线程可以提高CPU的利用率,现在的CPU都是多核多线程,如果不好好利用,只运行单线程程序,会使得CPU的其他核心空闲,浪费宝贵的计算机资源。编写好的程序不容易,编写好的多线程程序更难。JDK1.7开始,Java提供了Fork/Join框架,可以方便的将一个大任务拆分成多个小任务,利用多个线程…

    2025年11月25日
    2
  • python虚拟环境安装和配置[通俗易懂]

    python虚拟环境安装和配置[通俗易懂]http://blog.csdn.net/pipisorry/article/details/47008981AnacondaConda是Continuum公司发布的Anaconda里边配备的一个包管理器。Conda让你更加方便地安装和管理各种扩展包和运行环境,同时支持Windows,MacOSX以及Linux。安装下载Python3版本[https://w…

    2022年10月19日
    4
  • SSRF漏洞分析与实践

    SSRF漏洞分析与实践警告请勿使用本文提到的内容违反法律。本文不提供任何担保目录警告一、漏洞简介二、漏洞产生的原因三、SSRF的类型四、利用SSRF可以实现的攻击五、实践漏洞学习(一)简单漏洞验证(二)通过dict协议获取服务器端口运行的服务。(三)通过file协议访问计算机中的任意文件(四)了解sftp及tftp协议在SSRF中的作用六、SSRF与CSRF的区别七、漏洞修复警告一、漏洞简介SSRF(Server-SideRequest…

    2022年6月25日
    22
  • springboot讲解(终章怎么解释)

    转载请标明出处:https://blog.csdn.net/forezp/article/details/70341818本文出自方志朋的博客SpringBoot非官方教程|终章:文章汇总springboot非官方教程,可能最接近于官方的一个教程,大多数案例都来自于官方文档,为了更好的理解,加入了个人的改造。码云下载:https://git.oschina…

    2022年4月14日
    47

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号