datax(27):不太常见配置项querySql、preSql、postSql、splitPk[通俗易懂]

datax(27):不太常见配置项querySql、preSql、postSql、splitPk[通俗易懂]每个datax的json都有自己的json配置文档,基本大同小异,有几个配置较为少用,但是用了之后,真香~一、querySql1、使用教程描述:在有些业务场景下,where这一配置项不足以描述所筛选的条件,用户可以通过该配置型来自定义筛选SQL。当用户配置了这一项之后,DataX系统就会忽略table,column这些配置型,直接使用这个配置项的内容对数据进行筛选,例如需要进行多表join后同步数据,使用selecta,bfromtable_ajointable_bontabl.

大家好,又见面了,我是你们的朋友全栈君。

每个datax的json都有自己的json配置文档,基本大同小异,有几个配置较为少用,但是用了之后,真香~


一、querySql

1、使用教程

  • 描述:在有些业务场景下,where这一配置项不足以描述所筛选的条件,用户可以通过该配置型来自定义筛选SQL。当用户配置了这一项之后,DataX系统就会忽略table,column这些配置型,直接使用这个配置项的内容对数据进行筛选,例如需要进行多表join后同步数据,使用select a,b from table_a join table_b on table_a.id = table_b.id

    当用户配置querySql时,xxxReader直接忽略table、column、where条件的配置。如果配置了querySql又配置了table,column、where等,在log中会有警告日志,具体代码在
    OriginalConfPretreatmentUtil.dealColumnConf()

……
if (null != userConfiguredColumns && userConfiguredColumns.size() > 0) { 
   
        LOG.warn(
            "您的配置有误. 由于您读取数据库表采用了querySql的方式, 所以您不需要再配置 column. 如果您不想看到这条提醒,请移除您源头表中配置中的 column.");
        originalConfig.remove(Key.COLUMN);
      }

      // querySql模式,不希望配制 where,那样是混淆不清晰的
      String where = originalConfig.getString(Key.WHERE, null);
      if (StringUtils.isNotBlank(where)) { 
   
        LOG.warn(
            "您的配置有误. 由于您读取数据库表采用了querySql的方式, 所以您不需要再配置 where. 如果您不想看到这条提醒,请移除您源头表中配置中的 where.");
        originalConfig.remove(Key.WHERE);
      }

      // querySql模式,不希望配制 splitPk,那样是混淆不清晰的
      String splitPk = originalConfig.getString(Key.SPLIT_PK, null);
      if (StringUtils.isNotBlank(splitPk)) { 
   
        LOG.warn(
            "您的配置有误. 由于您读取数据库表采用了querySql的方式, 所以您不需要再配置 splitPk. 如果您不想看到这条提醒,请移除您源头表中配置中的 splitPk.");
        originalConfig.remove(Key.SPLIT_PK);
      }

……
  • 必选:否

  • 默认值:无

2、目前可以使用该配置的插件

目前主要是reader插件,主要有rdbmsReader(sqlServer、mysql、postgresql、oracle等)、hbase20xsqlreader、DrdsReader和KingbaseesReader。

3、源码解读

目前主要的代码都在CommonRdbmsReader的startRead()中
1. 获取 String querySql = readerSliceConfig.getString(Key.QUERY_SQL);
2. 调用  rs = DBUtil.query(conn, querySql, fetchSize);

DBUtil.query方法中最终实现是如下:
  public static ResultSet query(Statement stmt, String sql)
      throws SQLException { 
   
    return stmt.executeQuery(sql);
  }


二、preSql

1、使用教程

  • 描述:写入数据到目的表前,会先执行这里的标准语句。如果 Sql 中有你需要操作到的表名称,请使用 @table 表示,这样在实际执行 Sql 语句时,会对变量按照实际表名称进行替换。比如你的任务是要写入到目的端的100个同构分表(表名称为:datax_00,datax01, … datax_98,datax_99),并且你希望导入数据前,先对表中数据进行删除操作,那么你可以这样配置:"preSql":["delete from 表名"],效果是:在执行到每个表写入数据前,会先执行对应的 delete from 对应表名称

  • 必选:否

  • 默认值:无

2、目前可以使用该配置的插件

目前主要是writer插件,主要有rdbmsWriter、mongoDBWriter、AdsWriter等。

3、源码解读

一般在writer的prepare阶段,例如CommonRdbmsWriter.prepare()方法
1.获取所有preSqls 
        List<String> preSqls = originalConfig.getList(Key.PRE_SQL, String.class);
        List<String> renderedPreSqls = WriterUtil.renderPreOrPostSqls(preSqls, table);
2.执行preSqls
WriterUtil.executeSqls(conn, renderedPreSqls, jdbcUrl, dataBaseType);

三、postSql

1、使用教程

  • 描述:写入数据到目的表后,会执行这里的标准语句。(原理同 preSql )

  • 必选:否

  • 默认值:无

2、目前可以使用该配置的插件

大部分的writer插件

3、源码解读

同preSql,不在赘述;


四、splitPk

1、使用教程

  • 描述:进行数据抽取时,如果指定splitPk,表示用户希望使用splitPk代表的字段进行数据分片,DataX因此会启动并发任务进行数据同步,这样可以大大提升数据同步的效能。

    推荐splitPk用户使用表主键,因为表主键通常情况下比较均匀,因此切分出来的分片也不容易出现数据热点。

    目前splitPk仅支持整形数据切分,不支持浮点、字符串、日期等其他类型。如果用户指定其他非支持类型,MysqlReader将报错!

    如果splitPk不填写,包括不提供splitPk或者splitPk值为空,DataX视作使用单通道同步该表数据。

  • 必选:否

  • 默认值:空

2、目前可以使用该配置的插件

目前主要是reader插件,主要有rdbmsReader(sqlServer、mysql、postgresql、oracle等)、hbase20xsqlreader、DrdsReader和KingbaseesReader。

3、源码解读

主要在各类reader插件中,以CommonRdbmsReader为例,在CommonRdbmsReader.preCheck()1、从配置获取splitPK 
	String splitPK = queryConf.getString(Key.SPLIT_PK);
2、构造出PreCheckTask 对象
	PreCheckTask t = new PreCheckTask(username, password, connConf, dataBaseType, splitPK);
3、进行表切分,在PreCheckTask的call方法中
	@Override
  public Boolean call() throws DataXException { 
   
   ……
    List<Object> splitPkSqls = this.connection.getList(Key.SPLIT_PK_SQL, Object.class);
    ……
    try { 
   
      for (int i = 0; i < querySqls.size(); i++) { 
   
        String splitPkSql = null;
        String querySql = querySqls.get(i).toString();
       ……
        
        /*verify splitPK*/
        try { 
   
          if (splitPkSqls != null && !splitPkSqls.isEmpty()) { 
   
            splitPkSql = splitPkSqls.get(i).toString();
            DBUtil.sqlValid(splitPkSql, dataBaseType);
            if (i == 0) { 
   
              SingleTableSplitUtil.preCheckSplitPk(conn, splitPkSql, fetchSize, table, userName);
            }
          }
        } catch (ParserException e) { 
   
        ……
        }
      }
    } finally { 
   
      DBUtil.closeDBResources(null, conn);
    }
    return true;
  }

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/145802.html原文链接:https://javaforall.net

(2)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Python海龟画图集合

    Python海龟画图集合Python海龟画图集合1.小猪佩奇2.彩色螺旋线3.太极4.美国队长盾牌1.小猪佩奇#coding:utf-8importturtleastt.screensize(400,300)t.pensize(4)#设置画笔的大小t.colormode(255)#设置GBK颜色范围为0-255t.color((255,155,192),"pink…

    2022年6月28日
    30
  • php中的<?= ?>替换<?php echo ?>

    php中的<?= ?>替换<?php echo ?>

    2021年11月4日
    50
  • 计算机病毒论文结束语,计算机病毒论文结束语

    计算机病毒论文结束语,计算机病毒论文结束语计算机病毒论文结束语此频道包含与结束语和计算机和病毒相关的例文,免费给你写作计算机病毒论文总结提供有关参考文献资料。摘要:计算机是现代办公、学习的重要工具之一。对于高等院校来讲,计算机在日常教学和学生管理中都占有非常重要的地位,起到了重要的作用。不论是校园网。摘要:本研究计算机病毒的历史入手,介绍了病毒的种类、特点和工作原理,并对病毒的查杀和防范方法做了介绍。当前,计算机网络技术有着飞速的发展。…

    2022年5月4日
    46
  • 互联网创业公司如何防御ddos攻击风险_怎么防止ddos

    互联网创业公司如何防御ddos攻击风险_怎么防止ddosDDoS(DistributedDenialofService,分布式拒绝服务)主要通过大量合法的请求占用大量网络资源,从而使合法用户无法得到服务的响应,是目前最强大、最难防御的攻击之一。什么是DDoS攻击?看到一个好玩的解释,源自百度百科,一群恶霸试图让对面那家有着竞争关系的商铺无法正常营业,他们会采取什么手段呢?恶霸们扮作普通客户一直拥挤在对手的商铺,赖着不走,真正的购物者却无法进入;或者总是和营业员有一搭没一搭的东扯西扯,让工作人员不能正常服务客户;也可以为商铺的经营者提供虚假信息,商铺

    2025年6月3日
    3
  • 示波器 游戏_示波器泰克与安捷伦

    示波器 游戏_示波器泰克与安捷伦安捷伦示波器的游戏早就听说Agilent546xx示波器中有游戏玩,一直没有机会尝试。最近手上终于有台54641D可用,一时兴起,看看怎么进入游戏界面。按网上介绍,保存文件,输入特定文件名即可。真不错,游戏界面来了,COOL!具体操作见下图按ENTER软键后,精彩来了:

    2022年10月12日
    4
  • 零基础学Java(9)在mac上运行命令行提示”找不到或无法加载主类”

    零基础学Java(9)在mac上运行命令行提示”找不到或无法加载主类”天坑遇到的问题:使用命令行执行命令:javaEightSample,会报以下错误错误:找不到或无法加载主类EightSample运行环境mac系统IntelliJIDEA编译器Ja

    2022年8月7日
    12

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号