Hive实现oracle的Minus函数[通俗易懂]

Hive实现oracle的Minus函数

大家好,又见面了,我是全栈君。

在Oracle中minus运算的主要功能是: 在进行两个表格或者两个查询结果的时候,返回在第一个表格/查询结果中与第二个表格/查询结果不同样的记录。

结果不同样的记录包括两种情况:A,B 表中某一行的内容不同和A表中的数据在B表中不存在。总之返回的是A表的数据。

Hive中没有实现minus功能的函数,仅仅好分步实现。

一、找出在A表中的数据在B表中不存在的数据

insert overwrite table tmp_A partition(name=’_innot_B’)

select 

                  a.*

from A a left outer join  B b on (a.id = b.id)  where b.id is NULL; 

二、找出在A表和B表都存在但内容不同的数据

UDF函数例如以下:

public class Minus extends UDF{

String =“”;

String =“”;

public Text evaluate(String… strs){

for(int i=0;i<strs.length/2;i++){

=+strs[i];

}

for(int i=strs.length/2;i<strs.length;i++){

=+strs[i];

}

if(.replace(” ““”).equals(.replace(” ““”))){

return new Text(“NULL”);

}else{

return new Text(strs[0].replace(” ““”));

}

}

相应的查询例如以下:

insert overwrite table tmp__diff

select iminus(

                       a.*,b.*

     ) from A a join B b on (a.id=b.id);

上面的sql会执行Minus的java程序,改程序语句中有循环。假设数据量非常大非常耗时间。job进度卡着不动。也能够使用hive自带的函数实现

insert overwrite table tmp_A_diff
select if(
        regexp_replace(
                  concat(                        
                        a.*
                        ),
                          ” “,””)
       =
        regexp_replace(
                 concat(
                        b.*
                        ),
                          ” “,””)
       ,NULL,b.id)
    from A a
             join 
         B b 
             on (a.id=b.id);

这样效率好些。

tmp_A_diff存储的是A表和B表都存在但内容不同的数据的id和一些“NULL”

依据id获得每行数据

insert overwrite table tmp_A partition(name=”A_in_B”)

select            a.*

from tmp_A_diff b join A a on (a.id=b.id);

如今tmp_A中分区A_innot_B和分区A_in_B的数据就是oracle中(select * from Aminus (select * from B)的数据。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/116059.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 使用war包部署在Tomcat中运行

    使用war包部署在Tomcat中运行准备工具,Tomcat,eclipse 1选择你要导出的war包,选择你要的项目然后按照我圈起来的去操作 2,然后找到Web包,web下面还有一个WAR.file点击进去,找不到就在上面可以搜索的 3 第一个是你导出去的war包名称,第二个是你war包路径 4 这里我是导入在E盘中的 5把这个war包复制,然后去找你Tomcat的安…

    2022年6月14日
    27
  • centos sqlite3安装及简单命令

    centos sqlite3安装及简单命令

    2021年7月18日
    77
  • sql2000数据库置疑造成的原因以及如何解决置疑「建议收藏」

    sql2000数据库置疑造成的原因以及如何解决置疑「建议收藏」sql2000数据库置疑造成的原因以及如何解决置疑

    2022年8月21日
    4
  • Socker编程之TCP

    Socker编程之TCP一:TCP介绍TCP协议,传输控制协议(英语:TransmissionControlProtocol,缩写为TCP)是一种面向连接的、可靠的、基于字节流的传输层通信协议,由IETF的RFC793定义。TCP通信需要经过创建连接、数据传送、终止连接三个步骤。TCP通信模型中,在通信开始之前,一定要先建立相关的链接,才能发送数据,类似于生活中,”打电话””二:TCP特…

    2025年6月30日
    4
  • 程序员必备的网站推荐软件_程序员解决问题的网站

    程序员必备的网站推荐软件_程序员解决问题的网站程序员必备的网站推荐注:我收集的网站很有限,可能有很多网站没有列出,希望大家可以通过评论告知我,我会尽快添加。一、开源代码托管平台1.GitHub(https://github.com)gitHub是一个面向开源及私有软件项目的托管平台,因为只支持git作为唯一的版本库格式进行托管,故名gitHub。gitHub于2008年4月10日正式上线,除了git代码仓库托管…

    2022年10月11日
    3
  • esxi安装ghost win7_【教程】硬盘下Ghost 系统安装教程

    esxi安装ghost win7_【教程】硬盘下Ghost 系统安装教程使用本方法可在没有光驱、光盘、启动U盘等任何系统安装设备的情况下安装Ghost版XP、Win7、Win8/8.1、Win1032位或64位系统!(原版系统不适用)操作步骤:注意:本安装方法适用于你的电脑能正常启动至桌面,或能启动系统的安全模式,也就是说不管原电脑的系统有任何问题,只要能进桌面,就能重装系统!(EFI+GPT除外)(1)请提前下载GHOST备份还原工具(下称硬盘安装器)与系统GHO…

    2022年6月25日
    157

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号