Hive实现oracle的Minus函数[通俗易懂]

Hive实现oracle的Minus函数

大家好,又见面了,我是全栈君。

在Oracle中minus运算的主要功能是: 在进行两个表格或者两个查询结果的时候,返回在第一个表格/查询结果中与第二个表格/查询结果不同样的记录。

结果不同样的记录包括两种情况:A,B 表中某一行的内容不同和A表中的数据在B表中不存在。总之返回的是A表的数据。

Hive中没有实现minus功能的函数,仅仅好分步实现。

一、找出在A表中的数据在B表中不存在的数据

insert overwrite table tmp_A partition(name=’_innot_B’)

select 

                  a.*

from A a left outer join  B b on (a.id = b.id)  where b.id is NULL; 

二、找出在A表和B表都存在但内容不同的数据

UDF函数例如以下:

public class Minus extends UDF{

String =“”;

String =“”;

public Text evaluate(String… strs){

for(int i=0;i<strs.length/2;i++){

=+strs[i];

}

for(int i=strs.length/2;i<strs.length;i++){

=+strs[i];

}

if(.replace(” ““”).equals(.replace(” ““”))){

return new Text(“NULL”);

}else{

return new Text(strs[0].replace(” ““”));

}

}

相应的查询例如以下:

insert overwrite table tmp__diff

select iminus(

                       a.*,b.*

     ) from A a join B b on (a.id=b.id);

上面的sql会执行Minus的java程序,改程序语句中有循环。假设数据量非常大非常耗时间。job进度卡着不动。也能够使用hive自带的函数实现

insert overwrite table tmp_A_diff
select if(
        regexp_replace(
                  concat(                        
                        a.*
                        ),
                          ” “,””)
       =
        regexp_replace(
                 concat(
                        b.*
                        ),
                          ” “,””)
       ,NULL,b.id)
    from A a
             join 
         B b 
             on (a.id=b.id);

这样效率好些。

tmp_A_diff存储的是A表和B表都存在但内容不同的数据的id和一些“NULL”

依据id获得每行数据

insert overwrite table tmp_A partition(name=”A_in_B”)

select            a.*

from tmp_A_diff b join A a on (a.id=b.id);

如今tmp_A中分区A_innot_B和分区A_in_B的数据就是oracle中(select * from Aminus (select * from B)的数据。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/116059.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • gridview的属性_grid css

    gridview的属性_grid css正在做一个项目,其中用到了Gridview控件,内容如下即每行里又包括两小行,这个功能可以用两个嵌套的gridview实现,第二个要实现的是每个大行之间用实现相隔,每个小行之间用虚线网上很多资料都是关于Gridview的,但是关于样式的就不多后来发现可以在后台程序中动态改变CELL的式样protectedvoidGridView2_RowDataBound(obj

    2022年9月2日
    7
  • pycharm中tensorflow配置环境_python3.6安装tensorflow

    pycharm中tensorflow配置环境_python3.6安装tensorflowpython版本:python3.6.4tensorflow版本:tensorflow2.4.0(CPU版)pycharm版本:pycharm2020.1python版本和tensorflow版本需要保证一定的对应关系,否则会在使用的时候出现问题,具体对应关系参见网站:https://tensorflow.google.cn/install/source#gpu如图,下面还有GPU版本的对应关系,可以自行查找。一、Python安装python官网:https://ww

    2022年8月29日
    2
  • Server unexpectedly closed network connection的解决

    Server unexpectedly closed network connection的解决(1)apt-getremoveopenssh-server(2)sudoaptinstallopenssh-server(3)sudoservicesshstart(4)ps-aux|grepssh(5)sudoaptinstallopenssh-client(6)工具重连…

    2022年10月21日
    1
  • Iterator 和 Iterable 差别和联系「建议收藏」

    Iterator 和 Iterable 差别和联系

    2022年1月21日
    40
  • pytest运行_ios12清除缓存

    pytest运行_ios12清除缓存前言pytest运行完用例之后会生成一个.pytest_cache的缓存文件夹,用于记录用例的ids和上一次失败的用例。方便我们在运行用例的时候加上–lf和–ff参数,快速运行上一

    2022年7月31日
    5
  • python menuconfig_如何配置 ESP32 Menuconfig

    python menuconfig_如何配置 ESP32 Menuconfig如何配置ESP32Menuconfig准备我们可以有2种方式进入menuconfig模式1在Eclipse界面启动MenuConfigTarget(需参照如何使用安信可ESP系列一体化开发环境IDF章节);2打开Cygwin.bat,进入工程目录,执行makemenuconfig指令。这2种方法最终实现的效果都是一致的,您可以根据自己的需要进行选择。介绍执行…

    2022年6月7日
    138

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号