hive表数据去重

hive表数据去重

根据user name查重
SELECT test_user_name, count(*) c from default.test GROUP BY test_user_name HAVING c> 1;
根据id查重
SELECT id ,count(*) c FROM default.test GROUP BY id HAVING c >1;
去重:注意min用法,取相同数据的最小id,去重的重点
min:使用group by 分组后取分组内最小id,以便去掉其它重复数据
INSERT OVERWRITE table default.test partition(test_data_source) select * from default.test where id in ( select min(id) as id from default.test group by test_user_name) ;

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/100394.html原文链接:https://javaforall.net

(0)
上一篇 2021年5月13日 上午10:00
下一篇 2021年5月13日 上午11:00


相关推荐

  • whl文件下载「建议收藏」

    whl文件下载「建议收藏」到哪找.whl文件?http://www.lfd.uci.edu/~gohlke/pythonlibs/转载于:https://www.cnblogs.com/lhuser/p/8084734.html

    2022年5月7日
    97
  • ADRC学习心得(持续更新)[通俗易懂]

    ADRC学习心得(持续更新)[通俗易懂]两年前第一次接触到PID觉得很高深,很神奇;后来逐渐觉得单纯的PID小儿科了,又了解到专家PID,模糊PID,神经网络PID这些改进算法,再后来又知道了ADRC,便感控制领域浩如烟海,所学不过沧海一粟。然便纵真理无穷,进一寸自有一寸的欢喜。不敢说看了几篇论文,听了几节报告,做了几次仿真,就吃透ADRC了,不过只是一些粗浅的理解,记录一行歪歪斜斜的足迹。以便回首过眼云烟之时,可以安慰自己一句,我已经飞过。一、系统有关概念1、系统的状态空间模型描述一个系统,最常用的数学模型有:微分方程传递函数状

    2022年5月19日
    79
  • 好用的免杀远控_延迟低的远程控制软件

    好用的免杀远控_延迟低的远程控制软件能测试的,私联系。

    2025年8月2日
    5
  • Linux:Tomcat部署war包

    Linux:Tomcat部署war包1、xftp上传Tomcat2、解压Tomcat:tar-zvxf文件unzip文件等解压命令3、将war包放在Tomcat中的webapps目录下(如果webapps中有任何其他war包或解压后的文件都需要删除)4、修改以上穿过去的文件的拥有者(非root用户下时)5、查看需要使用的端口的占用情况(ro…

    2025年7月4日
    5
  • ORACLE 创建数据库

    ORACLE 创建数据库ORACLE 创建数据库创建表空间创建表空间 createtables txjt dbf size10M 查询当前用户拥有的所有的表空间 selecttables namefromuser tablespaces 创建用户并指定默认表空间 并授予权限创建用户并指定表空间 createusertx 权限授予 grantconnect res

    2026年3月19日
    2
  • 11-wtm附件管理

    11-wtm附件管理fileattachme GUID 主键 文件名称 文件后缀 文件路径 文件长度 上传时间 保存模式 文件数据 额外信息 处理信息

    2026年3月18日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号