hive表数据去重

全栈程序员-站长 • 2021年5月13日上午11:00 • 未分类 • 阅读 151

hive表数据去重

根据user name查重
SELECT test_user_name, count(*) c from default.test GROUP BY test_user_name HAVING c> 1;
根据id查重
SELECT id ,count(*) c FROM default.test GROUP BY id HAVING c >1;
去重：注意min用法，取相同数据的最小id，去重的重点
min:使用group by 分组后取分组内最小id，以便去掉其它重复数据
INSERT OVERWRITE table default.test partition(test_data_source) select * from default.test where id in ( select min(id) as id from default.test group by test_user_name) ;

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/100394.html原文链接：https://javaforall.net

数据

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

Mac 长按键盘快速输入（长按输入慢的问题）

上一篇 2021年5月13日上午10:00

Could not initialize class org.xerial.snappy.Snappy

下一篇 2021年5月13日上午11:00

whl文件下载「建议收藏」

whl文件下载「建议收藏」到哪找.whl文件？http://www.lfd.uci.edu/~gohlke/pythonlibs/转载于:https://www.cnblogs.com/lhuser/p/8084734.html

全栈程序员-站长
2022年5月7日
97
ADRC学习心得（持续更新）[通俗易懂]

ADRC学习心得（持续更新）[通俗易懂]两年前第一次接触到PID觉得很高深，很神奇；后来逐渐觉得单纯的PID小儿科了，又了解到专家PID，模糊PID，神经网络PID这些改进算法，再后来又知道了ADRC，便感控制领域浩如烟海，所学不过沧海一粟。然便纵真理无穷，进一寸自有一寸的欢喜。不敢说看了几篇论文，听了几节报告，做了几次仿真，就吃透ADRC了，不过只是一些粗浅的理解，记录一行歪歪斜斜的足迹。以便回首过眼云烟之时，可以安慰自己一句，我已经飞过。一、系统有关概念1、系统的状态空间模型描述一个系统，最常用的数学模型有：微分方程传递函数状

全栈程序员-站长
2022年5月19日
79
好用的免杀远控_延迟低的远程控制软件

好用的免杀远控_延迟低的远程控制软件能测试的，私联系。

全栈程序员-站长
2025年8月2日
5
Linux：Tomcat部署war包

Linux：Tomcat部署war包1、xftp上传Tomcat2、解压Tomcat：tar-zvxf文件unzip文件等解压命令3、将war包放在Tomcat中的webapps目录下（如果webapps中有任何其他war包或解压后的文件都需要删除）4、修改以上穿过去的文件的拥有者（非root用户下时）5、查看需要使用的端口的占用情况（ro…

全栈程序员-站长
2025年7月4日
5
ORACLE 创建数据库

ORACLE 创建数据库ORACLE 创建数据库创建表空间创建表空间 createtables txjt dbf size10M 查询当前用户拥有的所有的表空间 selecttables namefromuser tablespaces 创建用户并指定默认表空间并授予权限创建用户并指定表空间 createusertx 权限授予 grantconnect res

全栈程序员-站长
2026年3月19日
2
11-wtm附件管理

11-wtm附件管理fileattachme GUID 主键文件名称文件后缀文件路径文件长度上传时间保存模式文件数据额外信息处理信息

全栈程序员-站长
2026年3月18日
2

发表回复

hive表数据去重

关于作者

全栈程序员-站长

相关推荐

whl文件下载「建议收藏」

ADRC学习心得（持续更新）[通俗易懂]

好用的免杀远控_延迟低的远程控制软件

Linux：Tomcat部署war包

ORACLE 创建数据库

11-wtm附件管理

发表回复