hive表数据去重

hive表数据去重

根据user name查重
SELECT test_user_name, count(*) c from default.test GROUP BY test_user_name HAVING c> 1;
根据id查重
SELECT id ,count(*) c FROM default.test GROUP BY id HAVING c >1;
去重:注意min用法,取相同数据的最小id,去重的重点
min:使用group by 分组后取分组内最小id,以便去掉其它重复数据
INSERT OVERWRITE table default.test partition(test_data_source) select * from default.test where id in ( select min(id) as id from default.test group by test_user_name) ;

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/100394.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 配置HSRP「建议收藏」

    配置HSRP「建议收藏」HSRP(HotStandbyRouterProtocol,热备份路由选择协议)是Cisco私有的一种技术,他确保了网络边缘设备或接入链路出现故障时,用户通信能迅速并透明恢复,以此为IP网络提供冗余性。通过应用HSRP,可使用网络的正常运行时间接近100%,从而满足用户对网络可靠性的要求。在使用HSRP协议的网络中,可以通过将不同的活跃路由器指定不同的三层交换机。从而实现网络流量的…

    2025年8月7日
    5
  • linux 操作系统 哪个好用,一款非常好看好用的国产Linux操作系统发行版

    linux 操作系统 哪个好用,一款非常好看好用的国产Linux操作系统发行版原标题:一款非常好看好用的国产Linux操作系统发行版之前在网上看到有网友说,国产操作系统的界面不好看,很简陋很粗糙,就像是WindowsXP的那种年代久远的操作界面一样。也有网友反驳说,国产操作系统界面友好,看起来很舒服。那么事实上是怎样的呢?到底是国产操作系统的设计还停留在人家微软的远古时代,还是部分网友对国产操作系统的认知有偏差?下面我来为大家展示一下。笔者接下来为大家展示的,是在国内做是…

    2022年5月17日
    48
  • 剑指Offer面试题:5.重建二叉树

    一题目:重建二叉树二思路先根据前序遍历序列的第一个数字创建根结点,接下来在中序遍历序列中找到根结点的位置,这样就能确定左、右子树结点的数量。在前序遍历和中序遍历的序列中划分了左、右子树结点的值

    2021年12月19日
    54
  • 网线之RJ45接口定义及网线线序[通俗易懂]

    网线之RJ45接口定义及网线线序[通俗易懂]RJ45接口定义常见的RJ45接口有两类:用于以太网网卡、路由器以太网接口等的DTE类型,还有用于交换机等的DCE类型。DTE我们可以称做“数据终端设备”,DCE我们可以称做“数据通信设备”。从某种意义来说,DTE设备称为“主动通信设备”,DCE设备称为“被动通信设备”。当两个类型一样的设备使用RJ45接口连接通信时,必须使用交叉线连接。这个可以从如下的RJ45DTE类型引脚定义

    2025年12月14日
    5
  • Bulma_bulimia

    Bulma_bulimiaBulma 是一个基于 Flexbox 构建的免费、开源的CSS框架,已经有超过200,000开发者在使用。https://bulma.zcopy.site/ht

    2022年8月4日
    7
  • 交换机基础

    交换机基础

    2022年2月2日
    82

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号