Hive函数row_number实现[通俗易懂]

Hive函数row_number实现[通俗易懂]需求:查询一批用户最后三次登陆时间,ip数据row_number实现”’importorg.apache.hadoop.hive.ql.exec.UDF;publicclassRowNumberextendsUDF{privatestaticintMAX_VALUE=50;privatestaticStringcomparedColumn[]=newString[

大家好,又见面了,我是你们的朋友全栈君。

需求:

查询一批用户最后三次登陆时间,ip数据

理解需求是实现分组取前n个值,实现方式是先按照uid字段升序或倒序,时间字段倒序排序数据集合,然后遍历数据集合,用row_number函数遍历uid字段,相同则row_number值+1,取row_number<=3

row_number实现

import org.apache.hadoop.hive.ql.exec.UDF;

public class RowNumber extends UDF { 
   

    private static int MAX_VALUE = 50;
    private static String comparedColumn[] = new String[MAX_VALUE];
    private static int rowNum = 1;

    public int evaluate(Object... args) {
        String columnValue[] = new String[args.length];
        for (int i = 0; i < args.length; i++){
            columnValue[i] = args[i].toString();
        }

        if (rowNum == 1) {
            for (int i = 0; i < columnValue.length; i++)
                comparedColumn[i] = columnValue[i];
        }

        for (int i = 0; i < columnValue.length; i++) {
            if (!comparedColumn[i].equals(columnValue[i])) {
                for (int j = 0; j < columnValue.length; j++) {
                    comparedColumn[j] = columnValue[j];
                }
                rowNum = 1;
                return rowNum++;
            }
        }
        return rowNum++;
    }
}

使用

add jar /xx/xx/user_function/mr-function-1.0.0.jar;
create temporary function row_number as 'com.xxx.xxx.RowNumber';

SELECT c.user_id,c.time,c.ip FROM (SELECT b.* FROM uids_20150831 a LEFT JOIN (SELECT * FROM login WHERE date >=20150101) b ON a.user_id = b.user_id distribute BY user_id sort BY user_id ASC,time DESC ) c WHERE row_number(c.user_id)<=3

参考:
http://blog.csdn.net/liuj2511981/article/details/8741276
http://blog.csdn.net/yfkiss/article/details/7885262
http://blog.csdn.net/yfkiss/article/details/7885262

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/140995.html原文链接:https://javaforall.net

(0)
上一篇 2022年5月8日 下午10:40
下一篇 2022年5月8日 下午11:00


相关推荐

  • 配置springboot项目使用外部tomcat

    配置springboot项目使用外部tomcat在pom文件中添加依赖<!–使用自带的tomcat–><dependency><groupId>org.springframework.boot</

    2022年8月16日
    13
  • tomcat7配置教程_Tomcat热部署

    tomcat7配置教程_Tomcat热部署1.Tomcat依赖于JDK,需要提前安装好JDK,参考另外一篇文章:JAVA安装部署2.到官网下载Tomcat7,解压到相关路径即可。Tomcat官网3.从Tomcat7之后的版本都不需要配置环境变量,在bin目录下,查看starup.bat:意思是如果bin目录下面存在catalina.bat文件,就可以访问tomcat页面了,代表安装成功了。PS:如果没…

    2025年6月13日
    4
  • 潜意识的牢笼——为什么这件事情这么难

    潜意识的牢笼——为什么这件事情这么难

    2021年8月26日
    64
  • 怎样设置CCProxy

    怎样设置CCProxy怎样设置 CCProxy 代理服务器 CCProxy 能够实现局域网内共享上网和帐号控制 界面友好 设置简单 功能强大 支持 Modem ADSL 宽带等共享上网 支持网页缓存 能实现多人共享浏览网页 收发邮件和联络 同时还能监视上网记录 可以针对不同用户合理的安排上网时间和带宽流量控制 有效地进行网站过滤 是非常适合政府部门 公司和学校使用的代理服务器软件 它能帮您搭建

    2025年10月8日
    7
  • 大数据——数仓分层

    大数据——数仓分层首先需要理解数仓分层的概念并不是客观存在的 它是多数人的主观的臆断 所谓存在即合理 之所以要怎么分层就是很多人一开始就这么分 然后一致使用下来发现也跟预想的一样 于是 就有了数仓的层次概念 清晰数据结构 每一个数据分层都有它的作用域和职责 在使用表的时候能更方便地定位和理解减少重复开发 规范数据分层 开发一些通用的中间层数据 能够减少极大的重复计算统一数据口径 通过数据分层 提供统一的数据出口 统一对外输出的数据口径复杂问题简单化 将复杂的任务分解成多个步骤来完成 每一层只处理单一的步骤 比较简单和容易理解

    2026年3月17日
    2
  • 月之暗面20天估值涨34亿 新融资或加速AGI布局

    月之暗面20天估值涨34亿 新融资或加速AGI布局

    2026年3月12日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号