Hive函数row_number实现[通俗易懂]

全栈程序员-站长 • 2022年5月8日下午10:40 • 未分类 • 阅读 141

Hive函数row_number实现[通俗易懂]需求：查询一批用户最后三次登陆时间，ip数据row_number实现”’importorg.apache.hadoop.hive.ql.exec.UDF;publicclassRowNumberextendsUDF{privatestaticintMAX_VALUE=50;privatestaticStringcomparedColumn[]=newString[

大家好，又见面了，我是你们的朋友全栈君。

需求：

查询一批用户最后三次登陆时间，ip数据

理解需求是实现分组取前n个值，实现方式是先按照uid字段升序或倒序，时间字段倒序排序数据集合，然后遍历数据集合，用row_number函数遍历uid字段，相同则row_number值+1，取row_number<=3

row_number实现

import org.apache.hadoop.hive.ql.exec.UDF;

public class RowNumber extends UDF { 
   

    private static int MAX_VALUE = 50;
    private static String comparedColumn[] = new String[MAX_VALUE];
    private static int rowNum = 1;

    public int evaluate(Object... args) {
        String columnValue[] = new String[args.length];
        for (int i = 0; i < args.length; i++){
            columnValue[i] = args[i].toString();
        }

        if (rowNum == 1) {
            for (int i = 0; i < columnValue.length; i++)
                comparedColumn[i] = columnValue[i];
        }

        for (int i = 0; i < columnValue.length; i++) {
            if (!comparedColumn[i].equals(columnValue[i])) {
                for (int j = 0; j < columnValue.length; j++) {
                    comparedColumn[j] = columnValue[j];
                }
                rowNum = 1;
                return rowNum++;
            }
        }
        return rowNum++;
    }
}

使用

add jar /xx/xx/user_function/mr-function-1.0.0.jar;
create temporary function row_number as 'com.xxx.xxx.RowNumber';

SELECT c.user_id,c.time,c.ip FROM (SELECT b.* FROM uids_20150831 a LEFT JOIN (SELECT * FROM login WHERE date >=20150101) b ON a.user_id = b.user_id distribute BY user_id sort BY user_id ASC,time DESC ) c WHERE row_number(c.user_id)<=3

参考：
http://blog.csdn.net/liuj2511981/article/details/8741276
http://blog.csdn.net/yfkiss/article/details/7885262
http://blog.csdn.net/yfkiss/article/details/7885262

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/140995.html原文链接：https://javaforall.net

赞 (0)

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

python语言变量命名规则有什-以下选项中,符合Python语言变量命名规则的是_学小易找答案…

上一篇 2022年5月8日下午10:40

linux常用net命令「建议收藏」

下一篇 2022年5月8日下午11:00

配置springboot项目使用外部tomcat

配置springboot项目使用外部tomcat在pom文件中添加依赖<!–使用自带的tomcat–><dependency><groupId>org.springframework.boot</

全栈程序员-站长
2022年8月16日
13
tomcat7配置教程_Tomcat热部署

tomcat7配置教程_Tomcat热部署1.Tomcat依赖于JDK，需要提前安装好JDK，参考另外一篇文章：JAVA安装部署2.到官网下载Tomcat7，解压到相关路径即可。Tomcat官网3.从Tomcat7之后的版本都不需要配置环境变量，在bin目录下，查看starup.bat：意思是如果bin目录下面存在catalina.bat文件，就可以访问tomcat页面了，代表安装成功了。PS:如果没…

全栈程序员-站长
2025年6月13日
4
潜意识的牢笼——为什么这件事情这么难

潜意识的牢笼——为什么这件事情这么难

全栈程序员-站长
2021年8月26日
64
怎样设置CCProxy

怎样设置CCProxy怎样设置 CCProxy 代理服务器 CCProxy 能够实现局域网内共享上网和帐号控制界面友好设置简单功能强大支持 Modem ADSL 宽带等共享上网支持网页缓存能实现多人共享浏览网页收发邮件和联络同时还能监视上网记录可以针对不同用户合理的安排上网时间和带宽流量控制有效地进行网站过滤是非常适合政府部门公司和学校使用的代理服务器软件它能帮您搭建

全栈程序员-站长
2025年10月8日
7
大数据——数仓分层

大数据——数仓分层首先需要理解数仓分层的概念并不是客观存在的它是多数人的主观的臆断所谓存在即合理之所以要怎么分层就是很多人一开始就这么分然后一致使用下来发现也跟预想的一样于是就有了数仓的层次概念清晰数据结构每一个数据分层都有它的作用域和职责在使用表的时候能更方便地定位和理解减少重复开发规范数据分层开发一些通用的中间层数据能够减少极大的重复计算统一数据口径通过数据分层提供统一的数据出口统一对外输出的数据口径复杂问题简单化将复杂的任务分解成多个步骤来完成每一层只处理单一的步骤比较简单和容易理解

全栈程序员-站长
2026年3月17日
2
月之暗面

月之暗面20天估值涨34亿新融资或加速AGI布局

月之暗面20天估值涨34亿新融资或加速AGI布局

全栈程序员-站长
2026年3月12日
3

发表回复

关注全栈程序员社区公众号