在Pandas中,如何根据Group By 结果计算 Row Number

在Pandas中,如何根据Group By 结果计算 Row Number例如我们有下面的数据,第一列是用户的ID,第二列是用户的购买日期,现在如果我们需要判断用户是否重复购买,并且,每一次的购买,下一次的购买时间间隔是多少呢?

大家好,又见面了,我是你们的朋友全栈君。


有的同学在处理自己的业务逻辑的时候,需要用到Row Number的方法,那么,什么是Row Number呢?

例如我们有下面的数据,第一列是用户的ID,第二列是用户的购买日期,现在如果我们需要判断用户是否重复购买,并且,每一次的购买,下一次的购买时间间隔是多少呢?

id,date
1,20150601
1,20150603
2,20150601
2,20150605
2,20150610
3,20150503
3,20150603
4,20150601

如果我们可以处理称为下面的数据,那么这个问题就完美解决了:

   id    date_x      date_y
0   1  20150601  20150603.0
1   1  20150603         NaN
2   2  20150601  20150605.0
3   2  20150605  20150610.0
4   2  20150610         NaN
5   3  20150503  20150603.0
6   3  20150603         NaN
7   4  20150601         NaN

date_y就是下一次的购买时间,date_y-date_x就是前后两次的购买间隔。

下面我们来看代码:

import pandas;

data = pandas.read_csv(“C:\\data\\test.csv”)

#大家注意,一定要先排序
data = data.sort([‘id’, ‘date’], ascending=[1, 1])

#使用groupby方法,然后继续调用rank方法,即可获取到每一个数据在原始数据的排序。
rnColumn = data.groupby(‘id’).rank(method=’min’)
data[‘rn’] = rnColumn;

data
Out[24]: 
   id      date   rn
0   1  20150601  1.0
1   1  20150603  2.0
2   2  20150601  1.0
3   2  20150605  2.0
4   2  20150610  3.0
5   3  20150503  1.0
6   3  20150603  2.0
7   4  20150601  1.0

在这里,我们可以看到,所谓的row Number,就是指在指定的分组中,它相对于非分组列,也就是date的排序号。

因为,我们希望得到某行对下一行的连接,因此,下一行,减一,就可以和上一行对应上了。

data[‘rn_1’] = rnColumn-1

#how参数,设置保留所有左边的表的输入。
data.merge(data, how=’left’, left_on=[‘id’, ‘rn’], right_on=[‘id’, ‘rn_1’])

这样子,我们就可以得到以下的结果了,我们通过筛选列,就可以得到我们的目标数据了。

data.merge(data, how=’left’, left_on=[‘id’, ‘rn’], right_on=[‘id’, ‘rn_1’])
Out[21]: 
   id    date_x  rn_x  rn_1_x      date_y  rn_y  rn_1_y
0   1  20150601   1.0     0.0  20150603.0   2.0     1.0
1   1  20150603   2.0     1.0         NaN   NaN     NaN
2   2  20150601   1.0     0.0  20150605.0   2.0     1.0
3   2  20150605   2.0     1.0  20150610.0   3.0     2.0
4   2  20150610   3.0     2.0         NaN   NaN     NaN
5   3  20150503   1.0     0.0  20150603.0   2.0     1.0
6   3  20150603   2.0     1.0         NaN   NaN     NaN
7   4  20150601   1.0     0.0         NaN   NaN     NaN

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/136545.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 记录 vue-cli3 配置uat环境 遇到的打包问题[通俗易懂]

    记录 vue-cli3 配置uat环境 遇到的打包问题[通俗易懂]今天给前端页面配置一个新的可供切换的环境UAT:修改package.json的scripts:”scripts”:{“serve”:”vue-cli-serviceserve”,”build”:”vue-cli-servicebuild”,”build:uat”:”vue-cli-servicebuild–modeuat”,…

    2022年9月28日
    6
  • 记tomcat部署war包的配置

    记tomcat部署war包的配置记tomcat部署war包的配置将war包放入Tomcat中将war包放到Tomcat目录下的webapps文件夹中;(大多数人的选择)如果放在此文件内,可能会导致项目路径出现问题。可以在Tomcat目录下自定义一个文件夹这里是自定义的myapps文件夹。定义war包路径打开conf/server.xml进行修改找到<host>部分,在其中加入代码<…

    2022年6月11日
    59
  • SpringCloud之SpringCloud常见面试题, SOA和微服务关系, SpringCloud和Dubbo区别, Eureka和Zookeeper区别「建议收藏」

    SpringCloud之SpringCloud常见面试题, SOA和微服务关系, SpringCloud和Dubbo区别, Eureka和Zookeeper区别「建议收藏」1.SpringCloud是什么SpringCloud是一系列框架的集合,集成SpringBoot,提供很多优秀服务:服务发现和注册,统一配置中心,负载均衡,网关,熔断器等。2.SpringCloud的优势因为SpringCloud源于Spring,所以它的质量,稳定性,持续性都是可以保证的。SpringCloiud天热支持SpringBoot框架,就可以提高开发效率,能够实现需求。SpringCloud更新很快,后期支持很给力。SpringCloud可以用来开发微服务。3.Sp

    2022年6月4日
    36
  • vs2008 sp1怎么安装_怎么安装vs2015

    vs2008 sp1怎么安装_怎么安装vs2015转自:  http://blog.csdn.net/binbb521/article/details/5519315先从微软网站下载补丁.    下载地址1为:http://download.microsoft.com/download/6/3/c/63c69e5d-74c9-48ea-b905-30ac3831f288/VS80sp1-KB926601-X86-E

    2022年10月6日
    3
  • apache 负载均衡_windows apache 实现负载均衡

    apache 负载均衡_windows apache 实现负载均衡最近做的一个项目可能需要用Aapche实现访问请求分流提高访问性能。因此自己研究了一下。现在把我自己配置成功的过程分享一下。首先要下载Apache.建议从官网下载http://httpd.apache.org/download.cgi我安装的是最新的版本2.4.25。安装方法参照http://jingyan.baidu.com/article/296

    2025年8月26日
    5
  • 数据库课程设计:教务管理系统Swing+MySql

    数据库课程设计:教务管理系统Swing+MySql文章目录实验报告主要内容3.2需求分析3.2.1简要叙述系统需求调查的方法1.需求分析的调查方法和流程2,需求调查结果的整理各种图1.业务流程图2.数据流图3.数据字典(截取部分)4.功能模块图5.用例图6.概念设计的基本思想和原理方法7.物理模型界面下载链接实验报告主要内容3.2需求分析3.2.1简要叙述系统需求调查的方法1.需求分析的调查方法和流程①调查学校教务系统的组织结构,列出各…

    2022年5月19日
    34

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号