在Pandas中，如何根据Group By 结果计算 Row Number

全栈程序员-站长 • 2022年5月4日下午5:40 • 未分类 • 阅读 81

大家好，又见面了，我是你们的朋友全栈君。

原文链接：http://www.tbk.ren/article/253.html?source=csdn

有的同学在处理自己的业务逻辑的时候，需要用到Row Number的方法，那么，什么是Row Number呢？

例如我们有下面的数据，第一列是用户的ID，第二列是用户的购买日期，现在如果我们需要判断用户是否重复购买，并且，每一次的购买，下一次的购买时间间隔是多少呢？

id,date

1,20150601

1,20150603

2,20150601

2,20150605

2,20150610

3,20150503

3,20150603

4,20150601

如果我们可以处理称为下面的数据，那么这个问题就完美解决了：

id date_x date_y

0 1 20150601 20150603.0

1 1 20150603 NaN

2 2 20150601 20150605.0

3 2 20150605 20150610.0

4 2 20150610 NaN

5 3 20150503 20150603.0

6 3 20150603 NaN

7 4 20150601 NaN

date_y就是下一次的购买时间，date_y-date_x就是前后两次的购买间隔。

下面我们来看代码：

import pandas;

data = pandas.read_csv(“C:\\data\\test.csv”)

#大家注意，一定要先排序

data = data.sort([‘id’, ‘date’], ascending=[1, 1])

#使用groupby方法，然后继续调用rank方法，即可获取到每一个数据在原始数据的排序。

rnColumn = data.groupby(‘id’).rank(method=’min’)

data[‘rn’] = rnColumn;

data

Out[24]:

id date rn

0 1 20150601 1.0

1 1 20150603 2.0

2 2 20150601 1.0

3 2 20150605 2.0

4 2 20150610 3.0

5 3 20150503 1.0

6 3 20150603 2.0

7 4 20150601 1.0

在这里，我们可以看到，所谓的row Number，就是指在指定的分组中，它相对于非分组列，也就是date的排序号。

因为，我们希望得到某行对下一行的连接，因此，下一行，减一，就可以和上一行对应上了。

data[‘rn_1’] = rnColumn-1

#how参数，设置保留所有左边的表的输入。

data.merge(data, how=’left’, left_on=[‘id’, ‘rn’], right_on=[‘id’, ‘rn_1’])

这样子，我们就可以得到以下的结果了，我们通过筛选列，就可以得到我们的目标数据了。

data.merge(data, how=’left’, left_on=[‘id’, ‘rn’], right_on=[‘id’, ‘rn_1’])

Out[21]:

id date_x rn_x rn_1_x date_y rn_y rn_1_y

0 1 20150601 1.0 0.0 20150603.0 2.0 1.0

1 1 20150603 2.0 1.0 NaN NaN NaN

2 2 20150601 1.0 0.0 20150605.0 2.0 1.0

3 2 20150605 2.0 1.0 20150610.0 3.0 2.0

4 2 20150610 3.0 2.0 NaN NaN NaN

5 3 20150503 1.0 0.0 20150603.0 2.0 1.0

6 3 20150603 2.0 1.0 NaN NaN NaN

7 4 20150601 1.0 0.0 NaN NaN NaN

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/136545.html原文链接：https://javaforall.net

在Pandas中，如何根据Group By 结果计算 Row Number

关于作者

全栈程序员-站长

发表回复

在Pandas中，如何根据Group By 结果计算 Row Number

关于作者

全栈程序员-站长

相关推荐

web安全常见漏洞_web漏洞挖掘

OpenClaw是什么？OpenClaw能做什么？OpenClaw详细介绍及保姆级部署教程

Cursor使用教程：注册订阅与小白进阶指南（超详细）

oracle中sqrt函数的使用方法,PLSQL SQRT用法及代码示例[通俗易懂]

pip 安装与卸载软件包[通俗易懂]

在linux中如何解压.tgz「建议收藏」

发表回复