pandas之分组groupby()的使用整理与总结

全栈程序员-站长 • 2022年5月9日上午11:00 • 未分类 • 阅读 47

pandas之分组groupby()的使用整理与总结前言在使用pandas的时候，有些场景需要对数据内部进行分组处理，如一组全校学生成绩的数据，我们想通过班级进行分组，或者再对班级分组后的性别进行分组来进行分析，这时通过pandas下的groupby()函数就可以解决。在使用pandas进行数据分析时，groupby()函数将会是一个数据分析辅助的利器。groupby的作用可以参考超好用的pandas之groupby中作者的插图进行直…

大家好，又见面了，我是你们的朋友全栈君。

文章目录

- - - 前言
    - 准备
    - 基本操作
    - 可视化操作
    - REF

前言

在使用pandas的时候，有些场景需要对数据内部进行分组处理，如一组全校学生成绩的数据，我们想通过班级进行分组，或者再对班级分组后的性别进行分组来进行分析，这时通过pandas下的groupby()函数就可以解决。在使用pandas进行数据分析时，groupby()函数将会是一个数据分析辅助的利器。
groupby的作用可以参考超好用的 pandas 之 groupby 中作者的插图进行直观的理解：
在这里插入图片描述

准备

读入的数据是一段学生信息的数据，下面将以这个数据为例进行整理grouby()函数的使用：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

df = pd.read_csv('./data.csv')
print(df)

      Name  Gender  Age  Score
0     Alen    Male   18     80
1      Bob    Male   19     90
2     Cidy  Female   18     93
3   Daniel    Male   20     87
4    Ellen  Female   17     96
5  Frankie    Male   21    100
6     Gate    Male   20     88
7     Hebe  Female   22     98

基本操作

在进行对groupby函数进行学习之前，首先需要明确的是，通过对DataFrame对象调用groupby()函数返回的结果是一个DataFrameGroupBy对象，而不是一个DataFrame或者Series对象，所以，它们中的一些方法或者函数是无法直接调用的，需要按照GroupBy对象中具有的函数和方法进行调用。

grouped = df.groupby('Gender')
print(type(grouped))
print(grouped)

<class 'pandas.core.groupby.groupby.DataFrameGroupBy'>

分组时，不仅仅可以指定一个列名，也可以指定多个列名：

grouped = df.groupby('Gender')
grouped_muti = df.groupby(['Gender', 'Age'])

print(grouped.size())
print(grouped_muti.size())

Gender
Female    3
Male      5
dtype: int64

Gender  Age
Female  17     1
        18     1
        22     1
Male    18     1
        19     1
        20     2
        21     1
dtype: int64

指定多个列名个单个列名后的区别在于，分组的主键或者索引（indice）将一个是单个主键，另一个则是一个元组的形式：

print(grouped.get_group('Female'))
print(grouped_muti.get_group(('Female', 17)))

    Name  Gender  Age  Score
2   Cidy  Female   18     93
4  Ellen  Female   17     96
7   Hebe  Female   22     98
    Name  Gender  Age  Score
4  Ellen  Female   17     96

通过调用get_group()函数可以返回一个按照分组得到的DataFrame对象，所以接下来的使用就可以按照·DataFrame·对象来使用。如果想让这个DataFrame对象的索引重新定义可以通过：

df = grouped.get_group('Female').reset_index()
print(df)

   index   Name  Gender  Age  Score
0      2   Cidy  Female   18     93
1      4  Ellen  Female   17     96
2      7   Hebe  Female   22     98

这里可以总结一下，由于通过groupby()函数分组得到的是一个DataFrameGroupBy对象，而通过对这个对象调用get_group()，返回的则是一个·DataFrame·对象，所以可以将DataFrameGroupBy对象理解为是多个DataFrame组成的。
而没有调用get_group()函数之前，此时的数据结构任然是DataFrameGroupBy，此时进行对DataFrameGroupBy按照列名进行索引，同理就可以得到SeriesGroupBy对象，取多个列名，则得到的任然是DataFrameGroupBy对象，这里可以类比DataFrame和Series的关系。

按照上面的思路理解后，再调用get_group()函数后得到的DataFrame对象按照列名进行索引实际上就是得到了Series的对象，下面的操作就可以按照Series对象中的函数行了。

在没有进行调用get_group()，也就是没有取出特定某一组数据之前，此时的数据结构任然是DataFrameGroupBy，其中也有很多函数和方法可以调用，如max()、count()、std()等，返回的结果是一个DataFrame对象。

print(grouped.count())
print(grouped.max()[['Age', 'Score']])
print(grouped.mean()[['Age', 'Score']])

        Name  Age  Score
Gender                  
Female     3    3      3
Male       5    5      5
        Age  Score
Gender            
Female   22     98
Male     21    100
         Age      Score
Gender                 
Female  19.0  95.666667
Male    19.6  89.000000

如果其中的函数无法满足你的需求，你也可以选择使用聚合函数aggregate，传递numpy或者自定义的函数，前提是返回一个聚合值。

def getSum(data):
    total = 0
    for d in data:
        total+=d
    return total


print(grouped.aggregate(np.median))
print(grouped.aggregate({'Age':np.median, 'Score':np.sum}))
print(grouped.aggregate({'Age':getSum}))

aggregate函数不同于apply，前者是对所有的数值进行一个聚合的操作，而后者则是对每个数值进行单独的一个操作：

def addOne(data):
    return data + 1

df['Age'] = df['Age'].apply(addOne)
df['Age'] = df['Age'].apply(int)

可视化操作

对组内的数据绘制概率密度分布：

grouped['Age'].plot(kind='kde', legend=True)
plt.show()

由于grouped['Age']是一个SeriesGroupby对象, 顾名思义, 就是每一个组都有一个Series. 所以直接plot相当于遍历了每一个组内的Age数据。

REF

groupby官方文档
 超好用的 pandas 之 groupby

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/141267.html原文链接：https://javaforall.net

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

C++实现贪吃蛇(控制台)

上一篇 2022年5月9日上午11:00

linux安装yarn

下一篇 2022年5月9日上午11:00

常见的测试用例设计方法有哪些呢？「建议收藏」

常见的测试用例设计方法有哪些呢？「建议收藏」知乎问题：常见的测试用例设计方法有哪些呢？有什么比较好的基础理论书籍推荐吗？ [我的回答]2018年8月25日测试用例设计技术和方法，其目的是为了解决测试分析与设计过程中碰到的问题，纯粹的理论只是应用技术和方法的基础，但不是目的。测试用例分析与设计过程，需要我们不断的应用结构化思维、发散性思维和可视化思维，以构建系统化的测试分析与设计框架。我将2011年写的《软件测试设计…

全栈程序员-站长
2022年6月23日
27
garch模型的结果分析_管理学五力模型分析案例

garch模型的结果分析_管理学五力模型分析案例 readdatalibrary(quantmod) #加载包getSymbols(‘^HSI’,from=’1989-12-01′,to=’2013-11-30′) #从Yahoo网站下载恒生指数日价格数据dim(HSI) #数据规模names(HSI) #数据变量名称chartSeries(HSI,theme=’white’) #画出价格与交易的时…

全栈程序员-站长
2025年7月13日
1
单片机毕业设计流程_毕业设计根本不会做

单片机毕业设计流程_毕业设计根本不会做更多单片机毕业设计项目可查看该文档：点击查看，不断更新001、基于51单片机无线蓝牙APP控LED灯亮灭亮度设计002、基于51单片机老人防跌倒GSM短信报警系统003、基于51单片机老人防跌倒经纬度GPS定位短信GSM上报004、基于51单片机智能停车场管理车位引导系统设计005、STM32单片机生理监控心率脉搏TFT彩屏波形曲线006、基于51单片机环境监测设计光照PM2.5粉尘温湿度2.4G无线通信007、基于单片机的指纹红外密码电子锁008、基于stm32舞台彩灯控制器设计

全栈程序员-站长
2022年10月4日
6
104规约总结「建议收藏」

104规约总结「建议收藏」一.概念遥测：远程测量。采集并传送运行参数，包括各种电气量（线路上的电压、电流、功率等量值）和负荷潮流等。遥控：远程控制。接受并执行遥控命令，主要是分合闸，对远程的一些开关控制设备进行远程控制。遥信：远程信号。采集并传送各种保护告警和开关量信息。遥调：远程调节。接受并执行遥调命令，对远程的控制量设备进行远程调试，如调节发电机输出功率。二.基地址对比类别1997版基地址2002版基地址遥信1H—-400H1H—-4000H遥测701H–

全栈程序员-站长
2022年6月20日
72
Android layout属性之gravity和layout_gravity「建议收藏」

Android layout属性之gravity和layout_gravity「建议收藏」1.gravity用来描述当前view的内容在view中的位置。gravity是控制其内容或者包含的views在该view（或viewgroup）中的位置2.layout_gravity是表示

全栈程序员-站长
2022年7月3日
27
java集合类面试题_Java集合类相关面试题

java集合类面试题_Java集合类相关面试题1、Collection和Collections的差别java.util.Collection是一个集合接口，Collection接口在Java类库中有非常多详细的实现。比如List、Setjava.util.Collections是针对集合类的一个帮助类，它提供了一系列的静态方法实现对各种集合的搜索、排序、线程安全化等操作。2、ArrayList与Vector的差别这两个类都实现了List接…

全栈程序员-站长
2022年7月7日
23

pandas之分组groupby()的使用整理与总结

文章目录

前言

准备

基本操作

可视化操作

REF

关于作者

全栈程序员-站长

相关推荐

常见的测试用例设计方法有哪些呢？「建议收藏」

garch模型的结果分析_管理学五力模型分析案例

单片机毕业设计流程_毕业设计根本不会做

104规约总结「建议收藏」

Android layout属性之gravity和layout_gravity「建议收藏」

java集合类面试题_Java集合类相关面试题

发表回复