Pandas之drop_duplicates：去除重复项

全栈程序员-站长 • 2026年3月20日上午9:51 • 未分类 • 阅读 2

Pandas之drop_duplicates：去除重复项本文我们讲述 Pandas 如何去除重复项的操作我们选择一个评价数据集来演示如何删除特定列上的重复项如何删除重复项并保留最后一次出现以及 drop duplicates 的默认用法

前言

本文，我们讲述Pandas如何去除重复项的操作，我们选择一个评价数据集来演示如何删除特定列上的重复项，如何删除重复项并保留最后一次出现，以及drop_duplicates的默认用法

方法

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

返回值

这个drop_duplicate方法是对DataFrame格式的数据，去除特定列下面的重复行。

返回删除重复行的 DataFrame。考虑某些列是可选的。索引（包括时间索引）将被忽略。

参数

返回DataFrame格式的数据。

subset : column label or sequence of labels, optional
用来指定特定的列，默认所有列
keep : {‘first’, ‘last’, False}, default ‘first’
删除重复项并保留第一次出现的项
inplace : boolean, default False
是直接在原来数据上修改还是保留一个副本

实验

构建包含拉面评级的数据集

df = pd.DataFrame({ 
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'], 'style': ['cup', 'cup', 'cup', 'pack', 'pack'], 'rating': [4, 4, 3.5, 15, 5] })

数据集数据格式

默认情况下，它会根据所有列删除重复的行

df.drop_duplicates()

要删除特定列上的重复项，请使用subset

df.drop_duplicates(subset=['brand'])

要删除重复项并保留最后一次出现，请使用 keep

df.drop_duplicates(subset=['brand', 'style'], keep='last')

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/201203.html原文链接：https://javaforall.net

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

ExtJs 入门教程

上一篇 2026年3月20日上午9:51

快速排序 – python版超详细讲解

下一篇 2026年3月20日上午9:51

Python表白代码：“ 星光月夜烟花皆归你，我也归你”（满天烟花盛开、附番外玫瑰）

Python表白代码：“ 星光月夜烟花皆归你，我也归你”（满天烟花盛开、附番外玫瑰）导语”慢品人间烟火色闲观人间岁月长”———致自己????遇见我以后，我们的故事就开始了，愿你历经山河，仍觉得人间值得????。星光月夜烟花皆归你，我也归你。关于烟花????大家都知道多少？有多少表白故事情节都发生在烟花下，想必木木子????不用说大家也知道叭~今天这则小短文就是关于烟花的故事！你准备好跟我一起进入烟花的世界了嘛？正文“每一句文案，都有一个故事，你仔细听”1）环境安装????准备好：.

全栈程序员-站长
2022年6月2日
40
Python 学生信息管理系统——文章中源码100%真实有效—–如何将类、初始化属性、模块、循环判断、静态方法等一系列知识点结合起来做一个项目「建议收藏」

Python 学生信息管理系统——文章中源码100%真实有效—–如何将类、初始化属性、模块、循环判断、静态方法等一系列知识点结合起来做一个项目「建议收藏」这篇博客主要就是把学生管理系统进行源码分享，这段源码很好的将前面所学的全部串在一起。就我个人而言真的是非常有价值。就算你python前面的基础不好，学完这个系统你会有重获新生的感觉。本文适合需要用python完成课程大作业、python爱好者、python路上的学习者、初学python者、需要将python知识点串在一起的人、上进的人。manageSystem.py#TODO鸟欲高飞，必先展翅#TODO向前的人：Jhon

全栈程序员-站长
2022年8月23日
11
分布式事务saga_分布式事务代码例子

分布式事务saga_分布式事务代码例子1.分布式事务在前面文章《分布式事务》中介绍了几种分布式事务，其中Saga介绍了相关的概念，接下来介绍Saga使用案例，案例来源《微服务架构设计模式》。2.案例需求分析2.1一个成功的订单创建流程实现餐馆系统中的创建订单createOrder()操作。这个操作必须验证消费者是否满足下订单的相关条件、验证订单内容、完成消费者的信用卡授权,以及在数据库中创建Order。一个成功的订单创建流程：创建一个待处理订单；验证订单消费者可以下单；创建后厨工单；对消费者提供的信用卡进行授权操

全栈程序员-站长
2025年11月26日
1
pycharm许可证过期_当前系统license过期

pycharm许可证过期_当前系统license过期问题描述今天打开PyCharm的时候弹出提示框Yourlicensehasexpired，表示证书到期了，无法继续使用软件。之前使用的证书是在学校的时候注册的学生账号，也就是以.edu.cn结尾的账号。现在需要寻找一种新的认证方式。解决方案PyCharm属于JetBrains的一员，这个系列的软件的认证方式有三种，分别是账号登录、激活码和授权服务器。对于在校的学生用户，…

全栈程序员-站长
2022年8月25日
10
resnet18 pytorch_如何搭建服务器

resnet18 pytorch_如何搭建服务器参照ResNet50的搭建，由于50层以上几乎相同，叠加卷积单元数即可，所以没有写注释。101和152的搭建注释可以参照我的ResNet50搭建中的注释：训练可以参照我的ResNet18搭建中的训练部分：ResNet101和152可以依旧参照ResNet50的网络图片：上代码：ResNet101的model.py模型：importtorchimporttorch.nnasnnfromtorch.nnimportfunctionalasFclassDownSampl

全栈程序员-站长
2022年10月6日
6
Linux下查看CPU型号,内存大小,硬盘空间的命令(详解)

Linux下查看CPU型号,内存大小,硬盘空间的命令(详解)

全栈程序员-站长
2021年6月2日
118

Pandas之drop_duplicates：去除重复项

前言

方法

返回值

参数

实验

关于作者

全栈程序员-站长

相关推荐

Python表白代码：“ 星光月夜烟花皆归你，我也归你”（满天烟花盛开、附番外玫瑰）

Python 学生信息管理系统——文章中源码100%真实有效—–如何将类、初始化属性、模块、循环判断、静态方法等一系列知识点结合起来做一个项目「建议收藏」

分布式事务saga_分布式事务代码例子

pycharm许可证过期_当前系统license过期

resnet18 pytorch_如何搭建服务器

Linux下查看CPU型号,内存大小,硬盘空间的命令(详解)

发表回复