python数据去重的函数_python去重函数是什么

全栈程序员-站长 • 2026年3月19日下午9:04 • 未分类 • 阅读 2

数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated(subset = None，keep =‘first’)返回boolean Series表示重复行

参数：

subset：列标签或标签序列，可选

仅考虑用于标识重复项的某些列，默认情况下使用所有列

keep：{‘first’，‘last’，False}，默认’first’

first：标记重复，True除了第一次出现。

last：标记重复，True除了最后一次出现。

错误：将所有重复项标记为True。

相关推荐：《Python基础教程》import numpy as np

import pandas as pd

from pandas import Series, DataFrame

df = pd.read_csv(‘./demo_duplicate.csv’)

print(df)

print(df[‘Seqno’].unique()) # [0. 1.]

# 使用duplicated 查看重复值

# 参数 keep 可以标记重复值 {‘first’，’last’，False}

print(df[‘Seqno’].duplicated())

”’

0 False

1 True

2 True

3 True

4 False

Name: Seqno, dtype: bool

”’

# 删除 series 重复数据

print(df[‘Seqno’].drop_duplicates())

”’

0 0.0

4 1.0

Name: Seqno, dtype: float64

”’

# 删除 dataframe 重复数据

print(df.drop_duplicates([‘Seqno’])) # 按照 Seqno 来去重

”’

Price Seqno Symbol time

0 1623.0 0.0 APPL

4 1649.0 1.0 APPL

”’

# drop_dujplicates() 第二个参数 keep 包含的值有： first、last、False

print(df.drop_duplicates([‘Seqno’], keep=’last’)) # 保存最后一个

”’

Price Seqno Symbol time

3 1623.0 0.0 APPL

4 1649.0 1.0 APPL

”’

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/204075.html原文链接：https://javaforall.net

python数据去重的函数_python去重函数是什么

关于作者

全栈程序员-站长

发表回复

python数据去重的函数_python去重函数是什么

关于作者

全栈程序员-站长

相关推荐

《计算机网络》谢希仁第七版课后答案完整版[通俗易懂]

阿里股价直线拉升！消息称阿里秘密启动“千问”项目全面对标ChatGPT

几种页面跳转方法_HTML页面跳转的方法

ioctl函数详解_lseek函数

首个国产芯片训练的多模态 SOTA 模型，已免费开源！

Python 模仿按键精灵，批量验证和添加手机号码为企业微信账号的联系人「建议收藏」

发表回复