python pandas数据匹配 merge函数

python pandas数据匹配 merge函数python中pandas数据匹配常用merge函数,其实merge函数就类似于excel中的vlookuphlookuplookup,最近excel又出了一个逆天的xlookup函数,默默地推荐一下,嘿嘿转载自:https://www.cnblogs.com/stream886/p/6022049.html,感谢博主一定要看里面的图,很形象使用Pandas进行数据匹配本文转载…

大家好,又见面了,我是你们的朋友全栈君。

python中pandas数据匹配常用merge函数,其实merge函数就类似于excel中的vlookup hlookup lookup,最近excel又出了一个逆天的xlookup函数,默默地推荐一下,嘿嘿

转载自:https://www.cnblogs.com/stream886/p/6022049.html,感谢博主

一定要看里面的图,很形象

使用Pandas进行数据匹配

本文转载自:蓝鲸的网站分析笔记

原文链接:使用Pandas进行数据匹配

 

目录

 


Pandas中的merge函数类似于Excel中的Vlookup,可以实现对两个数据表进行匹配和拼接的功能。与Excel不同之处在于merge函数有4种匹配拼接模式,分别为inner,left,right和outer模式。 其中inner为默认的匹配模式。本篇文章我们将介绍merge函数的使用方法和4种拼接模式的区别。

managed-services-mergers

下面是我们准备进行拼接的两个数据表,左边是贷款状态表loan_stats,右边为用户等级表member_grade。我们将分别用merge函数的4种匹配模式对这两个表进行拼接。

row_data

准备工作

开始使用merge函数进行数据拼接之前先导入所需的功能库,然后将分别读取两个数据表,并命名为loanstats表和member_grade表。

1

2

3

4

import numpy as np

import pandas as pd

loanstats=pd.DataFrame(pd.read_excel('loanStats.xlsx'))

member_grade=pd.DataFrame(pd.read_excel('member_grade.xlsx'))

函数功能介绍

merge函数的使用方法很简单,以下是官方的函数功能介绍和使用说明。merge函数中第一个出现的数据表是拼接后的left部分,第二个出现的数据表是拼接后的right部分。第三个是数据匹配模 式,默认是inner模式。第四个参数on表示数据匹配所依据的字段名称,如果这个字段名称同时出现在两个数据表中,那么可以省略on参数的设置,merge默认会按照两个数据表中共有的字段名称进行匹配和拼接。如果两个数据表中的匹配字段名称不一致,则需要分别在left_on和right_on参数中指明两个表匹配字段的名称。如果两个数据表中没有匹配字段,需要使用索引列进行匹配和拼接,可以对left_index和right_index参数设置为True。merge还有一些排序和其他的参数,可在需要使用时进行设置。

merge

Inner模式匹配

inner模式是merge的默认匹配模式,我们通过下面的文氏图来说明inner的匹配方法。Inner模式提供在loanstats和member_grade表中共有字段的匹配结果。也就是对两个的表交集部分进行匹配和拼接。单独只出现在一个表中的字段值不会参与匹配和拼接。

inner_img

以下是使用merge函数进行拼接的代码,因为inner是默认的拼接模式,因此也可以省略how=’inner’部分。其中第一个出现的loanstats出现在拼接后的左侧,member_grade出现在拼接后的右侧。拼接后的数据表中只包含两个表的交集,因此不存在未匹配到的NaN情况。

1

loan_inner=pd.merge(loanstats,member_grade,how='inner')

inner
left模式匹配

left模式是左匹配,以左边的数据表loanstats为基础匹配右边的数据表member_grade中的内容。匹配不到的内容以NaN值显示。在Excel中就好像将Vlookup公式写在了左边的表中。下面的文氏图说明了left模式的匹配方法。Left模式匹配的结果显示了所有左边数据表的内容,以及和右边数据表共有的内容。

left_img

以下为使用left模式匹配并拼接后的结果,loanstats在merge函数中第一个出现,因此为左表,member_grade第二个出现,为右表。匹配模式为left模式。从结果中可以看出left匹配模式保留了一张完整的loanstats表,以此为基础对member_grade表中的内容进行匹配。loanstats表中有两个member_id值在member_grade中无法找到,因此grades字段显示为NaN值。

1

loan_left=pd.merge(loanstats,member_grade,how='left')

left
right模式匹配

第三种模式是right匹配,right与left模式正好相反,right模式是右匹配,以右边的数据表member_grade为基础匹配左边的数据表loanstats。匹配不到的内容以NaN值显示。下面通过文氏图说明right模式的匹配方法。Right模式匹配的结果显示了所有右边数据表的内容,以及和左边数据表共有的内容。

right_img

以下为使用right模式匹配拼接的结果,从结果表中可以看出right匹配模式保留了完整的member_grade表,以此为基础对loanstats表进行匹配,在member_grade数据表中有两个条目在loanstats数据表中无法找到,因此显示为了NaN值。

1

loan_right=pd.merge(loanstats,member_grade,how='right')

right

outer模式匹配

最后一种模式是outer匹配,outer模式是两个表的汇总,将loanstats和member_grade两个要匹配的两个表汇总在一起,生成一张汇总的唯一值数据表以及匹配结果。

outer_img
下面是使用outer模式匹配拼接的结果,其中member_id列包含了loanstats和member_grade中的唯一值,grade列显示了对member_grade表匹配的结果,其他列则显示了对loanstats表匹配的结果 ,无法匹配的内容以NaN值显示。

1

loan_outer=pd.merge(loanstats,member_grade,how='outer')

outer
NaN值匹配问题

在进行数据匹配和拼接的过程中经常会遇到NaN值。这种情况下merge函数会如何处理呢?merge会将两个数据表中的NaN值进行交叉匹配拼接,换句话说就是将loanstats表member_id列中的NaN值
分别与member_grade表中member_id列中的每一个NaN值进行匹配,然后再拼接在一张表中。下面是包含NaN值的两张数据表进行拼接的结果,当我们使用left模式进行匹配时,loanstats作为基础
表,其中member_id列的NaN值分别与member_grade表中member_id列的每一个NaN值进行匹配。并将匹配结果显示在了结果表中。

1

loan_left=pd.merge(loanstats,member_grade,how='left')

NaN值匹配

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/136730.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Wireshark安装使用[通俗易懂]

    Wireshark工具下载下载解压默认安装即可然后选择你的网卡点击Start抓包即可

    2022年4月18日
    61
  • 一起学JAVA API Object String StringBuffer/StringBuilder

    一起学JAVA API Object String StringBuffer/StringBuilder1前言亲爱的小伙伴萌,目前我们看到的是Java基础部分的一个新的部分API,这是个啥,又能做啥呢?其实可以概括成一句话:帮助我们站在巨人的肩膀上,实现更加高效的开发,那么我们来一探究竟吧~2什么是APIAPI(ApplicationProgrammingInterface,应用程序接口)是一些预先定义的函数。目的是提供应用程序与开发人员基于某软件可以访问的一些功能集,但又无需访问源码或理解内部工作机制的细节.API是一种通用功能集,有时公司会将API作为其公共开放系统,也就是公司制定自己的

    2022年5月25日
    25
  • android集成chrome内核_java实现ie内核

    android集成chrome内核_java实现ie内核参照开源代码jcefhttps://bitbucket.org/chromiumembedded/java-cef实现效果支持开发者工具项目源代码,目前只编译了32位http://pan.baidu.com/s/1skcXKlf…

    2025年8月3日
    2
  • Python zipfile简介「建议收藏」

    Python zipfile简介「建议收藏」从简单的角度来看的话,zip格式会是个不错的选择,而且python对zip格式的支持够简单,够好用。1)简单应用如果你仅仅是希望用python来做压缩和解压缩,那么就不用去翻文档了,这里提供一个简单的用法,让你一看就能明白。importzipfilef=zipfile.ZipFile(‘filename.zip’,’w’,zipfile.ZIP_DEFLATED)f.write(…

    2022年9月16日
    3
  • OJ平台汇总

    OJ平台汇总leetcode:https://leetcode.com/提交错误能够给出错误的数据,比较好调试。浙江大学OnlineJudge(ZOJ):http://acm.zju.edu.cn/国内最早也是最有名气的OJ,打开速度快。北京大学OnlineJudge(POJ):http://acm.pku.edu.cn/JudgeOnline/举行在线比赛比较多,数据比ZOJ上的

    2022年6月16日
    35
  • linux查看端口号命令

    linux查看端口号命令这本阿里 P8 撰写的算法笔记 再次推荐给大家 身边不少朋友学完这本书最后加入大厂 Github 疯传 史上最强悍 阿里大佬 LeetCode 刷题手册 开放下载了 第一种 lsof i 端口号第二种 netstat nltp grep 端口号 a 显示本机所有连接和监听地端口 n 网络 IP 地址的形式 显示当前建立的有效连接和端口 r 显示路由表信息 s 显示按协议的统计信息 v 显示当前有效的连接 t 显示所有 TCP 协议连接情况 u 显示所有 UDP 协议连接情况 i 显示自

    2025年8月11日
    1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号