Python处理Excel数据-pandas篇

Python处理Excel数据-pandas篇Python处理Excel数据-pandas篇非常适用于大量数据的拼接、清洗、筛选及分析在计算机编程中,pandas是Python编程语言的用于数据操纵和分析的软件库。特别是,它提供操纵数值表格和时间序列的数据结构和运算操作。它的名字衍生自术语“面板数据”(paneldata),这是计量经济学的数据集术语,它们包括了对同一个体的在多个时期上的观测。它的名字是短语“Pythondataanalysis”自身的文字游戏。目录Python处理Excel数据-pandas篇一、安装环境1、打开以下文

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

Python处理Excel数据-pandas篇

非常适用于大量数据的拼接、清洗、筛选及分析

在计算机编程中,pandas是Python编程语言的用于数据操纵和分析的软件库。特别是,它提供操纵数值表格和时间序列的数据结构和运算操作。它的名字衍生自术语“面板数据”(panel data),这是计量经济学的数据集术语,它们包括了对同一个体的在多个时期上的观测。它的名字是短语“Python data analysis”自身的文字游戏。

一、安装环境

1、打开以下文件夹(个人路径会有差异):

 C:\Users\Administrator\AppData\Local\Programs\Python\Python38\Scripts

Jetbrains全家桶1年46,售后保障稳定

2、按住左Shift右键点击空白处,选择【在此处打开Powershell窗口(s)】

在这里插入图片描述

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kRJiEqCN-1608030817083)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20201215191141324.png)]

3、输入以下代码通过Pip进行安装Pandas库

./pip install pandas

./pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MgtI8yQm-1608030817086)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20201215191206646.png)]

安装完成后会有提示:Successfully installed pandas

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lsHFFWKv-1608030817089)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20201215191214525.png)]

二、数据的新建、保存与整理

1、新建数据保存到Excel

import pandas as pd
path = 'E:\python\测试\测试文件.xlsx'
data= pd.DataFrame({ 
   '序号':[1,2,3],'姓名':['张三','李四','王五']})
data= data.set_index('序号') #设置索引列为'序号'列
data.to_excel(path)

2、读取txt文件,将内容保存到Excel(引用B站UP 孙兴华示例文件)

Txt文件:

E:\python\练习.txt

男,杨过,19,13901234567,终南山古墓,2000/1/1

女,小龙女,25,13801111111,终南山古墓,2000/1/2

男,郭靖,40,13705555555,湖北襄阳,2020/1/1

女,黄蓉,35,13601111111,湖北襄阳,2000/1/4

男,张无忌,18,13506666666,明教,2000/1/5

女,周芷若,17,13311111111,明教,2000/1/6

女,赵敏,17,18800000000,明教,2000/1/7

import pandas as pd
path = r'E:\python\练习.txt'
data = pd.read_csv(path,header=None,names=['性别','姓名','年龄','地址','号码','时间'])
data.to_excel( r'E:\python\练习.xlsx')  #将数据储存为Excel文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3ndoK56g-1608030817092)(Pandas%208148b0742ba4410b86e80c5189b73f3e/Untitled%204.png)]

3、读取Excel及DataFrame的使用方式

import pandas as pd

path = 'E:\python\测试\\数据查询.xlsx'
data = pd.DataFrame(pd.read_excel(path,sheet_name='Left',header=1,converters={ 
   'A': str}))     # converters={'A': str} 设置A列格式为文本

data.index                       # 查看索引
data.values                      # 查看数值
data.sort_index()                # 按索引排序
data.sort_values()               # 按数值排序
data.head( 5 )                   # 查看前5行
data.tail( 3 )                   # 查看后3行
data.values                      # 查看数值
datashape                        # 查看行数、列数
data.isnull()                    # 查找data中出现的空值
data.unique()                    # 查看唯一值
data.columns                     # 查看data的列名
data.sort_index()                # 索引排序 
data.sort_values()               # 值排序

pd.merge(data1,data2)            # 合并,以下为左连接
pd.merge(data1,data2,on=[a],how='left') 
pd.concat([data1,data2])         # 合并,与merge的区别,自查**(特别注意要使用[])**
pd.pivot_table( data )           # 用df做data透视表(类似于Excel的数透)

data.reset_index()               # 修改、删除原有索引
data.reindex()                   # 重置索引,如下示例
data=data.reindex(columns=['商品名称', '规格', '对应车型类别', '备注', '新增的一列'], fill_value='新增的一列要填的值')  

a=data['x']                      # 取列名为'x'的列,格式为series
b=data[['x']]                    # 取列名为'x'的列,格式为Dataframe
c=data[['w','z']]                # 取多列时需要用Dataframe的格式
data.loc['A']                    # 取行名为'A'的行
data.loc[:,['x','z'] ]           # 表示选取所有的行以及columns为x,z的列
data['name'].values              # 取列名为'name'的列的值(取出来的是array而不是series)取单行后是一个Series,Series有index而无columns,可以用name来获取单列的索引
data.head(4)                     # 取头四行
data.tail(3)                     # 取尾三行
**data= data.iloc[2:, 2:20]        # 选择2行开始、2-11列**
[m, n] = data.shape              # 对m,n进行复制,m等于最大行数 n等于最大列数

data.notnull()                   # 非空值
data.dropna()                    # 删除空值
data.dropna()                    # 删除有空值的行
data.dropna(axis=1)              # 删除有空值的列
data.dropna(how='all')           # 删除所有值为Nan的行
data.dropna(thresh=2)            # 至少保留两个非缺失值
data.strip()                     # 去除列表中的所有空格与换行符号
data.fillna(0)                   # 将空值填充0
data.replace(1, -1)              # 将1替换成-1

data.fillna(100)                      # 填充缺失值为100
data.fillna({ 
   '语文':100,'数学':100,})        # 不同列填充不同值
data.fillna(method='ffill')                 # 将空值填充为上一个值
data.fillna(method='bfill')                 # 将空值填充下一个值
data.fillna(method='bfill',limit=1)         # 将空值填充下一个值,限制填充数量为1

三、数据排序与查询

1、排序

例1:按语文分数排序降序,数学升序,英语降序

import pandas as pd
path = 'c:/pandas/排序.xlsx'
data= pd.read_excel(path ,index_col='序号')
data.sort_values(by=['语文','数学','英语'],inplace=True,ascending=[False,True,False])
print(data)

例2:按索引进行排序

import pandas as pd
path = 'c:/pandas/排序.xlsx'
data = pd.read_excel(路径,index_col='序号')
data.sort_index(inplace=True)
print(data)

2、查询

单条件查询

import pandas as pd
path = 'c:/pandas/筛选.xlsx'
data = pd.read_excel(path ,index_col='出生日期')
print(data.loc['1983-10-27','语文'])

多条件查询

import pandas as pd
path = 'c:/pandas/筛选.xlsx'
data = pd.read_excel(path ,index_col='出生日期')
print(data.loc['1983-10-27',['语文','数学','英语']])

使用数据区间范围进行查询

import pandas as pd
path = 'c:/pandas/筛选.xlsx'
data = pd.read_excel(path,index_col='出生日期')
print(data.loc['1983-10-27':'1990-12-31',['语文','数学','英语']])

使用条件表达式进行查询

import pandas as pd
path = 'c:/pandas/筛选.xlsx'
data = pd.read_excel(路径,index_col='出生日期')
print(data.loc[(data['语文'] > 60) & (data['英语'] < 60),:])        #这里的 ,: 指的是列取全部

今天的分享到此就结束啦,后续还会继续更新~

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/222961.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 2020爱分析·智能通讯云厂商全景报告[通俗易懂]

    2020爱分析·智能通讯云厂商全景报告[通俗易懂]报告摘要企业面临业务增长的压力,通讯能力建设成为对内提升运营效率,对外提升产品竞争力和客户体验的重要手段,通讯云的场景应用正在加速渗透。基于对国内各行业甲方企业的调研,爱分析认为智能通讯云应用呈现以下趋势:•在提高内部运营效率方面,企业需要通过强化统一通讯能力,及提高办公智能化的方式实现;•对于企业的客服部门或呼叫中心而言,跑马圈地的时代已经过去,随着企业营销与服务渠道多元化,重心在促进营销转化与提升客户体验;•针对各行业的不同业务场景,通讯能力不仅是音视频交互工具的基础,还需..

    2022年5月18日
    48
  • snmp协议分析_snmp协议工作原理

    snmp协议分析_snmp协议工作原理介绍Snmp协议为简单网络管理协议(SimpleNetworkManagementProtocol),属于应用层协议,传输层使用UDP协议,主要用于网络设备的管理。Snmp协议分为snmp管理站(client端)和snmp代理(server端),snmp管理站通过udp协议向snmp代理发送请求消息,当snmp代理收到请求消息后,返回snmp管理站需要的内容。snmp消息全部通过UDP端…

    2022年10月17日
    2
  • 关系图谱在反欺诈场景中的应用及实践「建议收藏」

    关系图谱在反欺诈场景中的应用及实践「建议收藏」关系图谱概要随着近几年互联网金融的发展,玲琅满目的信贷产品早已被羊毛党盯上,层出不穷的营销活动更是让欺诈分子有了可乘之机,伪造资料、恶意注册大量虚假账号、团伙包装、刷单、抢红包、套返利等等,他们的欺诈技术手段也越来越高明(群控、云控),成本也越来越低。为了限制这些欺诈用户,信贷机构通过建立反欺诈团队和风控防范体系,使用专家规则和预测模型来拦截欺诈份子。但是道高一尺魔高一丈,再严密的规则也…

    2022年6月26日
    45
  • 挖矿程序处理[通俗易懂]

    挖矿程序处理[通俗易懂]记一次工作中遇到得挖矿程序处理首先需要减少中毒得几率,就是不要把ssh密码设得太简单,然后ssl端口号改改,改加的访问次数限制加上,常用的sql,代码管理工具等等port也都改掉,管理员权限账户不要多建挖矿程序特点,cpu占用率贼高300,kill不尽,会出现一些自己不曾安装过的程序,库等挖矿程序一般是杀死不净的,需要找到程序路径,以及自启动的脚本ls/proc/进程号/exe-la删掉相关程序but你会发现,它在其他地方又新建了脚本…

    2022年6月29日
    28
  • GFS分布式文件存储系统

    GFS分布式文件存储系统GFS分布式文件存储系统一GlusterFS概述二GlusterFS工作原理三GlusterFS卷类型3.1分布式卷3.2条带卷3.3复制卷3.4分布式条带卷3.5分布式复制卷四GlusterFS案例部署4.1实验环境4.2关闭防火墙与selinux4.3配置hosts文件4.4磁盘格式化与挂载4.5安装软件4.5.1共享Windows系统文件夹gfsrepo4.5.2查看共享文件夹4.5.3挂载共享文件夹4.5.4设置本地源仓库4.5.5安装软件4.5.6时间同步4

    2022年5月7日
    47
  • Jmeter正则表达式提取器获取Token-简单实例「建议收藏」

    Jmeter正则表达式提取器获取Token-简单实例「建议收藏」正则表达式提取响应数据中的Token步骤1:TestPlan下创建线程组,线程组下创建取样器->HTTP请求。上图中Login接口的Response中有用户token,该token需要在下一个需求提报的接口中使用,所以在Login下添加“正则表达式提取器”步骤2:选择Login,鼠标右键选择“添加->后置处理器->正则表达式提取器”步骤3:正则表达式…

    2025年9月4日
    7

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号