Python使用pandas读取excel表格数据

Python使用pandas读取excel表格数据导入importpandasaspd若使用的是Anaconda集成包则可直接使用,否则可能需要下载:pipinstallpandas读取表格并得到表格行列信息df=pd.read_excel(‘test.xlsx’)height,width=df.shapeprint(height,width,type(df))表格如下:得到如下输出,为一个4行5列的数据块:…

大家好,又见面了,我是你们的朋友全栈君。

导入

import pandas as pd

若使用的是Anaconda集成包则可直接使用,否则可能需要下载:pip install pandas

读取表格并得到表格行列信息

df=pd.read_excel('test.xlsx')
height,width = df.shape
print(height,width,type(df))

表格如下:
test.xlsx1
得到如下输出,为一个4行5列的数据块,为DataFrame格式:
输出
直接print(df)得到的结果:
print(df)
对比结果和表格,很显然表格中的第一行(黄色高亮部分)被定义为数据块的列下标,而实际视作数据的是后四行(蓝色高亮部分);并且自动在表格第一列之前加了一个行索引{0,1,2,3}。
test.xlsx2

提取数据放入数组中

x = np.zeros((height,width))
for i in range(0,height):
	for j in range(1,width+1): #遍历的实际下标,即excel第一行
		x[i][j-1] = df.ix[i,j]
print(x.shape)
print(x)

np.zeros()方法定义一个初试值全为0的二维数组(需要导入numpy库),用df.ix[i,j]读取数据并复制入二维数组中,其中for i in range(0,height)循环表示从下标0到下标height-1(不包含height),得到的输出如下:
输出

对代码做一些补充说明:

从DataFrame结构的数据中取值有三种常用的方法:

#第一种方法:ix
df.ix[i,j]		# 这里面的i,j为内置数字索引,行列均从0开始计数
df.ix[row,col]	# 这里面的row和col为表格行列索引,也就是表格中的行与列名称

#第二种方法:loc
df.loc[row,col]	# loc只支持使用表格行列索引,不能用内置数字索引

#第三种方法:iloc
df.iloc[i,j]	# iloc只支持使用内置数字索引,不能用表格行列索引

由于ix方法对两种索引都支持,所以这里就有一个问题:如果表格行列索引也是数字怎么办? 比如我上述例子中列索引为表格的第一行{1,2,3,4},而行索引为读取时自动添加的。
经过实验这种情况将会优先使用表格行列索引,也就对应了上面代码中得到的结果。不过为了不在使用时产生混乱,我个人建议还是使用loc或者iloc而不是ix为好。

在表格中自定义行列索引的情况

如果表格是下面这样的形式:
新表格
想要让读取得到的DataFrame行索引为{‘one’,‘two’,‘three’,‘four’},列索引为{‘一’,‘二’,‘三’,‘四’,‘五’}。如果直接使用read_excel(filename),虽然列索引会默认为第一行,但是行索引并不会默认为第一列,而是会自动添加一个{0,1,2,3}作为行索引。因此需要达到我们的目的需要设定一下读取时的参数,如下:

df = pd.read_excel(filename,index_col=0)	# 即指定第一列为行索引
print(df)
print('第0行第1列的数据为:',df.iloc[0,1])
print('第three行第二列的数据为:',df.loc['three','二'])

得到的输出如下所示:
新dataframe

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/154163.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 【已解决】【V1.0版本】如何彻底关闭Win10的自动更新并且随时可以恢复?

    【已解决】【V1.0版本】如何彻底关闭Win10的自动更新并且随时可以恢复?更新失败的问题我已经参考这篇文章解决了:【亲测管用】Windows10无法完成更新,正在撤销更改怎么办?精简脚本,在不删除服务的情况下阻止自动更新:【亲测管用】如何使用脚本关闭Win10自动更新服务并阻止其自动启动?如何关闭Windows10的自动更新真的是个大难题.当你遇到Windows更新包安装失败,却又被强制每天重新安装并且失败(安装失败有的时候得重启好几次),望着一遍又一…

    2022年6月4日
    36
  • 敏感指标ppt_MMR基因

    敏感指标ppt_MMR基因本文是对上篇MGN论文阅读做一个详细的补充,主要补充其结构设计及技术实现细节。文章内容整合来自云从科技资深算法研究员袁余锋老师,通过以下四个方面来讲解本次课题:1、ReID的定义及技术难点;2、常用数据集与评价指标简介;3、多粒度网络(MGN)的结构设计与技术实现;4、ReID在行人跟踪中的应用分析与技术展望ReID是行人智能认知的其中一个研究方向,行人智能认知…

    2022年10月6日
    1
  • 数仓分层(ODS、DWD、DWS、DWT、ADS)和数仓建模

    数仓分层(ODS、DWD、DWS、DWT、ADS)和数仓建模文章目录一、数仓分层数仓概念ODS(原始数据层)做了哪些事DWD(明细数据层)做了哪些事DWS(服务数据层)做了哪些事DWT(主题数据层)做了哪些事ADS(应用数据层)做了哪些事二、数仓建模常用的建模工具ODS层DWD层DWS层DWT层ADS层一、数仓分层数仓概念什么是数仓:数据仓库是为企业所有决策制定过程,提供所有系统数据支持的战略集合。通过对数据仓库中数据的分析,可以帮助企业改进业务流程、控制成本、提高产品质量等。数据仓库并不是数据的最终目的地,而是为数据最终的目的地做好准备。这些准

    2022年6月26日
    62
  • 云数据库专属集群MyBase_QQ群关系数据库

    云数据库专属集群MyBase_QQ群关系数据库HQY腾讯7000WQQ群关系数据库泄漏共24.52G。QQ24.5gb腾讯QQ群关系数据库,不包含密码。只包含个人名字(群备注名字等信息)。如果想在线查询更多qq群数据信息可以查看:一、下载完24.5gQQ数据库后,解压文件下载后不要把文件改名,打开7z,点击其中一个文件,选择合并文件,合并之后再解压,解压出来应该有22个mdf文件,实际大小应该是91.6G还不到92G。想要数据库下载地址…

    2022年9月1日
    4
  • Android开发project师,前行路上的14项技能

    Android开发project师,前行路上的14项技能

    2021年8月30日
    69
  • 免费编程学习资源

    免费编程学习资源web项目 1.链接:https://pan.baidu.com/s/1qZcykm4密码:c5va 2.链接:https://pan.baidu.com/s/1i64wMNV密码:jv34 3.链接:https://pan.baidu.com/s/1o9dinNG密码:rqu8 4.链接:https://pan.baidu.com/s/…

    2022年5月21日
    79

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号