#encoding=utf-8 import numpy as np import pandas as pd from pylab import * def main(): # #Data Structure # s=pd.Series([i*2 for i in range(1,11)])#一维数组 # print(type(s)) # dates=pd.date_range("",periods=8) # df=pd.DataFrame(np.random.randn(8,5),index=dates,columns=list('ABCDE')) # print(df) # # #Basic # print(df.head(3))#查看前3行 # # print(df.tail(3))#查看后3行 # # print(df.index)#查询首列 # # print(df.values)#数据遍历 # # print(df.T)#数据的转置 # # print(df.sort_values(by="C"))#按C列升序排列 # # print(df.sort_index(axis=1,ascending=False))#对index进行降序排序 # # print(df.describe())#打印出最大值、最小值等信息帮助我们了解数据 # # #Select切片 # print(df["A"])#打印出A属性列 # print(type(df["A"]))#看A属性列的类型series # print(df[:3])#前3行 # print(df["2017-03-02":"2017-03-05"])#"2017-03-02"到“2017-03-05”行 # print(df.loc[dates[0]])#第一行日期的数据 # print(df.loc["":"",["B","D"]])#取""到""中B、D列数据 # print(df.at[dates[0],"C"])#第一行日期C列的数据 # print(df.iloc[1:3,2:4])#二维数组1到3,2到4的数据 # print(df.iloc[1,4])#二维数组第一行第四列的数据 # print(df.iat[1,4])#同iloc,即二维数组第一行第四列的数据 # print(df[df.B>0][df.A<0])#筛选 # print(df[df>0])#大于0的返回,其他返回NaN # print(df[df["E"].isin([1,2])])#E中有1,2 # #Set # s1=pd.Series(list(range(10,18)),index=pd.date_range("",periods=8)) # df["F"]=s1#增加一列F # print(df) # df.at[dates[0],"A"]=0#0行0列设为0 # print(df) # df.iat[1,1]=1#1行1列设为1 # df.loc[:,"D"]=np.array([4]*len(df))#D列设为全为4 # print(df) # # df2=df.copy()#复制df # df2[df2>0]=-df2#将df2>0的数变成负数 # print(df2) # #Missing Values # df1=df.reindex(index=dates[:4],columns=list("ABCD")+["G"]) # df1.loc[dates[0]:dates[1],"G"]=1#G列的0,1行设为1 # print(df1) # print(df1.dropna())#删除缺失值的行 # print(df1.fillna(value=2))#补充缺失值的行 # #Statisitc统计 # print(df.mean())#中值 # print(df.var())#方差 # s=pd.Series([1,2,4,np.nan,5,7,9,10],index=dates) # print(s) # print(s.shift(2))#所有数值往后移2位 # print(s.diff())#当前行减去上一行的差值 # print(s.value_counts())#每个值出现的次数 # print(df.apply(np.cumsum))#累加值 # print(df.apply(lambda x:x.max()-x.min()))#极差 # # #Concat表格拼接 # print(df[:3])#表格截取 # pieces=[df[:3],df[-3:]]#前三行,后三行 # print(pd.concat(pieces))#拼接 # #time时间序列 # t_exam=pd.date_range("",periods=10,freq="S") # print(t_exam) # # #Graph绘图 # ts=pd.Series(np.random.randn(1000),index=pd.date_range("",periods=1000)) # ts=ts.cumsum() # ts.plot() # show() #File文件 # df6=pd.read_csv("./data/test.csv") # print(df6) df7=pd.read_excel("./data/test.xlsx","Sheet1") print(df7) df7.to_excel("./data/test2.xlsx")#另存为test2 if __name__ == '__main__': main()
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/174045.html原文链接:https://javaforall.net
