Python 读取txt、csv、mat数据并载入到数组

一、txt文件数据载入到数组    这里结合上一篇博文的数据来讲怎么方便的载入.txt文件到一个数组,数据如下所示:1、自己写Python代码实现txt文本数据读取并载入成数组形式(PS:下面给了三种方法,选择理解)#-*-coding:cp936-*-importreimportlinecacheimportnumpyasnpimportosfilename=…

大家好,又见面了,我是你们的朋友全栈君。

一、txt文件数据载入到数组

    这里结合上一篇博文的数据来讲怎么方便的载入.txt文件到一个数组,数据如下所示:

Python 读取txt、csv、mat数据并载入到数组

1、自己写Python代码实现txt文本数据读取并载入成数组形式(PS:下面给了三种方法,选择理解)

# -*- coding: cp936 -*-
import re
import linecache
import numpy as np
import os

filename = 'preprocess1.txt'

#数值文本文件转换为双列表形式[[...],[...],[...]],即动态二维数组
#然后将双列表形式通过numpy转换为数组矩阵形式
def txt_strtonum_feed(filename):
    data = []
    with open(filename, 'r') as f:#with语句自动调用close()方法
        line = f.readline()
        while line:
            eachline = line.split()###按行读取文本文件,每行数据以列表形式返回
            read_data = [ float(x) for x in eachline[0:7] ] #TopN概率字符转换为float型
            lable = [ int(x) for x in eachline[-1] ]#lable转换为int型
            read_data.append(lable[0])
            #read_data = list(map(float, eachline))
            data.append(read_data)
            line = f.readline()
        return data #返回数据为双列表形式

#数值文本文件直接转换为矩阵数组形式方法二
def txt_to_matrix(filename):
    file=open(filename)
    lines=file.readlines()
    #print lines
    #['0.94\t0.81\t...0.62\t\n', ... ,'0.92\t0.86\t...0.62\t\n']形式
    rows=len(lines)#文件行数

    datamat=np.zeros((rows,8))#初始化矩阵

    row=0
    for line in lines:
        line=line.strip().split('\t')#strip()默认移除字符串首尾空格或换行符
        datamat[row,:]=line[:]
        row+=1

    return datamat


#数值文本文件直接转换为矩阵数组形式方法三
def text_read(filename):
    # Try to read a txt file and return a matrix.Return [] if there was a mistake.
    try:
        file = open(filename,'r')
    except IOError:
        error = []
        return error
    content = file.readlines()

    rows=len(content)#文件行数
    datamat=np.zeros((rows,8))#初始化矩阵
    row_count=0
    
    for i in range(rows):
        content[i] = content[i].strip().split('\t')
        datamat[row_count,:] = content[i][:]
        row_count+=1

    file.close()
    return datamat


if __name__ == '__main__':

    test_content = txt_strtonum_feed('preprocess1.txt')
    content = np.array(test_content)
    print content #矩阵数组形式
    print '\n'
    print test_content #二维列表

    data = txt_to_matrix(filename)
    print data

    out = text_read('preprocess1.txt')
    print out

    代码编译所得结果如下图所示(其中方法一思路是先得到动态二维数组,即二维列表的形式,最后在mian函数里使用np.arry()函数将其转换为数组形式,这里将两种形式结果都输出):

Python 读取txt、csv、mat数据并载入到数组

2、调用numpy中loadtxt()函数快速实现。(并且可以通过设定参数选取部分对应列数据载入数组,具体详细实践可以参考以下博文地址:https://www.cnblogs.com/hecc/p/8480532.html,具体结果可以就不展示)

import numpy as np
import os
data1=np.loadtxt('preprocess1.txt',delimiter='\t') #delimiter参数依据原始文本数据每行数字之间符号,这里为\t
np.savetxt("data3.txt",data1,fmt="%5.3f",delimiter="\t",newline=os.linesep) #将读取的文件保存到另一文本

二、CSV文件数据载入到数组

    在一些数据竞赛里面碰到很多的数据都是.csv文件给出的,说明应用应该还是有一些广泛。首先这里csv文件编码格式必须为UTF-8,否则会报编码错误信息。(txt转csv文件流程:打开excel—>数据—>导入文本/csv—>编码格式选择UTF-8—>保存选择csv格式)。csv文件打开如下所示:

Python 读取txt、csv、mat数据并载入到数组

    首先python内置了csv库,可以调用然后自己手动来写操作的代码,比较简单的csv文件读取载入到数组可以采用python的pandas库中的read_csv()函数来读取。其中函数的具体参数很长,在此忽略,详细参考专业api文档。这里代码实现及结果如下所示:

import numpy as np
import pandas as pd
import os

#UTF-8编码格式csv文件数据读取
df = pd.read_csv('preprocess.csv') #返回一个DataFrame的对象,这个是pandas的一个数据结构
df.columns=["Col1","Col2","Col3","Col4","Col5","Col6","Col7","Col8"]

X = df[["Col1","Col2","Col3","Col4","Col5","Col6","Col7"]] #抽取前七列作为训练数据的各属性值
X = np.array(X)
print X

y1 = df["Col8"] #最后一列作为每行对应的标签label
#Y = df["Col8"].map(lambda y1:float(y1.rstrip(";")))
Y = np.array(y1) 
print Y

Python 读取txt、csv、mat数据并载入到数组

三、mat文件数据载入到数组

    .mat文件是MATLAB存储数据的标准格式,很多的机器学习任务用.MAT来存出数据文件。python的scipy中有专门的函数来方便.mat的文件的载入和存储,具体函数如下所示,实现就一行代码这里就不展示了,可以自行参考其他资料。

scipy.io.loadmat(file_name, mdict=None, appendmat=True, **kwargs) #载入MATLAB文件 #保存一个带有名称和序列的字典到.mat文件中 scipy.io.savemat(file_name, mdict, appendmat=True, format=’5’, long_field_names=False, do_compression=False, oned_as=’row’)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/126262.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Java常见的8种数据结构「建议收藏」

    Java常见的8种数据结构「建议收藏」数据结构是指数据在计算机内存空间中或磁盘中的组织形式算法是完成特定任务的过程二分法查找r=2^ss:查找步数r查找范围幂函数s=log2®已知范围获取需要的次数对数算法复杂度使用O(N)函数进行标示主要是去除常数看运行时间受数据项个数的影响常见排序参考地址https://blog.csdn.net/muranfei/article/details/80923996栈对列优先级对列栈按照“后进先出”、“先进后出”的原则来存储数据,先插入的数…

    2022年7月7日
    20
  • LLDP简介

    LLDP简介1.1.1LLDP产生背景目前,网络设备的种类日益繁多且各自的配置错综复杂,为了使不同厂商的设备能够在网络中相互发现并交互各自的系统及配置信息,需要有一个标准的信息交流平台。LLDP(LinkLayerDiscoveryProtocol,链路层发现协议)就是在这样的背景下产生的,它提供了一种标准的链路层发现方式,可以将本端设备的信息(包括主要能力、管理地址、设备标识、接口标识等)组织成不同的TLV(Type/Length/Value,类型/长度/值),并封装在LLDPDU(Lin…

    2022年5月28日
    88
  • ov7740摄像头参数_ov7670摄像头使用手册

    ov7740摄像头参数_ov7670摄像头使用手册之前调过一款摄像头,是MT9V034,最近在调的是OV7725摄像头,感觉OV7725摄像头比MT9V034要难,特别是寄存器配置,要想玩转一款摄像头,必须要熟悉它的寄存器配置,而且要亲自去调试,然后才能对它有很好的理解。下面是自己的一点见解,可能不完全对,不过希望对初学者有所帮助吧。一、将所有寄存器的值复位到默认值状态。  寄存器地址   寄存器名称   寄存器值

    2022年9月23日
    0
  • idea2019激活码(破解版激活)

    idea2019激活码(破解版激活),https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

    2022年3月16日
    113
  • checking for ZTS… configure: error: pthreads requires ZTS, please re-compile PHP with ZTS enabled

    checking for ZTS… configure: error: pthreads requires ZTS, please re-compile PHP with ZTS enabled

    2022年2月17日
    49
  • 2021-08-08 WPF控件专题 WrapPanel 控件详解[通俗易懂]

    2021-08-08 WPF控件专题 WrapPanel 控件详解[通俗易懂]1.WrapPanel控件介绍流面板子元素按顺序排列,如果按水平方向:从左到右,超出部分,自动换行到下一行垂直从上到下,下一列排列方向:OrientationItemWidthItemHeight调整面板的尺寸时,内部子元素的布局–自动调整弥补StackPanel的不足StackPanel与WrapPanel结合使用2.具体案例<BorderBorderBrush=”Red”BorderTh

    2022年7月23日
    10

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号