Python 读取txt、csv、mat数据并载入到数组

一、txt文件数据载入到数组    这里结合上一篇博文的数据来讲怎么方便的载入.txt文件到一个数组,数据如下所示:1、自己写Python代码实现txt文本数据读取并载入成数组形式(PS:下面给了三种方法,选择理解)#-*-coding:cp936-*-importreimportlinecacheimportnumpyasnpimportosfilename=…

大家好,又见面了,我是你们的朋友全栈君。

一、txt文件数据载入到数组

    这里结合上一篇博文的数据来讲怎么方便的载入.txt文件到一个数组,数据如下所示:

Python 读取txt、csv、mat数据并载入到数组

1、自己写Python代码实现txt文本数据读取并载入成数组形式(PS:下面给了三种方法,选择理解)

# -*- coding: cp936 -*-
import re
import linecache
import numpy as np
import os

filename = 'preprocess1.txt'

#数值文本文件转换为双列表形式[[...],[...],[...]],即动态二维数组
#然后将双列表形式通过numpy转换为数组矩阵形式
def txt_strtonum_feed(filename):
    data = []
    with open(filename, 'r') as f:#with语句自动调用close()方法
        line = f.readline()
        while line:
            eachline = line.split()###按行读取文本文件,每行数据以列表形式返回
            read_data = [ float(x) for x in eachline[0:7] ] #TopN概率字符转换为float型
            lable = [ int(x) for x in eachline[-1] ]#lable转换为int型
            read_data.append(lable[0])
            #read_data = list(map(float, eachline))
            data.append(read_data)
            line = f.readline()
        return data #返回数据为双列表形式

#数值文本文件直接转换为矩阵数组形式方法二
def txt_to_matrix(filename):
    file=open(filename)
    lines=file.readlines()
    #print lines
    #['0.94\t0.81\t...0.62\t\n', ... ,'0.92\t0.86\t...0.62\t\n']形式
    rows=len(lines)#文件行数

    datamat=np.zeros((rows,8))#初始化矩阵

    row=0
    for line in lines:
        line=line.strip().split('\t')#strip()默认移除字符串首尾空格或换行符
        datamat[row,:]=line[:]
        row+=1

    return datamat


#数值文本文件直接转换为矩阵数组形式方法三
def text_read(filename):
    # Try to read a txt file and return a matrix.Return [] if there was a mistake.
    try:
        file = open(filename,'r')
    except IOError:
        error = []
        return error
    content = file.readlines()

    rows=len(content)#文件行数
    datamat=np.zeros((rows,8))#初始化矩阵
    row_count=0
    
    for i in range(rows):
        content[i] = content[i].strip().split('\t')
        datamat[row_count,:] = content[i][:]
        row_count+=1

    file.close()
    return datamat


if __name__ == '__main__':

    test_content = txt_strtonum_feed('preprocess1.txt')
    content = np.array(test_content)
    print content #矩阵数组形式
    print '\n'
    print test_content #二维列表

    data = txt_to_matrix(filename)
    print data

    out = text_read('preprocess1.txt')
    print out

    代码编译所得结果如下图所示(其中方法一思路是先得到动态二维数组,即二维列表的形式,最后在mian函数里使用np.arry()函数将其转换为数组形式,这里将两种形式结果都输出):

Python 读取txt、csv、mat数据并载入到数组

2、调用numpy中loadtxt()函数快速实现。(并且可以通过设定参数选取部分对应列数据载入数组,具体详细实践可以参考以下博文地址:https://www.cnblogs.com/hecc/p/8480532.html,具体结果可以就不展示)

import numpy as np
import os
data1=np.loadtxt('preprocess1.txt',delimiter='\t') #delimiter参数依据原始文本数据每行数字之间符号,这里为\t
np.savetxt("data3.txt",data1,fmt="%5.3f",delimiter="\t",newline=os.linesep) #将读取的文件保存到另一文本

二、CSV文件数据载入到数组

    在一些数据竞赛里面碰到很多的数据都是.csv文件给出的,说明应用应该还是有一些广泛。首先这里csv文件编码格式必须为UTF-8,否则会报编码错误信息。(txt转csv文件流程:打开excel—>数据—>导入文本/csv—>编码格式选择UTF-8—>保存选择csv格式)。csv文件打开如下所示:

Python 读取txt、csv、mat数据并载入到数组

    首先python内置了csv库,可以调用然后自己手动来写操作的代码,比较简单的csv文件读取载入到数组可以采用python的pandas库中的read_csv()函数来读取。其中函数的具体参数很长,在此忽略,详细参考专业api文档。这里代码实现及结果如下所示:

import numpy as np
import pandas as pd
import os

#UTF-8编码格式csv文件数据读取
df = pd.read_csv('preprocess.csv') #返回一个DataFrame的对象,这个是pandas的一个数据结构
df.columns=["Col1","Col2","Col3","Col4","Col5","Col6","Col7","Col8"]

X = df[["Col1","Col2","Col3","Col4","Col5","Col6","Col7"]] #抽取前七列作为训练数据的各属性值
X = np.array(X)
print X

y1 = df["Col8"] #最后一列作为每行对应的标签label
#Y = df["Col8"].map(lambda y1:float(y1.rstrip(";")))
Y = np.array(y1) 
print Y

Python 读取txt、csv、mat数据并载入到数组

三、mat文件数据载入到数组

    .mat文件是MATLAB存储数据的标准格式,很多的机器学习任务用.MAT来存出数据文件。python的scipy中有专门的函数来方便.mat的文件的载入和存储,具体函数如下所示,实现就一行代码这里就不展示了,可以自行参考其他资料。

scipy.io.loadmat(file_name, mdict=None, appendmat=True, **kwargs) #载入MATLAB文件 #保存一个带有名称和序列的字典到.mat文件中 scipy.io.savemat(file_name, mdict, appendmat=True, format=’5’, long_field_names=False, do_compression=False, oned_as=’row’)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/126262.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 一篇文章弄懂Java多线程基础和Java内存模型

    一篇文章弄懂Java多线程基础和Java内存模型文章目录一、多线程的生命周期及五种基本状态二、Java多线程的创建及启动1.继承Thread类,重写该类的run()方法2.通过实现Runnable接口创建线程类3.通过Callable和Future接口创建线程三、Java内存模型概念四、内存间的交互操作五、volatile和synchronized的区别写在前面:提起多线程大部门同学可能都会皱起眉头不知道多线程到底是什么、什么时候可以用到、用…

    2022年5月22日
    39
  • IndexReader已解决的问题

    IndexReader已解决的问题

    2022年1月5日
    41
  • 论手机网站(wap)网页广告防屏蔽的方法

    论手机网站(wap)网页广告防屏蔽的方法智能手机的崛起,让现在的网站越来越重视移动端,随之而来的广告形式也越来越向移动端倾斜侧重;但是本君发现一个现象,现在各大手机浏览器厂商对移动端广告过滤越来越严格,几乎只要开启过滤,大部分广告是要被过滤的;所以现在的广告商开始研究如何避免被过滤呢?我的观点是,只要浏览器商家想过滤,可以做到100%过滤的,您想再多的招也是没用的!WHY?因为广告脚本一般是作为客户端表现,是要经过浏览器解析后才显示…

    2022年7月12日
    47
  • qtablewidget设置高度_qtabwidget设置tab标题宽度

    qtablewidget设置高度_qtabwidget设置tab标题宽度setStyleSheet(“QTabWidget::pane{border-width:1px;border-color:rgb(48,104,151);\border-style:outset;background-color:rgb(132,171,208);\background:transparent;}\QTabWidget::tab-bar{border-width:…

    2022年9月23日
    4
  • Xshell 连接linux主机

    Xshell 连接linux主机0 前言使用 Xshell 连接远程服务器 文件 新建 出现如下图标 主机即为需要连接的 Linux 服务器的 ip 地址 端口号为 22 无须修改 但需要确认远程服务器的 22 端口已经打开 点击左边的 用户身份验证 输入用户名和密码 点击确认后 即可连接 总体流程 就是这个样子 问题就在于 ip 地址 用户名 密码怎么填写 下面几个章节就展示了如何查看远程 Linux 服务器的 ip 用户名和密码等 1 查看 ip 地址查看 ip 地址使用命令 ifconfig 确保能够 ping 通在连接之前 需要确保本地能够 p

    2025年7月11日
    4
  • Feign 原理_feign是什么

    Feign 原理_feign是什么Feign原理Feign描述Feign是github上的一个开源项目,目的是简化webservice客户端的开发。在使用Feign时,可以用注解修饰接口,feign还支持插件式的编码器和解码器,使用者可以通过该特性对请求和响应进行不同的封装与解析。流程1、feign使用JDK动态代理2、生成的代理类将进行请求信息封装,并且指定编码器(提供GsonEncoder)和解码器(提供GsonDecoder),如果需要自定义编码器和解码器,需要实现Encoder接口、Decoder接口3、

    2022年10月4日
    4

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号