Pytorch中DataLoader的使用[通俗易懂]

Pytorch中DataLoader的使用[通俗易懂]前言最近开始接触pytorch,从跑别人写好的代码开始,今天需要把输入数据根据每个batch的最长输入数据,填充到一样的长度(之前是将所有的数据直接填充到一样的长度再输入)。刚开始是想偷懒,没有去认真了解输入的机制,结果一直报错…还是要认真学习呀!加载数据pytorch中加载数据的顺序是:①创建一个dataset对象②创建一个dataloader对象③循环dataloader对象,将data,label拿到模型中去训练dataset你需要自己定义一个class,里面至少包含3个函数:①_

大家好,又见面了,我是你们的朋友全栈君。

前言

最近开始接触pytorch,从跑别人写好的代码开始,今天需要把输入数据根据每个batch的最长输入数据,填充到一样的长度(之前是将所有的数据直接填充到一样的长度再输入)。
刚开始是想偷懒,没有去认真了解输入的机制,结果一直报错…还是要认真学习呀!

加载数据

pytorch中加载数据的顺序是:
①创建一个dataset对象
②创建一个dataloader对象
③循环dataloader对象,将data,label拿到模型中去训练

dataset

你需要自己定义一个class,里面至少包含3个函数:
①__init__:传入数据,或者像下面一样直接在函数里加载数据
②__len__:返回这个数据集一共有多少个item
③__getitem__:返回一条训练数据,并将其转换成tensor

import torch
from torch.utils.data import Dataset
class Mydata(Dataset):
    def __init__(self):
        a = np.load("D:/Python/nlp/NRE/a.npy",allow_pickle=True)
        b = np.load("D:/Python/nlp/NRE/b.npy",allow_pickle=True)
        d = np.load("D:/Python/nlp/NRE/d.npy",allow_pickle=True)
        c = np.load("D:/Python/nlp/NRE/c.npy")
        self.x = list(zip(a,b,d,c))
    def __getitem__(self, idx):
        
        assert idx < len(self.x)
        return self.x[idx]
    def __len__(self):
        
        return len(self.x)

dataloader

参数:
dataset:传入的数据
shuffle = True:是否打乱数据
collate_fn:使用这个参数可以自己操作每个batch的数据

dataset = Mydata()
dataloader = DataLoader(dataset, batch_size = 2, shuffle=True,collate_fn = mycollate)

下面是将每个batch的数据填充到该batch的最大长度

def mycollate(data):
        a = []
        b = []
        c = []
        d = []
        max_len = len(data[0][0])
        for i in data:
            if len(i[0])>max_len:
                max_len = len(i[0])
            if len(i[1])>max_len:
                max_len = len(i[1])
            if len(i[2])>max_len:
                max_len = len(i[2])
        print(max_len)
        # 填充
        for i in data:
            if len(i[0])<max_len:
                i[0].extend([27] * (max_len-len(i[0])))
            if len(i[1])<max_len:
                i[1].extend([27] * (max_len-len(i[1])))
            if len(i[2])<max_len:
                i[2].extend([27] * (max_len-len(i[2])))  
            a.append(i[0])
            b.append(i[1])
            d.append(i[2])
            c.extend(i[3])
        # 这里要自己转成tensor
        a = torch.Tensor(a)
        b = torch.Tensor(b)
        c = torch.Tensor(c)
        d = torch.Tensor(d)
        data1 = [a,b,d,c]
        print("data1",data1)
        return data1

结果:
在这里插入图片描述

最后循环该dataloader ,拿到数据放入模型进行训练:

 for ii, data in enumerate(test_data_loader):

        if opt.use_gpu: 
            data = list(map(lambda x: torch.LongTensor(x.long()).cuda(), data)) 
        else: 
            data = list(map(lambda x: torch.LongTensor(x.long()), data))

        out = model(data[:-1]) #数据data[:-1]
        loss = F.cross_entropy(out, data[-1])# 最后一列是标签

写在最后:建议像我一样刚开始不太熟练的小伙伴,在处理数据输入的时候可以打印出来仔细查看。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/133122.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • js字符串转html_vue文件如何编译成html

    js字符串转html_vue文件如何编译成htmlhtml代码如何转换成js文件这个很简单首先你要把html代码转成js代码有这种转换工具的搜下代码转换工具就可以再把你转换好了的代码放到文本中把后缀名改成点js就可以了可以用txt文档改js文件用记事本可以打开小编喝醉了酒,流入街头可怜的像条狗,哭着对你说别走,你义无反顾笑笑也不回头。把HTML代码放到document.write方法的括号中,并用引号括起来,将原来HTML中的引号进…

    2025年10月1日
    8
  • PyPDF2详解

    PyPDF2详解工作中可能会涉及处理pdf文件,PyPDF2就是这样一个库,使用它可以轻松的处理pdf文件,它提供了读、写、分割、合并、文件转换等多种操作。官方地址:http://mstamy2.github.io/PyPDF2/安装1.RPM式系统(Redhat、CentOS)1pipinstallpypdf22.DEB式系统(Deb…

    2022年6月23日
    32
  • Tomcat 调优及 JVM 参数优化

    Tomcat 调优及 JVM 参数优化Tomcat的缺省配置是不能稳定长期运行的,也就是不适合生产环境,它会死机,让你不断重新启动,甚至在午夜时分唤醒你。对于操作系统优化来说,是尽可能的增大可使用的内存容量、提高CPU的频率,保证文件系统的读写速率等。经过压力测试验证,在并发连接很多的情况下,CPU的处理能力越强,系统运行速度越快。Tomcat的优化不像其它软件那样,简简单单的修改几个参数就可以了,它的优化主要…

    2022年6月25日
    29
  • python打开网页链接_怎么用python打开浏览器

    python打开网页链接_怎么用python打开浏览器以下为一个最简单的HTTP服务器,在浏览器中输入地址后,就能够访问到通目录下的HTML文件,import socket”””TCP 的服务端1,socket 创建socket2.bind 绑定IP和端口3.listen 处于监听状态4.accept 接进来客户端的连接5.recv/send 接受或者发送信息6.close 关闭”””def tcp_creat_socket(): tcp_ser = socket.socket(family=socket.AF_INET, t

    2022年8月8日
    4
  • 思科自研芯片_新思科技是大公司吗

    思科自研芯片_新思科技是大公司吗https://www.toutiao.com/a6673484789430878728/3月15日,上海,由智东西主办、AWE和极果联合主办的GTIC2019全球AI芯片创新峰会成功举办!峰会现场延续上一届的火爆场景,全场从开幕到下午结束座无虚席,而且有不少热情观众坚持站着听完峰会全程。20位海内外AI芯片业界大咖齐聚一堂,围绕AI芯片在架构创新、生态构建、场景…

    2025年8月26日
    6
  • Vim设置colorscheme小技巧

    Vim设置colorscheme小技巧VIM的颜色主题在/usr/share/vim/vim73/colors文件夹里。打开vim后在normal模式下输入“:colorscheme”查看当前的主题,修改主题使用命令“:colorschememycolor”,其中mycolor是你usr/share/vim/vim73/colors文件夹包含的文件名。也可以把这个命令吸入~/.vimrc配置文件中,这样每次打开vim都是你设定的主题

    2025年8月13日
    4

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号