pytorch loss反向传播出错

pytorch loss反向传播出错在使用pytorch进行训练代码时,在运行loss.backward()误差反向传播时出错:RuntimeError:gradcanbeimplicitlycreatedonlyforscalaroutputsFile”train.py”,line143,intrainloss.backward()File”/usr/local/lib/python3.6/dist-packages/torch/tensor.py”,line198…

大家好,又见面了,我是你们的朋友全栈君。

 

今天在使用pytorch进行训练,在运行 loss.backward() 误差反向传播时出错 :

RuntimeError: grad can be implicitly created only for scalar outputs

  File “train.py”, line 143, in train
    loss.backward()
  File “/usr/local/lib/python3.6/dist-packages/torch/tensor.py”, line 198, in backward
    torch.autograd.backward(self, gradient, retain_graph, create_graph)
  File “/usr/local/lib/python3.6/dist-packages/torch/autograd/__init__.py”, line 94, in backward
    grad_tensors = _make_grads(tensors, grad_tensors)
  File “/usr/local/lib/python3.6/dist-packages/torch/autograd/__init__.py”, line 35, in _make_grads
    raise RuntimeError(“grad can be implicitly created only for scalar outputs”)
RuntimeError: grad can be implicitly created only for scalar outputs

 

问题分析:

因为我们在执行 loss.backward() 时没带参数,这与 loss.backward(torch.Tensor(1.0)) 是相同的,参数默认就是一个标量。

但是由于自己的loss不是一个标量,而是二维的张量,所以就会报错。

 

解决办法:

1. 给 loss.backward() 指定传递给后向的参数维度:

loss = criterion(pred, targets)
loss.backward()
# 改为:
loss = criterion(pred, targets)
loss.backward(loss.clone().detach())

2. 修改loss函数的输出维度,把张量的输出修改为标量,比如说多多个维度的loss求和或求均值等。此方法对于某些任务不一定适用,可以尝试自己修改。

criterion = nn.L1Loss(reduction='none')
# 把参数去掉,改为:
criterion = nn.L1Loss()

 

这里顺便介绍一下pytorch loss函数里面 的reduction 参数:

在新的pytorch版本里,使用reduction 参数取代了旧版本的size_average和reduce参数。

reduction 参数有三种选择:

‘elementwise_mean’:为默认情况,表明对N个样本的loss进行求平均之后返回(相当于reduce=True,size_average=True);

‘sum’:指对n个样本的loss求和(相当于reduce=True,size_average=False);

‘none’:表示直接返回n分样本的loss(相当于reduce=False)

 


参考:

http://www.cocoachina.com/articles/90127

https://blog.csdn.net/goodxin_ie/article/details/89645358

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/144114.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • notify()和 notifyAll()有什么区别_notify怎么记忆

    notify()和 notifyAll()有什么区别_notify怎么记忆今天看到一篇问题,提问线程唤醒顺序。具体代码如下:importjava.util.LinkedList;importjava.util.List;publicclassThreadRunSort{/***对象锁*/privatefinalObjectobject=newObject();p…

    2025年10月3日
    4
  • Gmapping建图

    Gmapping建图Gmapping实战前文中,我们总共做了以下几件事:完成了基于ros小车框架安装。完成了小车下位机的安装。完成了上位机安装,并连接到ros系统,可以发布odom话题,使用键盘控制gmapping数据集测试。激光雷达选型与安装。接下来我们来完成使用gmapping的建图与导航工作。首先下载安装激光雷达的驱动程序,当然只针对我买的这一款,不是做广告,这家的技术售后简直就是垃圾,唯一…

    2022年6月25日
    37
  • keil5安装教程[通俗易懂]

    keil5安装教程[通俗易懂]keil5安装教程第一阶段:安装mdk第一阶段:安装mdk1、下载keil5的解压包,点击运行mdk514.exe文件2、在SetupMDK-ARMV5.14界面,点击Next3、勾选Iagree,点击Next4、自定义安装(1)记住界面弹出的默认安装的路径(2)点击Browse,选择自定义安装的位置,注意路径的命名尽量与默认路径的命名形式保持一致5、…

    2022年6月8日
    38
  • C# 多线程 Parallel.ForEach 和 ForEach 效率问题研究及理解

    C# 多线程 Parallel.ForEach 和 ForEach 效率问题研究及理解最近要做一个大数据dataTable循环操作,开始发现运用foreach,进行大数据循环,并做了一些逻辑处理。在循环中耗费的时间过长。后来换成使用Parallel.ForEach来进行循环。一开始认为, 数据比较大时,Parallel.ForEach肯定比 ForEach效率高,后来发现,其实并不是这样。我用了1000万次循环测试:{CSDN:CODE:2601125}

    2022年7月19日
    23
  • 架构要素-高可用性[通俗易懂]

    架构要素-高可用性

    2022年1月31日
    47
  • e6600相当于amd_cpu核心电压

    e6600相当于amd_cpu核心电压据消费调研中心ZDC统计结果显示,2006年3月最受用户关注的前十款AMDCPU中,Athlon64和Sempron两大系列产品平分秋色,各有五款产品入围。具体产品排行如下图所示。(图)2006年3月最受用户关注的前十款AMDCPU排名产品名称报价L2缓存(KB)插槽类型主频(MHz)1¥990512Socket93918003¥765512Socket93918005¥1,120512S…

    2025年12月2日
    8

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号