Pytorch 转置卷积

Pytorch 转置卷积环境使用Kaggle里免费建立的Notebook教程使用李沐老师的动手学深度学习网站和视频讲解小技巧:当遇到函数看不懂的时候可以按查看函数详解。卷积不会增大输入的高和宽,通常要么不变,要么减半。而转置卷积则可以用来增大输入高宽。假设忽略通道,步幅为1且填充为0。输入张量形状为nh×nwn_h\timesn_wnh​×nw​,卷积核形状为kh×kwk_h\timesk_wkh​×kw​。共产生nhnwn_hn_wnh​nw​个中间结果。每个中间结果都是一个(nh+k

大家好,又见面了,我是你们的朋友全栈君。

Pytorch 转置卷积

0. 环境介绍

环境使用 Kaggle 里免费建立的 Notebook

教程使用李沐老师的 动手学深度学习 网站和 视频讲解

小技巧:当遇到函数看不懂的时候可以按 Shift+Tab 查看函数详解。

1. 转置卷积(transposed convolution)

卷积不会增大输入的高和宽,通常要么不变,要么减半。而转置卷积则可以用来增大输入高宽。
在这里插入图片描述
假设忽略通道,步幅为 1 且填充为 0。输入张量形状为 n h × n w n_h \times n_w nh×nw,卷积核形状为 k h × k w k_h \times k_w kh×kw。共产生 n h n w n_hn_w nhnw 个中间结果。每个中间结果都是一个 ( n h + k h − 1 ) × ( n w + k w − 1 ) (n_h+k_h-1)\times(n_w+k_w-1) (nh+kh1)×(nw+kw1) 的张量(初始化为 0)。计算中间张量的方法:输入张量中的每个元素乘以卷积核,得到 k h × k w k_h \times k_w kh×kw 的张量替换中间张量的一部分。
每个中间张量被替换部分的位置与输入张量中元素的位置相对应。 最后,所有中间结果相加以获得最终结果。

中间张量计算公式如下
Y [ i : i + h , j : j + w ] + = X [ i , j ] ∗ K Y[i: i + h, j: j + w] += X[i, j] * K Y[i:i+h,j:j+w]+=X[i,j]K

1.1 为什么称之 “转置” ?

对于卷积 Y = X ★ W Y = X ★ W Y=XW ★ ★ 表示卷积操作)

  • 可以对 W W W 构造一个 V V V,使得卷积等价于矩阵乘法 Y ′ = V X ′ Y^{\prime} = VX^{\prime} Y=VX
  • 这里 Y ′ 和 X ′ Y^{\prime} 和 X^{\prime} YX Y , X Y, X Y,X 对应的向量版本。

转置卷积则等价于 Y ′ = V T X ′ Y^{\prime} = V^TX^{\prime} Y=VTX
如果卷积将输入从 ( h , w ) (h, w) (h,w) 变成了 ( h ′ , w ′ ) (h^{\prime}, w^{\prime}) (h,w)

  • 同样超参数的转置卷积则从 ( h ′ , w ′ ) (h^{\prime}, w^{\prime}) (h,w) 变成了 ( h , w ) (h, w) (h,w)

2. 转置卷积实现

2.1 转置卷积

!pip install -U d2l
import torch
from torch import nn
from d2l import torch as d2l
def trans_conv(X, K):
    h, w = K.shape
    Y = torch.zeros((X.shape[0] + h - 1, X.shape[1] + w - 1))
    for i in range(X.shape[0]):
        for j in range(X.shape[1]):
            Y[i: i + h, j: j + w] += X[i, j] * K
    return Y
X = torch.tensor([[0.0, 1.0], 
				  [2.0, 3.0]])
K = torch.tensor([[0.0, 1.0], 
                  [2.0, 3.0]])
trans_conv(X, K)

在这里插入图片描述

2.2 API 实现

X, K = X.reshape(1, 1, 2, 2), K.reshape(1, 1, 2, 2)
# 前两个参数代表输入通道数, 输出通道数
tconv = nn.ConvTranspose2d(1, 1, kernel_size=2, bias=False)
tconv.weight.data = K
tconv(X)

在这里插入图片描述

2.3 填充,步幅和多通道

与常规卷积不同,在转置卷积中,填充被应用于的输出(常规卷积将填充应用于输入)。 例如,当将高和宽两侧的填充数指定为1时,转置卷积的输出中将删除第一和最后的行与列。

tconv = nn.ConvTranspose2d(1, 1, kernel_size=2, padding=1, bias=False)
tconv.weight.data = K
tconv(X)

在这里插入图片描述

在转置卷积中,步幅被指定为中间结果(输出),而不是输入。

tconv = nn.ConvTranspose2d(1, 1, kernel_size=2, stride=2, bias=False)
tconv.weight.data = K
tconv(X)

在这里插入图片描述

在这里插入图片描述

输入 X X X 的形状,经过卷积后,再经过转置卷积后的形状与原形状相同:

X = torch.rand(size=(1, 10, 16, 16))
conv = nn.Conv2d(10, 20, kernel_size=5, padding=2, stride=3)
tconv = nn.ConvTranspose2d(20, 10, kernel_size=5, padding=2, stride=3)
tconv(conv(X)).shape == X.shape

在这里插入图片描述

2.4 与矩阵变换的联系

X = torch.arange(9.0).reshape(3, 3)
K = torch.tensor([[1.0, 2.0], 
	              [3.0, 4.0]])
Y = d2l.corr2d(X, K)
Y

在这里插入图片描述

将卷积核 K K K 重写为包含大量 0 0 0 的稀疏权重矩阵 W W W 4 × 9 4 \times 9 4×9):

def kernel2matrix(K):
    k, W = torch.zeros(5), torch.zeros((4, 9))
    k[:2], k[3:5] = K[0, :], K[1, :]
    W[0, :5], W[1, 1:6], W[2, 3:8], W[3, 4:] = k, k, k, k
    return W

W = kernel2matrix(K)
W

在这里插入图片描述

Y == torch.matmul(W, X.reshape(-1)).reshape(2, 2)

在这里插入图片描述

Z = trans_conv(Y, K)
Z == torch.matmul(W.T, Y.reshape(-1)).reshape(3, 3)

在这里插入图片描述

3. 再谈转置卷积

转置卷积是一种卷积

  • 它将输入和核进行了重新排列
  • 同卷积一般是做下采样(将高和宽变得更小),而转置卷积通常用作上采样(输出高宽变大)
  • 如果卷积将输入从 ( h , w ) (h, w) (h,w) 变成了 ( h ′ , w ′ ) (h^{\prime}, w^{\prime}) (h,w),同样超参数下转置卷积将 ( h ′ , w ′ ) (h^{\prime}, w^{\prime}) (h,w) 变成 ( h , w ) (h, w) (h,w)

注:
下采样:由输入图片得到特征图
上采样:由特征图得到预测图

3.1 重新排列输入和核

当填充为 0 0 0,步幅为 1 1 1

  • 将输入填充 k − 1 k-1 k1 k k k 是核窗口)
  • 将核矩阵上下、左右翻转
  • 然后做正常卷积(填充 0 0 0, 步幅 1 1 1

( p , s ) = ( 0 , 1 ) (p,s) = (0, 1) (ps)=(0,1)
在这里插入图片描述

当填充为 p p p,步幅为 1 1 1

  • 将输入填充 k − p − 1 k-p-1 kp1 k k k 是核窗口)
  • 将核矩阵上下、左右翻转
  • 然后做正常卷积(填充 0 0 0、步幅 1 1 1

( p , s ) = ( 1 , 1 ) (p,s) = (1, 1) (ps)=(1,1)
在这里插入图片描述

当填充为 p p p,步幅为 s s s

  • 在行和列之间插入 s − 1 s-1 s1 行和列
  • 将输入填充 k − p − 1 k-p-1 kp1 k k k 是核窗口)
  • 将核矩阵上下、左右翻转
  • 然后做正常卷积(填充 0 0 0、步幅 1 1 1

( p , s ) = ( 0 , 2 ) (p,s) = (0, 2) (ps)=(0,2)
在这里插入图片描述

3.2 形状换算

输入高(宽)为 n n n,核 k k k,填充 p p p,步幅 s s s
转置卷积: n ′ = s n + k − 2 p − s n^{\prime} = sn + k -2p – s n=sn+k2ps

  • 卷积: n ′ = ⌊ ( n − k − 2 p + s ) / s ⌋ → n ≥ s n ′ + k − 2 p − s n^{\prime} = \lfloor(n-k-2p+s)/s\rfloor \to n \ge sn^{\prime} +k -2p -s n=(nk2p+s)/snsn+k2ps

如果让高宽成倍增加,那么 k = 2 p + s k=2p+s k=2p+s

3.3 转置卷积与反卷积的关系

数学上的反卷积(deconvolution)是指卷积的逆运算

  • 如果 Y = c o n v ( X , K ) Y=conv(X, K) Y=conv(X,K),那么 X = d e c o n v ( Y , K ) X = deconv(Y, K) X=deconv(Y,K)

反卷积很少用在深度学习中

  • 我们说的反卷积神经网络指的是用了转置卷积的神经网络
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/151945.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Qt的QFile

    Qt的QFile在这里可以说是Qt的帮助文档一样了!确定不进来看看QFile这个东西怎么用么!

    2022年6月14日
    90
  • word转pdf的java实现_java实现word转pdf

    word转pdf的java实现_java实现word转pdf文章时间:2020-12-516:38:54解决问题:java实现word转pdf目前发现可用的实现方式有两种,一种是使用e-iceblue的免费版api,此方法最为简单但存在限制,导出页数不能超过三页。另一种是使用openoffice,但较上一种方法麻烦一些,需要安装openoffice的软件,但没有导出限制,请根据自身需求自行选用。方式一e-iceblue的免费版api官方文档https:…

    2022年6月8日
    114
  • DirectX修复工具使用技巧之三——命令行与配置文件参数介绍

    DirectX修复工具使用技巧之三——命令行与配置文件参数介绍最后更新:2021-10-8DirectX修复工具自V1.0版起即支持通过settings.ini配置文件的方式设置程序配置信息,自V3.7版起支持命令行配置功能。由于命令行与配置文件均需要通过参数设定程序配置信息,本文档详细列出了命令行与配置文件的参数使用方式,供有需要的高级用户参考。命令行与配置文件中约有90%的命令是通用的,部分特殊命令只支持命令行的配置方式,本文件将分别介绍命令行参数与配置文件参数。命令行参数本程序支持命令行参数提示,用户可通过/?或者/h…

    2022年5月22日
    37
  • 谷歌地图离线地图开发教程视频_谷歌地图离线

    谷歌地图离线地图开发教程视频_谷歌地图离线谷歌离线地图开发主要有两部分组成:1、获取离线地图数据;因为离线地图一般都是局域网,所以需要离线地图数据放在内网中使用;2、离线地图服务器搭建以及二次开发接口提供,离线地图是一种服务,就像我们Apache提供的WEB服务器一样,他是一种准们的地图服务:提供了包括WEB服务、TMS服务、WMTS服务等等。离线地图数据的获取:可以通过【大地图下载器】下载到。下面将一…

    2022年9月20日
    2
  • WEBAPP开发技巧总结

    WEBAPP开发技巧总结自Iphone和Android这两个牛逼的手机操作系统发布以来,在互联网界从此就多了一个新的名词-WebApp(意为基于WEB形式的应用程序,运行在高端的移动终端设备)。开发者们都知道在高端智能手机系统中有两种应用程序:一种是基于本地(操作系统)运行的APP;一种是基于高端机的浏览器运行的WebApp,本文将主要讲解后者。WebApp与Native App有何区别呢?Nat

    2022年6月25日
    24
  • js取数组截取

    js取数组截取splice()会删除选定的数组,slice()只会进行选定,pop选定最后一个元素删除并返回最后一个元素的值,length函数判断数组的长度,使用slice选取单个值的时候记得返回的是一个数组类型。constarr=[1,2,7,2,6,0,3,1,5,7,8,9,45,12,34,0,56,12,2]//slice()方法constsliceArr…

    2022年5月2日
    61

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号