【论文学习】STN —— Spatial Transformer Networks

【论文学习】STN —— Spatial Transformer NetworksPaper:SpatialTransformerNetworks这是Google旗下DeepMind大作,最近学习人脸识别,这篇paper提出的STN网络可以代替align的操作,端到端的训练实现图片的align。实际使用的过程中不需要landmarks也可以做align了,而且还可以并联多个,这对于多个物体非常适用,而且,输出的feature大小可以变换,这一点也很灵活。提出…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

Paper:Spatial Transformer Networks

这是Google旗下 DeepMind 大作,最近学习人脸识别,这篇paper提出的STN网络可以代替align的操作,端到端的训练实现图片的align。

实际使用的过程中不需要landmarks也可以做align了,而且还可以并联多个,这对于多个物体非常适用,而且,输出的feature大小可以变换,这一点也很灵活。

提出背景

CNN可以显示的学习平移不变性,隐式的学习到对旋转,伸缩、尺度等变换的不变性,Google DeepMind 2016年提出的STN网络,可以显式地赋予网络对上述变换的不变性。不依赖于关键点进行矫正和对齐,而且网络可以作为模块加入神经网络的各个层中。

先来看STN效果

【论文学习】STN —— Spatial Transformer Networks

如图,是手写数字识别,图中只有一小块是数字,其他大部分地区都是黑色的,或者是小噪音。假如要识别,用STN层来对图片数据进行旋转缩放,只取其中的一部分,放到之后然后经过CNN就能识别了。说白了就是把图片中物体所在区域送到网络后面的层中,使得后面的分类任务更简单。

本质上来说,CNN是尽力让网络适应物体的形变,而STN是直接通过 Spatial Transformer 将形变的物体给变回到正常的姿态,然后再给网络识别。

 

STN整体结构

【论文学习】STN —— Spatial Transformer Networks

STN的结构如上图所示,由三个模块组成:

(1)Localisation net
Localisation Network的输入是特征图U,输出是变换参数θ,该网络通过回归来学习变换变换参数θ。
θ参数的规模取决于将图像的空间变换视为何种变换,当把图像的空间变换视为纺射变换,θ由6个参数决
定。

(2)Grid generator

Grid generator用于得到输出特征图的坐标点对应的输入特征图的坐标点的位置。

【论文学习】STN —— Spatial Transformer Networks

上图中,(a)恒等变换与采样; (b)仿射变换与采样。仿射变换如下所示

【论文学习】STN —— Spatial Transformer Networks

(3)Sampler

 通过仿射变换等变化的坐标有可能是浮点数,如果直接取整,则导致无法进行反向传播。因此作者使用
如下公式建立变换前后的坐标映射关系:

【论文学习】STN —— Spatial Transformer Networks

具体实现方式有多种,比如最近邻取整,双线性插值等等。

 

实验结果

【论文学习】STN —— Spatial Transformer Networks

数据集:对mnist图片上的数字做了各种形变操作,比如平移,扭曲,放缩,旋转等。其中,R: rotated, RTS: rotated, translated, and scaled, P: projective distortion, E: elastic distortion。

Spatial Transformer 模块嵌入到 两种主流的分类网络,FCN和CNN中图片输入层与后续分类层之间。

【论文学习】STN —— Spatial Transformer Networks

【论文学习】STN —— Spatial Transformer Networks

总结思考

Spatial Transformer Networks的出发点是传统CNN中的空间不变性是通过pooling实现的,然而pooling的小尺寸导致不变性只能在网络的深层达到,而且并不能真正处理输入数据的大变换。于是作者提出,对图像或者中间层的feature map作变换。

一个非常大的好处是,STN中三个模块全部可微,因此可以实现端到端的训练。

而且可以处理image,也可以处理feature,应用的位置也非常多,所以说设计的非常灵活了!

STN正常而言是不需要先验的,那么如果有先验的landmarks会不会效果更好呢?

 

参考文献

[1] https://arxiv.org/abs/1506.02025

[2] https://zhuanlan.zhihu.com/p/37110107

[3] https://arleyzhang.github.io/articles/7c7952f0/

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/183894.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • JVM调优常用命令及工具

    JVM调优常用命令及工具目录1、jstat命令1.1、查看class加载统计1.2、查看编译统计1.3、垃圾回收统计2、jmap命令2.1、查看内存使用情况jmap-heap2629682.2、查看内存中对象数量及大小2.3、将内存使用情况dump到文件中2.4、通过jhat对dump文件进行分析2.5、通过MAT工具对dump文件进行分析3、jstack命令4、jdk自带jvisualvm工具1、jstat命令jstat命令可以查看堆内存各部分的使用量,以及加载类的数

    2022年5月15日
    57
  • rc522优点_51单片机rc522接线图

    rc522优点_51单片机rc522接线图公司需要做刷卡模块,因此选了RC522做demo程序。下面就RC522知识做简要的总结。本人使用stm32的硬件spi接口搭建工程,相关的配置如下:spi配置:引脚配置SDA——-PA4SCLK—-PB13MOSI——-PB15MISO——PB14IRQ—没接RST—-PB0//PB12–NSSPB13–SCKPB14–…

    2022年9月19日
    0
  • Vue中 使用定时器 (setInterval、setTimeout)[通俗易懂]

    Vue中 使用定时器 (setInterval、setTimeout)[通俗易懂]js中定时器有两种,一个是循环执行setInterval,另一个是定时执行setTimeout。定时器需要在页面销毁的时候清除掉,不然会一直存在!1.循环执行(setInterval)顾名思义,循环执行就是设置一个时间间隔,每过一段时间都会循环执行这个方法,直到这个定时器被销毁掉;语法:setInterval(code,milliseconds);setInterval(function,milliseconds,param1,param2,…);code/funct

    2022年9月28日
    0
  • 忽略证书验证的CloseableHttpClient[通俗易懂]

    项目里需要忽略证书访问,在网上查了,大部分回答都是复制粘贴的,并且也没有什么结果。自己看看源码,现在把创建忽略证书的CloseableHttpClient的方法共享下publicCloseableHttpClientgetIgnoeSSLClient()throwsException{SSLContextsslContext=SSLContexts.cu

    2022年4月16日
    83
  • qxdm使用教程_勃兰匠记工具怎么样

    qxdm使用教程_勃兰匠记工具怎么样QualcommQXDM

    2022年10月2日
    0
  • 下载视频网站中ts格式的视频[通俗易懂]

    下载视频网站中ts格式的视频[通俗易懂]下载视频网站中ts格式的视频1、第一步打开开发者工具Chrome中可以用【F12】或者【Crtl+Shift+I】或者【自定义】(也就是三个点的选项按钮)下面的【更多工具】——【开发者工具】(Chroem版本86)找到【network】并刷新网页2、如果有m3u8结尾的文件,把它的源地址复制下来Chrome开发者工具第三行开头,有一个【filter】(过滤器)在里面输入【m3u8】就可以搜索,寻找.m3u8结尾的文件右键【xxx.m3u8】文件,找到copycopylink

    2022年7月18日
    36

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号