RPN网络通俗理解

RPN网络通俗理解【提特征】RPN网络前面是一个提特征的网络,比如VGG,Res等,传给RPN网络的是一个特征图,其实也就是一个tensor比如用ZF网络(论文里面用的)输出特征图:13*13*256【RPN】拿到模型的特征,RPN网络首先加了一个3*3*256*256的卷积层(其实不是很清楚为什么加,可能是为了扩大感受野)这样就会得到11*11*256的输出,前面11*11是图形矩阵,其中每一个点在原图中都是一个…

大家好,又见面了,我是你们的朋友全栈君。

【提特征】

RPN网络前面是一个提特征的网络,比如VGG,Res等,传给RPN网络的是一个特征图,其实也就是一个tensor

比如用ZF网络(论文里面用的)

输出特征图:13*13*256

【RPN】

拿到模型的特征,RPN网络首先加了一个3*3*256*256的卷积层(其实不是很清楚为什么加,可能是为了扩大感受野)

这样就会得到11*11*256的输出,前面11*11是图形矩阵,其中每一个点在原图中都是一个很大的区域,256表示这个区域的特征,具体的计算不再讨论

RPN网络通俗理解

厉害的一步来了,之后在这个卷积之后,各自接了两个全连接层,一个输出18,一个输出36

这是为啥呢?

先看下面这个图

RPN网络通俗理解

上面我说的11*11,其中每一个点,也就是特征图上的每一个点其实在原图中都是一块很大的区域(不太清楚的再看看卷积),也就是上面的黑框,在这个区域内可能有目标,为了能更能逼近目标,我们需要3种尺度,和3种形状。3*3=9,就是图中的那9种物体框。假设原图中有一个物体,那我们通过在原图上平移黑框,就总能找到一个颜色框能正好把物体框在里面(真是厉害这想法),而且尺度啊形状最接近。

那么如何平移的呢?在原图上你一个像素一个像素平移没意义啊,难道要重复提取特征?所以平移必须在特征图上平移,因为特征图最后总能映射回原图。11*11的特征图区域,在原图中就表示11*11个大黑框,每个大黑框里面又有9个小颜色框,这样就会产生11*11*9个不同位置,不同尺度,不同形状的物体框,基本足够框出所有物体了。

【如何训练】

损失函数参考这篇文章,等我代码熟了直接上代码

https://blog.csdn.net/wfei101/article/details/77150573

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/152299.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • oracle数据库学习总结在(一)

    oracle数据库学习总结在(一)对oracle已经学习三个多月了,看了不少东西,oracle数据库很复杂,光概念就很多,为了对oracle有更好的认识我打算把我这段时间的学习做下总结,为结下来的学习打下好的基础。  总结目录:1.设计数据库,设计出结构优化的数据库,可扩展性好。2.数据库的备份和恢复,权限的分配3.优化数据库,数据库性能调优。4.数据库开发,存储过程,触发器,函数等后端数据库程序,给系

    2022年10月21日
    4
  • oracle 协议适配器错误,无法登陆

    oracle 协议适配器错误,无法登陆问题:   之前装好了oracleXE(快捷版),然后关闭此版本所有服务,再装上了oracle11g正式版,使用正式版正常。   关闭正式版的所有服务,打开xe版服务后,从sqlplus登陆,提示oracle 协议适配器错误,无法登陆。    解决:  进入sqlplus前,在commandline下输setoracle_sid=XXXX

    2022年6月22日
    31
  • layout_gravity和gravity的用法

    layout_gravity和gravity的用法也谈layout_gravity和gravity的用法相信对于Android的初学者来说,大家都曾经被layout里这两个极其相似的属性迷惑过。简单使用一下搜索工具,我们就不难找到下面这样的答案:layout_gravity表示组件自身在父组件中的位置gravity            表示组件的子组件在组件中的位置看似很简单嘛~)貌似大伙瞅一眼就明白了。

    2022年7月15日
    16
  • HTML入门与进阶以及HTML5

    HTML入门与进阶以及HTML5目录一、简介1、前端开发最核心技术(1)HTML是什么?(2)CSS(3)JavaScript2、前端开发其他技术二、基础内容1.基础总结2.HTML的基本标签(1)HTML标签(2)head标签(3)body标签3、段落与文字(一)、段落标签(二)、网页特殊符号(三)、自闭合标签(四)、块元素和行内元素(五)、练…

    2022年6月4日
    44
  • C#截屏

    本实例代码实现了WinForm截屏保存为图片,亲测可行。界面截图:下载:http://hovertree.com/h/bjaf/scjyuanma.htm以下代码可以实际运行,在项目HoverTree

    2021年12月27日
    64
  • Mysql和redis_简述Redis和MySQL的区别[通俗易懂]

    Mysql和redis_简述Redis和MySQL的区别[通俗易懂]我们知道,mysql是持久化存储,存放在磁盘里面,检索的话,会涉及到一定的IO,为了解决这个瓶颈,于是出现了缓存,比如现在用的最多的memcached(简称mc)。首先,用户访问mc,如果未命中,就去访问mysql,之后像内存和硬盘一样,把数据复制到mc一部分。redis和mc都是缓存,并且都是驻留在内存中运行的,这大大提升了高数据量web访问的访问速度。然而mc只是提供了简单的数据结构,比如…

    2022年6月16日
    51

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号