详解RPN网络[通俗易懂]

详解RPN网络[通俗易懂]引言RPN(RegionProposalNetwork)是Faster-RCNN网络用于提取预选框(也就是RCNN中使用selectivesearch算法进行RegionProposal的部分),我们知道RCNN及Fast-RCNN中一个性能瓶颈就是提取预选框的部分,而RPN很好地对这个部分进行了优化,原因在于它将卷积神经网络引入了进来,使用特征提取的形式生成出预选框的位置从而降低了selectivesearch算法带来的计算时间上的开销。RPN(RegionProposalNetwor

大家好,又见面了,我是你们的朋友全栈君。

引言

RPN(Region Proposal Network)是Faster-RCNN网络用于提取预选框(也就是RCNN中使用selective search算法进行Region Proposal的部分),我们知道RCNN及Fast-RCNN中一个性能瓶颈就是提取预选框的部分,而RPN很好地对这个部分进行了优化,原因在于它将卷积神经网络引入了进来,使用特征提取的形式生成出预选框的位置从而降低了selective search算法带来的计算时间上的开销。

RPN( Region Proposal Network) :-

在这里插入图片描述
CNN从特征图中学习分类的方式,RPN也从特征图中学习生成这些候选框。一个典型RPN网络如图所示。它的网络流程如下:

step1

在第一步中,我们的输入图像通过卷积神经网络,其最后一层将特征图作为输出;

step2

在这一步骤中,滑动窗口通过上一步骤得到的特征图进行运行。滑动窗口的大小为n*n(这里是3×3)。对于每个滑动窗口,生成一组特定的锚,但有3种不同的长宽比(1:1, 1:2, 2:1)和3种不同的长宽(128, 256和512)的方框,如下所述:

  1. 有3种不同的长宽比和3种不同的方框,所以特征图中每个像素共可有9种方案;
  2. 在特征图大小为W * H的情况下,锚箱的总数量和特征图每个位置的锚数量为K,可以给出W * H * K。

下图显示了尺寸为(600, 900)的图像的(450, 350)位置的9个锚点。
在这里插入图片描述
在上图中,三种颜色代表三种比例或尺寸(128×128, 256×256, 512×512)。让我们把绿色的盒子/锚单列出来。这三个盒子的高度宽度比例分别为1:1、1:2和2:1。

step3

现在,我们已经为特征图的每个位置设置了9个锚定框。但可能有很多盒子里没有任何物体。因此,模型需要学习哪些锚箱可能有我们的对象。有我们的物体的锚箱可以被归类为前景,其他的则是背景。同时,模型需要学习前景框的偏移量,以适应物体。 这就把我们带到了下一个步骤。

step4

锚箱的定位和分类是由边界箱调节器层和边界箱分类器层完成的。边界盒分类器计算地面真实盒与锚定盒的物性得分,并以一定的概率(又称物性得分)将锚定盒分类为前景或背景。
Bounding box Regressor层学习x,y,w,h值相对于已分类为前景的Anchor Box的偏移(或差异),其中(x,y)是盒子的中心,w和h是宽度和高度。由于RPN是一个模型,每个模型都有一个成本函数来训练,所以RPN也是如此。 RPN的损失函数可以表示如下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

举例

让我们用一个例子来回顾RPN的整个流程。假设我们有一张大小为600×800的图像,在通过卷积神经网络(CNN)块后,这幅输入图像缩小为38×56的特征图,特征图的每个位置都有9个锚点盒。那么我们就有38 * 56 * 9=1192个建议或锚箱需要考虑。而每个锚箱都有两个可能的标签(前景或背景)。如果我们把特征图的深度定为18(9个锚点x 2个标签),我们将使每个锚点都有一个有两个值的向量(通常称为预测值),代表前景和背景。如果我们将预测值送入softmax/logistic回归激活函数,它将预测标签。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/152296.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • CSRF——攻击与防御

    CSRF——攻击与防御

    2021年8月30日
    69
  • Python十大装B语法「建议收藏」

    Python十大装B语法「建议收藏」Python是一种代表简单思想的语言,其语法相对简单,很容易上手。不过,如果就此小视Python语法的精妙和深邃,那就大错特错了。本文精心筛选了最能展现Python语法之精妙的十个知识点,并附上详细的实例代码。如能在实战中融会贯通、灵活使用,必将使代码更为精炼、高效,同时也会极大提升代码B格,使之看上去更老练,读起来更优雅。

    2022年6月2日
    44
  • 大话数据结构–java版「建议收藏」

    大话数据结构–java版「建议收藏」第三章:线性表https://blog.csdn.net/liuquan0071/article/details/50382885

    2022年6月24日
    39
  • 滴滴大脑告诉你,每一次派单背后都经历了什么[通俗易懂]

    滴滴大脑告诉你,每一次派单背后都经历了什么[通俗易懂]CNET科技资讯网2月23日北京消息:滴滴研究院副院长叶杰平近日在上海一场内部分享会上详解滴滴大脑,这是外部首次窥探到较为完整的滴滴算法世界,并且一直潜水的产品“九霄”也首次露出真容。滴滴大脑由三部分组成叶杰平将滴滴大脑这个智能系统分为三部分,分别是大数据、机器学习和云计算。其中大数据就像工业革命时代的煤一样举足轻重,人工智能需要数据进行…

    2022年5月5日
    77
  • Win10 快捷键大全(史上最全)「建议收藏」

    Win10 快捷键大全(史上最全)「建议收藏」windows10常用快捷键。win10正式版是微软续已发布的Windows系统的最新版操作系统。windows10(win10正式版)让人感到最意外的就是直接跳过了win9。那么今天我为大家讲解他推出的常用快捷键。希望能够帮到大家。复制、粘贴和其他常规键盘快捷方式按此键执行此操作Ctrl+X剪切选定项Ctrl+C(或Ctrl+Insert)复制选…

    2022年5月30日
    39
  • 如何有效解决高清视频传输中出现的闪屏、黑屏、蓝屏问题?

    如何有效解决高清视频传输中出现的闪屏、黑屏、蓝屏问题?春节期间冬奥会上女足夺冠的精彩赛事是不是还历历在目?你知道体育赛事、音乐会直播以及远程医疗等对视频清晰度和稳定性要求极高的传输是怎么实现的吗?为什么别人4K超高清的视频看起来如此流畅,而你一个1080P的高清视频却经常出现闪屏、黑屏、蓝屏?​在很多视频监控传输的项目,当我们做完项目后,经常会遇到闪屏、黑屏、蓝屏的问题,反复检查线路和接线后仍一筹莫展,查不出问题所在。这是为什么,工程师为您解答,如何有效解决高清视频传输中出现的闪屏、黑屏、蓝屏的问题。​我们都知道一般高清.

    2022年10月3日
    5

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号