mask rcnn详解_3R制造

mask rcnn详解_3R制造一.Mask-RCNN介绍    上篇文章介绍了FCN,这篇文章引入个新的概念Mask-RCNN,看着比较好理解哈,就是在RCNN的基础上添加Mask。    Mask-RCNN来自于年轻有为的Kaiming大神,通过在Faster-RCNN的基础上添加一个分支网络,在实现目标检测的同时,把目标像素分割出来。    论文下载:MaskR-CN

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

一. Mask-RCNN 介绍

       上篇文章介绍了 FCN,这篇文章引入个新的概念 Mask-RCNN,看着比较好理解哈,就是在 RCNN 的基础上添加 Mask。

       Mask-RCNN 来自于年轻有为的 Kaiming 大神,通过在 Faster-RCNN 的基础上添加一个分支网络,在实现目标检测的同时,把目标像素分割出来。

       论文下载:Mask R-CNN           部分翻译

       代码下载:【Github

       Mask-RCNN 的网络结构示意(在作者原图基础上修改了一下):

        mask rcnn详解_3R制造

       假设大家对 Faster 已经很熟悉了,不熟悉的同学建议先看下之前的博文:【目标检测-RCNN系列

       其中 黑色部分为原来的 Faster-RCNN,红色部分为在 Faster网络上的修改:

1)将 Roi Pooling 层替换成了 RoiAlign;

2)添加并列的 FCN 层(mask 层);

       先来概述一下 Mask-RCNN 的几个特点(来自于 Paper 的 Abstract):

1)在边框识别的基础上添加分支网络,用于 语义Mask 识别;

2)训练简单,相对于 Faster 仅增加一个小的 Overhead,可以跑到 5FPS;

3)可以方便的扩展到其他任务,比如人的姿态估计 等;

4)不借助 Trick,在每个任务上,效果优于目前所有的 single-model entries;

     包括 COCO 2016 的Winners。

        PS:写到这儿提醒一句,建议大家先读一遍 原 Paper,这样再回来看的话会有第二次理解。

二. RCNN行人检测框架

       基于最早的 Faster RCNN 框架,出现不少改进,主要有三篇需要看:

1)作者推荐的这篇

     Speed/accuracy trade-offs for modern convolutional object detectors

     论文下载arxiv

2)ResNet

     MSRA也算是作者自己的作品,可以 refer to blog【ResNet残差网络】 

     论文下载arxiv

3)FPN

     Feature Pyramid Networks for Object Detection,通过特征金字塔来融合多层特征,实现CNN。

     论文下载arxiv

       来看下 后面两种 RCNN 方法与 Mask 结合的示意图(直接贴原图了):

        mask rcnn详解_3R制造

       图中灰色部分是 原来的 RCNN 结合 ResNet or FPN 的网络,下面黑色部分为新添加的并联 Mask层,这个图本身与上面的图也没有什么区别,旨在说明作者所提出的Mask RCNN 方法的泛化适应能力 – 可以和多种 RCNN框架结合,表现都不错

三. Mask-RCNN 技术要点

● 技术要点1 – 强化的基础网络

     通过 ResNeXt-101+FPN 用作特征提取网络,达到 state-of-the-art 的效果。

● 技术要点2 – ROIAlign

     采用 ROIAlign 替代 RoiPooling(改进池化操作)。引入了一个插值过程,先通过双线性插值到14*14,再 pooling到7*7,很大程度上解决了仅通过 Pooling 直接采样带来的 Misalignment 对齐问题

     PS: 虽然 Misalignment 在分类问题上影响并不大,但在 Pixel 级别的 Mask 上会存在较大误差。

     后面我们把结果对比贴出来(Table2 c & d),能够看到 ROIAlign 带来较大的改进,可以看到,Stride 越大改进越明显。 

● 技术要点3 – Loss Function

     每个 ROIAlign 对应 K * m^2 维度的输出。K 对应类别个数,即输出 K 个mask,m对应 池化分辨率(7*7)。Loss 函数定义:

            Lmask(Cls_k) = Sigmoid (Cls_k),    平均二值交叉熵 (average binary cross-entropy)Loss,通过逐像素的 Sigmoid 计算得到。

     Why K个mask?通过对每个 Class 对应一个 Mask 可以有效避免类间竞争(其他 Class 不贡献 Loss )。

        mask rcnn详解_3R制造

     通过结果对比来看(Table2 b),也就是作者所说的 Decouple 解耦,要比多分类 的 Softmax 效果好很多。

四. 对比实验效果

mask rcnn详解_3R制造

       另外,作者给出了很多实验分割效果,就不都列了,只贴一张 和 FCIS 的对比图(FCIS 出现了Overlap 的问题):

       mask rcnn详解_3R制造

五. Mask-RCNN 扩展

       Mask-RCNN 在姿态估计上的扩展,效果不错,有兴趣的童鞋可以看Paper。

        mask rcnn详解_3R制造

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/189006.html原文链接:https://javaforall.net

(0)
上一篇 2026年4月14日 下午10:37
下一篇 2026年4月14日 下午10:43


相关推荐

  • 把电视当显示器使用 通过S端子连接电脑技巧 .

    把电视当显示器使用 通过S端子连接电脑技巧 .见过不少网友提过 不知道该怎么设置 S 端子连接电脑 把电视当显示器使用 下面笔者就解说一下我的使用经验和设置技巧 大家可以试试看 把电视当显示器的效果是差强人意的 不过大家可以玩玩 呵呵 其实 S 端子不能输入视频有很多原因的 1 你的电脑设置问题 2 你的笔记本显卡不支持多显示器 3 你的电视设置问题 4 你的电视解析度问题 5

    2026年3月16日
    2
  • JS通过substring、indexOf、lastIndexOf截取字符串中对应的内容「建议收藏」

    JS通过substring、indexOf、lastIndexOf截取字符串中对应的内容「建议收藏」JavaScript截取字符串中的内容substring(下标1,下标2);//从下标1截取到下标2substring();不会改变自身变量下标1:必填,非负整数,开始截取的字符串下标下标2:非必填,非负整数,结束截取的字符串下标,如果下标2不填,则字符串截取到结尾处Demo:letstr=”abcdefghizk”;str=str.substring(1,5);console.log(str);//输出:bcdeTips:截取字符串的结束下标是不包含该字符本身的i

    2022年7月14日
    31
  • Android游戏引擎汇总

    Android游戏引擎汇总随着 Android 系统的使用越来越广泛 了解一下 Android 平台下的游戏引擎就非常有必要 而同时因为基于 Intelx86 的移动设备越来越多 我也非常关注支持 x86 的移动游戏引擎 然而就目前为止游戏引擎的数量已经非常之多 每个引擎都有不同的特征 价格 成熟度等 通过一些调研之后 我发现有非常多的游戏引擎可用于开发运行在 android 移动设备端的游戏 其中有些还支持 x86 系统 另外还有些通过简单的修

    2026年3月19日
    1
  • SQL中连接(JOIN)子句介绍

    SQL中连接(JOIN)子句介绍本文主要介绍 SQL StructuredQu 中连接 JOIN 子句的相关知识 同时通过用法示例介绍连接的常见用法 说明 本文的用法示例是面向 MySQL 数据库的 1 概述 SQL 中 JOIN 子句用于把来自两个或多个表的行结合起来 在实际的数据库应用中 经常需要从多个数据表中读取数据 这时就可以使用 SQL 语句中的连接 JOIN 子句 在两个或多个数据表中查询数据 JOIN 的用法按照功能划分 可分为如下三类 INNERJOIN 内连接 或等值连接

    2026年3月19日
    2
  • 贪吃蛇程序代码python_python 贪吃蛇

    贪吃蛇程序代码python_python 贪吃蛇Python贪吃蛇源代码Python代码狂人Python代码大全程序运行截图如下:importpygameaspgfromrandomimportrandintimportsysfrompygame.localsimport*FPS=6#画面帧数,代表蛇的移动速率window_width=600window_height=500cellsize=20c…

    2022年8月10日
    13
  • hadoop/journal/ns: NameNode has clusterId ‘CID-b82’ but storage has clusterId ‘CID-657

    hadoop/journal/ns: NameNode has clusterId ‘CID-b82’ but storage has clusterId ‘CID-657hadoop/journal/ns: NameNode has clusterId ‘CID-b82’ but storage has clusterId ‘CID-657

    2022年4月23日
    143

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号