Image Retrieval using Scene Graphs ——基于场景图的图像检索 读书笔记

Image Retrieval using Scene Graphs ——基于场景图的图像检索 读书笔记Abstract 摘要 这篇文章基于场景图的概念 提出了一种新的语义图像检索框架 场景图表示了对象 人 船 对象的属性 船是白色的 对象之间的关系 人站在船上 我们使用这些场景图来检索与场景图语义相关的图像 为此 我们设计了一个条件随机场模型 为每一个场景图挑选出可能的测试图片 这些理由的可能性被用作检索的排名分数 Thelikelihoo

 

Image Retrieval using Scene Graphs ——基于场景图的图像检索 读书笔记

Abstract (摘要)

这篇文章基于场景图的概念,提出了一种新的语义图像检索框架。场景图表示了对象(“人”,“船”),对象的属性(“船是白色的”),对象之间的关系(“人站在船上”)。我们使用这些场景图来检索与场景图语义相关的图像。为此,我们设计了一个条件随机场模型,为每一个场景图挑选出可能的测试图片。这些理由的可能性被用作检索的排名分数(The likelihoods of these groundings are used as ranking scores for retrieval.)。我们介绍了一个新数据集,这个数据集中含有5000张图片及这些图片对应的场景图,并用这个数据集来评估我们的图像检索方法。特别地,我们使用全场景图和小场景子图来评估检索,并且表明我们的方法优于只使用对象或低级图像特征的检索方法。此外,我们表明,我们的模型可以用来提高对象定位的准确度compare to baseline methods。

 

一、Scene Graphs(场景图):

为了检索图像包含的特定的语义信息,我们需要一种规范化方法来描述场景中的内容,这种表达必须足够强大,以描述丰富多彩的场景,而且不太繁琐。为此,我们定义了两个抽象概念:scene graph(用来描述场景)和scene graph grounding(场景图与图像的具体关联)。(grounding的意思应该是场景图的每个对象与图像中的区域的对应)

场景图是用来描述场景的数据结构,一个场景图包含了对象的实例,对象的属性,以及对象之间的关联。

Image Retrieval using Scene Graphs ——基于场景图的图像检索 读书笔记

上图的下面部分:

是一个场景图,场景图的对象可以是人(“girl”),地点(“tennis court”),物品 (“shirt”),其他(“arm”)。属性可以是颜色(“cone is orange ”),形状(“logo is round ”),以及姿势(“arm is bent ”)等。关系可以是位置(“fence behind girl ”),动作(“girl swinging racket ”),对象的一部分(“racket has handle ”)等。

定义对象类别集合C,属性类别集合A,关系类别集合R。场景图G(O, E) ,其中O={o1,…,on} 是对象,E ⊆ O×R×O 是边。每个对象 oi = (ci, Ai),ci ∈ C,Ai ⊆ A。

上图的上面部分:

通过将场景图中每一个对象实例和图像中某一个区域相关联 可以将场景图和真实世界的图片关联起来。

真实世界图片中的部分区域的集合为B(bounding boxes )。

γ : O → B :将场景图中的对象和图片中的部分区域相关联,即一个grounding。

 

二、Real-World Scene Graphs Dataset 

本文提出了一个新的数据集:real-world scene graphs :从YFCC100m and Microsoft COCO选取了5000张图片重新标注。对每张图片,标出其(对象,属性)和(对象,关系,对象)元组,描述词汇是非固定的单词不是预定义好的词汇,并且标出每个对象在图片中对应的方形区域。

数据集一共5000张图片,包含93,000 个对象实例,110,000 个属性实例和112,000 个关系实例。实验部分只考虑训练集中对象类别和属性种类出现50次以上,关系种类出现30次以上的数据。如下图所示,新的数据集的对象数量远高于原始数据集,且比原始数据集新增属性和关系。

Image Retrieval using Scene Graphs ——基于场景图的图像检索 读书笔记

 

三、Image Retrieval by Scene Graph Grounding 

我们希望使用场景图来检索图像场景与场景图描述场景相似的图像。我们需要测量要查询的场景图和未注释的图像之间的相似程度。我们假设相似程度可以通过检查场景图和图像之间最可能的 grounding 来决定。

本文构建了一个条件随机场,该CRF模拟了所有可能的groundings分布,再通过最大后验(MAP)寻找最可能的grounding。

通过对比几种方法,图像子区域(candidate boxes )的选择使用Geodesic Object Proposals (GOP[2])方法。  

算法:

G=(O,E)是场景图,B是bounding boxes的集合(图像中的一个个方形子区域),γ 是一个grounding。有:

Image Retrieval using Scene Graphs ——基于场景图的图像检索 读书笔记

根据贝叶斯,上式变为:

Image Retrieval using Scene Graphs ——基于场景图的图像检索 读书笔记

Image Retrieval using Scene Graphs ——基于场景图的图像检索 读书笔记

 

四、Experiments(实验):

4000个训练图像,1000个测试图像,一共比较了如下几个方法:

SG-obj-attr-rel:上述模型,场景图中含有对象,属性,关系。

SG-obj-attr:上述模型,场景图中含有对象,属性。

SG-obj:上述模型,场景图中只含有对象。

以及CNN, GIST, SIFT, Random.

实验结果如table2:

 Image Retrieval using Scene Graphs ——基于场景图的图像检索 读书笔记

1、在full ground-truthscene graphs中

    目的:“复杂的全场景图”,证明模型可以精确的描述要检索的图片

    结果:shown in Table2 (a)

2、在extremely simple scene graphs中

    目的:“非常简单的场景图”,证明模型非常灵活

    结果:shown in Table2 (b),效果优于传统方法和其他方法

3、object localization 

    模型可以用于单个目标的定位,结果依旧很优。Shown in table2 (c)

 

Conclusion(总结)

本文将场景图作为视觉场景中细节语义的一种新的表示方法,并引入一个新的数据集,这个数据集将场景图和真实世界的图片关联起来。我们已经使用这种表示和数据集构建一个CRF模型,用场景图作为查询来进行语义图像检索。实验表明,该模型优于基于对象检测和低层次视觉特征的方法。我们认为,语义图像检索是我们的场景图表示和数据集的许多令人兴奋的应用之一,并希望更多的后续。

 

 

参考

[1] Image Retrieval using Scene Graphs

[2] P. Kra ̈henbu ̈hl and V. Koltun. Geodesic object proposals. In Computer Vision–ECCV 2014, pages 725–739. Springer, 2014. 6 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/225325.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月17日 上午9:34
下一篇 2026年3月17日 上午9:34


相关推荐

  • navicat激活码linux[最新免费获取]

    (navicat激活码linux)本文适用于JetBrains家族所有ide,包括IntelliJidea,phpstorm,webstorm,pycharm,datagrip等。IntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,下面是详细链接哦~https://javaforall.net/100143.html…

    2022年3月31日
    77
  • 大数据云计算和物联网之间的区别和联系_云计算和大数据的区别

    大数据云计算和物联网之间的区别和联系_云计算和大数据的区别一、概念1.云计算“云”指通过计算机池提供资源,也就是说,不是构建一两台机器的问题,而是要构建一定规模的集群,并且对该集群统一管理,形成”资源池“,才能满足云计算业务的需求。简单地说,**云计算就是基于互联网将规模化资源池的计算、存储、平台开发和软件能力提供给用户,实现自动化、低成本、快速提供和灵活伸缩的IT服务。**云计算代表了以虚拟化技术为核心、以低成本为目标的、动态可扩展的…

    2022年10月7日
    6
  • 面试官:说说什么是 Java 内存模型(JMM)?

    面试官:说说什么是 Java 内存模型(JMM)?本文禁止转载1.为什么要有内存模型?1.1.硬件内存架构1.2.缓存一致性问题1.3.处理器优化和指令重排序2.并发编程的问题3.Java内存模型3.1.Java运行时内存区域与硬件内存的关系3.2.Java线程与主内存的关系3.3.线程间通信4.有态度的总结在面试中,面试官经常喜欢问:『说说什么是Java内存模型(JMM)?』面试者内心狂喜,这题刚背过:『Java内存主要分为五大块:堆、方法区、虚拟机栈、本地方法栈、PC寄存器,ba.

    2022年6月7日
    40
  • Go关键字–func

    Go关键字–funcfuncfunc 关键字用来定义函数 函数是 golang 中非常重要的一块 定义一个函数的语法格式是 funcfnctionN arg1dataType arg2dataType dataType dataType fmt Println funcbody return a b 函数多返回值是 golang 的特性之一 在声明返回值时 可

    2026年3月18日
    2
  • Pycharm 2019使用设置,让你用起来更便捷!

    Pycharm 2019使用设置,让你用起来更便捷!1 创建 Python 工程的的时候勾选下面的 第一个创建一个虚拟环境 不会包含自己安装的第三方包 2 当代码有 tab 缩进的时候 会用 显示 tab 键 3 设置 Python 新建文件默认信息 4 字体大小设置 5 Python2 Python3 解析器的切换 有时候因为建立工程时选择的 Python 版本不一致 导致编译时提醒选择编译器 可以在这里统一设置工程的编译器版本

    2026年3月27日
    2
  • mysql命令备份

    mysql命令备份mysql命令备份

    2022年6月21日
    28

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号