斩获VCR竞赛榜第一,腾讯微视推出BLENDer单模型,超越多模型最好效果

斩获VCR竞赛榜第一,腾讯微视推出BLENDer单模型,超越多模型最好效果出品 CSDN ID CSDNnews 视觉常识推理 VCR VisualCommon 是人工智能领域的前沿热点问题 我国 新一代人工智能发展规划

斩获VCR竞赛榜第一,腾讯微视推出BLENDer单模型,超越多模型最好效果

斩获VCR竞赛榜第一,腾讯微视推出BLENDer单模型,超越多模型最好效果

出品 | CSDN(ID:CSDNnews)

视觉常识推理VCR (Visual Commonsense Reasoning )是人工智能领域的前沿热点问题,我国《新一代人工智能发展规划》中也将从处理类型单一的数据到跨媒体认知、学习和推理的“跨媒体智能”纳入五大智能方向。

近日,腾讯微视视频理解团队在多模态理解领域最权威排行榜之一VCR任务中荣登榜首。该团队提出的BLENDer(BimodaL ENcoDer)模型超越百度、谷歌、微软、Facebook等多家研究机构的模型效果,一举成为单、多模型的三项指标第一,值得注意的是,BLENDer仅凭单模型效果便超越了此前榜单上的多模型最好效果,赋予了机器更强大的理解和认知能力,并深度应用到短视频领域。

斩获VCR竞赛榜第一,腾讯微视推出BLENDer单模型,超越多模型最好效果

赶超百度、谷歌等,腾讯微视AI团队登顶VCR榜首

VisualCommonsense Reasoning (VCR)任务于2018年由华盛顿大学的研究人员首次提出,任务旨在将图像和自然语言理解二者结合,验证多模态模型高阶认知和常识推理的能力,让机器拥有“看图说话”的能力, 例如VCR能够通过图片中人物的行为,进一步推理出其动机、情绪等信息。

VCR榜单是多模态理解领域最权威的排行榜之一,也是当前图像理解和多模态领域层次最深、门槛最高的任务之一,吸引了微软、谷歌、Facebook、百度、UCLA等国内外公司和研究机构纷纷参与。

 

斩获VCR竞赛榜第一,腾讯微视推出BLENDer单模型,超越多模型最好效果

此次拔得头筹的单模型BLENDer来自腾讯微视视频理解团队,超越上一届榜首百度团队的多模态预训练模型 ERNIE-ViL-large成为新的VCR榜单霸主。

斩获VCR竞赛榜第一,腾讯微视推出BLENDer单模型,超越多模型最好效果

 

据相关负责人介绍,BLENDer模型已经应用到腾讯微视产品中,赋予了平台更强大的认知能力,使得包含文本、音频、视频等多种媒体信息在内的短视频内容,能够更好的做到分类和识别,更加精准理解和挖掘这些海量的跨媒体信息。例如当腾讯微视用户创作视频后平台可识别内容并精准推荐适合的话题,也能根据内容属性快速推荐给感兴趣的用户,增强创作内容的曝光。

腾讯微视视频理解团队提出的单模型BLENDer,是基于前沿的视觉语言Bert模型,将整个学习过程分成三个阶段,最终将任务的三项问答准确率一举提高到了81.6, 86.4, 70.8的水平,仅是BLENDer单模型上的表现已经超过此前各业界公司和研究机构的多模型融合效果。

斩获VCR竞赛榜第一,腾讯微视推出BLENDer单模型,超越多模型最好效果

在BLENDer模型中,第一阶段以NLP中的Bert模型为起点,结合海量数据中抽取得到的数百万张图片和对应描述文本作为BLENDer的输入进行多模态训练;第二阶段,在视觉常识推理数据集上学习电影中的场景和情节,使模型在新数据上获得更好的迁移能力;第三阶段,引入最终问答任务,让BLENDer利用已有的知识和常识对现有问题进行人物-人物、人物-场景之间关系的挖掘和关联进行推理,得到最终的答案。

斩获VCR竞赛榜第一,腾讯微视推出BLENDer单模型,超越多模型最好效果

腾讯微视将人工智能技术赋能短视频

一直以来,腾讯微视视频理解团队长期深耕多模态语义理解领域,持续进行技术突破和落地,将相关技术应用在海量图像、视频、文本等跨媒体信息的认知推理中。

同时,腾讯微视团队也不断从业务出发探索前沿领域,并将人工智能技术应用到短视频生态中,贯穿内容创作、内容审核以及内容分发的各个环节。

在内容创作环节,腾讯微视将3D人脸、人体、GAN等AI技术结合AR技术辅助用户进行内容创作,让创作过程更加便捷、有趣和普惠;在视频审核环节,腾讯微视借助图像检测、分类、多模态理解等AI技术精准识别视频内容,提升审核效率,使得用户生产的内容最快时间触达消费者,目前腾讯微视内容处理效率已取得业界领先水平;而在视频分发环节,腾讯微视借助AI技术从非结构化的图像、音频、文本数据中提取结构化信息输出,如标签、特征等,支撑分发精准匹配用户。

未来,人工智能将具备更加多元、深度的交流学习能力,而技术的创新和精进将进一步推动AI技术在短视频业务中智能交互场景的落地。

斩获VCR竞赛榜第一,腾讯微视推出BLENDer单模型,超越多模型最好效果

斩获VCR竞赛榜第一,腾讯微视推出BLENDer单模型,超越多模型最好效果

更多精彩推荐 
☞做数据中心,腾讯是认真的 ☞首次公开!阿里巴巴云原生实时数仓核心技术揭秘 ☞起底 Windows 35 年发展史 ☞赠书 | 新手指南——如何通过HuggingFace Transformer整合表格数据 
☞想在边缘运行计算机视觉程序?先来迎接挑战 ☞《中国区块链发展报告(2020)》导读:全球区块链政策及监管重点趋势 
点分享点点赞点在看 
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/176574.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月26日 下午9:35
下一篇 2026年3月26日 下午9:36


相关推荐

  • 在ubuntu系统下安装python

    在ubuntu系统下安装python

    2021年10月6日
    49
  • CSS3 transition实现手风琴效果「建议收藏」

    CSS3 transition实现手风琴效果「建议收藏」CSS3transition实现手风琴效果最近在项目中遇到了一个需求,需要完成一个手风琴效果的展示,最后通过CSS3transition实现了这个效果,下面就分享下实现方法。效果首先看下效果:可以看到,当我们点击toggle按钮的时候会实现一个带有动画的过渡效果。transition属性实现动画效果这要用到了transition的四个属性,分别是:transition-prope…

    2022年7月13日
    14
  • html设置自动滚动条,css滚动条设置

    html设置自动滚动条,css滚动条设置用 css 怎么设置 div 滚动条的样式 可改变大小的 overflow auto 在需要时内容会自动添加滚动条 overflow scroll 总是显示滚动条 overflow x hidden 禁止横向的滚动条 overflow y scroll 总是显示纵向滚动条 width 568px width 98 设置区域的宽度 像素 百分比等等 height 120pxcss 怎样

    2026年3月17日
    2
  • 收藏 | 阿里程序员常用的 15 款开发者工具(2020 版)

    收藏 | 阿里程序员常用的 15 款开发者工具(2020 版)简介 本文精选了一些阿里经济体内部最受开发者欢迎的开发者工具 筛选出一些带有普适性同样适合外部开发者的 希望能助力开发者们提高开发效率 来源 阿里巴巴云原生公众号本文精选了一些阿里经济体内部最受开发者欢迎的开发者工具 筛选出一些带有普适性同样适合外部开发者的 希望能助力开发者们提高开发效率 1 Java 工程脚手架 JavaInitiali 官网 https start aliyun com bootstrap html 简介 2020 年由阿里巴巴中间件团队发布的定制版 Java 工程脚手架 快

    2026年3月17日
    2
  • pycharm统一缩进快捷键_pycharm 注释快捷键

    pycharm统一缩进快捷键_pycharm 注释快捷键1.批量注释:选择要注释的文本行,背景变化后,同时按Ctrl+/2.取消批量注释:选择已注释的文本行,背景变化后,同时按Ctrl+/3.批量缩进:选择要缩进的文本行,背景变化后,按下TAB键4.取消批量缩进:选择要缩进的文本行,背景变化后,按下SHIFT+TAB键…

    2022年8月27日
    9

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号