视频识别的基础概念[通俗易懂]

视频识别的基础概念[通俗易懂]视频识别一、视频识别几大问题2、常见的解决方案iDTTwo-StreamTSNC3DTDDRNNRPAN一、视频识别几大问题未修剪视频分类(UntrimmedVideoClassification):通过对输入的长视频进行全局分析,然后软分类到多个类别修剪视频识别(TrimmedActionRecognition):给出一段只包含一个动作的修剪视频,要求给视频分类时序行为提名(TemporalActionProposal):从长视频中找出可能含有动作的视频段时序行为定位(Tempor

大家好,又见面了,我是你们的朋友全栈君。

一、视频识别几大问题

  1. 未修剪视频分类(Untrimmed Video Classification):通过对输入的长视频进行全局分析,然后软分类到多个类别
  2. 修剪视频识别(Trimmed Action Recognition):给出一段只包含一个动作的修剪视频,要求给视频分类
  3. 时序行为提名(Temporal Action Proposal):从长视频中找出可能含有动作的视频段
  4. 时序行为定位(Temporal Action Localization):从视频中找到可能存在行为的视频段,并且给视频段分类
  5. 密集行为描述(Dense-Captioning Events):将一段未修剪的视频进行时序行为定位得到许多包含行为的视频段后,对该视频段进行行为描述

2、常见的解决方案

iDT

iDT算法框架主要包括:密集采样特征点,特征轨迹跟踪和基于轨迹的特征提取三个部分。
光流:在时间间隔很小的情况下,视频像素位移
特征提取:通过网格划分的方式在多尺度图像中分别密集采样特征点。通过计算特征点临域内的光流中值得到特征点运动方向。
在这里插入图片描述

编码:使用了HOF,HOG和MBH三种特征描述光流
HOG:灰度图像梯度直方图,HOG特征的长度为2238=96。
在这里插入图片描述
HOF:光流的直方图,8+1个bin,前8个和HOG相同,1是用于统计光流幅度小于某个阈值的像素。HOG特征的长度为2
239=108。
MBH:光流梯度直方图,在光流图像上计算HOG。光流图像包括x和y方向,所以MBH总的特征长度为2*96=192。

最后进行特征的归一化,DT算法中对HOG,HOF和MBH均使用L2范数进行归一化。

分类器:SVM

对于多分类:
评价指标:mAP、0-1 exact match、Macro-F1等
训练方法:
1)one hot encoding
用一系列的特征去拟合词汇,降低训练所需要的数据量。
2)CNN+RNN(CNN+LSTM)

Two-Stream

一部分处理RGB,一部分处理光流,最后联合训练再分类。
在这里插入图片描述

TSN

这是在Two-Stream上的改进,Two-Stream最大的问题是不能对长时间的视频进行建模,只能对连续几帧视频提取。TSN先将视频分成K个部分,然后从每个部分中随机的选出一个短的片段,然后对这个片段应用上述的two-stream方法,最后对于多个片段上提取到的特征做一个融合。下图是网络的结构图。
在这里插入图片描述

C3D

这个算法比Two-Stream精度低,但是快。网络结构更加简单。视频是三维,可以使用三维卷积核。
在这里插入图片描述

TDD

TDD特征结合了传统方法的轨迹跟踪和深度学习方法的卷积特征提取。
在这里插入图片描述

RNN

通过RNN可以处理序列问题。

RPAN

分为三大部分

  • 特征生成部分:用Two-Stream的方法生成
  • 姿态注意机制
  • LSTM时序处理网络

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/130621.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 11. TranslateMessage[通俗易懂]

    11. TranslateMessage[通俗易懂]TranslanteMessage函数功能:TranslateMessage函数将虚拟键消息转换为字符消息,字符消息被寄送到当前线程的消息队列里。当下一次线程调用函数GetMessage或PeekMessage时被读出。API函数原型:BOOLWINAPITranslateMessage(_In_constMSG*lpMsg);参数解析:参数…

    2022年9月12日
    0
  • Python调用百度云api,实现截图图片文字识别

    Python调用百度云api,实现截图图片文字识别调用百度云api,实现截图图片文字识别相信大家在网上查找资料时都会遇到一些类似于pdf格式的文档,无法直接复制,手打太过于浪费时间。那么在这里我分享一个调用百度云api文字识别接口识别此类文字的python小程序。本人刚学习python时间不长,如果内容有错误还望斧正。首先我们需要去百度云官网申请一个接口点击立即使用创建应用填写需要填写的数据后点击立即创建,即可创建成功此时我们…

    2022年6月1日
    40
  • GRPC Connection Backoff Protocol「建议收藏」

    GRPC Connection Backoff Protocol「建议收藏」GRPCConnectionBackoffProtocol当我们向一个失败的后端进行连接时,通常不希望立即重试(为了避免请求flooding网络或者服务器),而是去做一些某种形式的指数backoff。我们有几个参数:INITINAL_BACKOFF(第一次失败后的重试需要等待多长时间)MULTIPLIER(在一次失败的重试后,backoff的乘回因子)JITTER(随机backoffs的程度)MAX_BACKOFF(backoff的上界)MIN_CONNECT_TIMEOUT(我们

    2022年6月17日
    31
  • p2p流媒体技术(简述流媒体的特点)

    【前言】今天发现二哥在搞流媒体,顿时来了兴趣(之前在考试维护的时候经常听老师说P2P等),追问之下之前林哥搞成功过,而且写了一系列博客;于是乎便翻开博客,认真看了看,写的非常不错:从概念到安装实现(linux和windows)再到性能测试对比非常不错(详见:http://blog.csdn.net/u012407484/article/category/2732453);…

    2022年4月18日
    91
  • getParameterValues 和 getParameter区别

    getParameterValues 和 getParameter区别一、getParameterValuesrequest.getParameterValues(Stringname)是获得如checkbox类(名字相同,但值有多个)的数据。接收数组变量,如checkobx类型二、getParameterrequest.getParameter(Stringname)是获得相应名的数据,如果有重复的名,则返回第一个的值….

    2022年7月22日
    21
  • 第三章数据链路层_数据链路层链路管理包括

    第三章数据链路层_数据链路层链路管理包括冗余链路出现的背景由于公司对网络的可靠性的要求,大部分公司都会增加额外的交换机,防止在某台交换机出现故障时造成网络的无法使用的情况,例如形成如下图的拓扑的结构。假设W和X交换中的一台出现故

    2022年8月2日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号