视频识别的基础概念[通俗易懂]

全栈程序员-站长 • 2022年4月29日上午9:32 • 未分类 • 阅读 72

大家好，又见面了，我是你们的朋友全栈君。

视频识别

一、视频识别几大问题
2、常见的解决方案
- iDT
- Two-Stream
- - TSN
- C3D
- TDD
- RNN
- - RPAN

一、视频识别几大问题

未修剪视频分类(Untrimmed Video Classification)：通过对输入的长视频进行全局分析，然后软分类到多个类别
修剪视频识别(Trimmed Action Recognition)：给出一段只包含一个动作的修剪视频，要求给视频分类
时序行为提名(Temporal Action Proposal)：从长视频中找出可能含有动作的视频段
时序行为定位(Temporal Action Localization)：从视频中找到可能存在行为的视频段，并且给视频段分类
密集行为描述(Dense-Captioning Events)：将一段未修剪的视频进行时序行为定位得到许多包含行为的视频段后，对该视频段进行行为描述

2、常见的解决方案

iDT

iDT算法框架主要包括：密集采样特征点，特征轨迹跟踪和基于轨迹的特征提取三个部分。
光流：在时间间隔很小的情况下，视频像素位移
特征提取:通过网格划分的方式在多尺度图像中分别密集采样特征点。通过计算特征点临域内的光流中值得到特征点运动方向。
在这里插入图片描述

编码:使用了HOF，HOG和MBH三种特征描述光流
HOG：灰度图像梯度直方图，HOG特征的长度为2238=96。

HOF：光流的直方图，8+1个bin，前8个和HOG相同，1是用于统计光流幅度小于某个阈值的像素。HOG特征的长度为2239=108。
MBH：光流梯度直方图，在光流图像上计算HOG。光流图像包括x和y方向，所以MBH总的特征长度为2*96=192。

最后进行特征的归一化，DT算法中对HOG，HOF和MBH均使用L2范数进行归一化。

分类器:SVM

对于多分类：
评价指标：mAP、0-1 exact match、Macro-F1等
训练方法：
1）one hot encoding
用一系列的特征去拟合词汇，降低训练所需要的数据量。
2）CNN+RNN（CNN+LSTM）

Two-Stream

一部分处理RGB，一部分处理光流，最后联合训练再分类。
在这里插入图片描述

TSN

这是在Two-Stream上的改进，Two-Stream最大的问题是不能对长时间的视频进行建模，只能对连续几帧视频提取。TSN先将视频分成K个部分，然后从每个部分中随机的选出一个短的片段，然后对这个片段应用上述的two-stream方法，最后对于多个片段上提取到的特征做一个融合。下图是网络的结构图。
在这里插入图片描述

C3D

这个算法比Two-Stream精度低，但是快。网络结构更加简单。视频是三维，可以使用三维卷积核。
在这里插入图片描述

TDD

TDD特征结合了传统方法的轨迹跟踪和深度学习方法的卷积特征提取。
在这里插入图片描述

RNN

通过RNN可以处理序列问题。

RPAN

分为三大部分

特征生成部分：用Two-Stream的方法生成
姿态注意机制
LSTM时序处理网络

在这里插入图片描述

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/130621.html原文链接：https://javaforall.net

视频识别的基础概念[通俗易懂]

视频识别

一、视频识别几大问题

2、常见的解决方案

iDT

Two-Stream

TSN

C3D

TDD

RNN

RPAN

关于作者

全栈程序员-站长

发表回复

视频识别的基础概念[通俗易懂]

视频识别

一、视频识别几大问题

2、常见的解决方案

iDT

Two-Stream

TSN

C3D

TDD

RNN

RPAN

关于作者

全栈程序员-站长

相关推荐

oracle补位函数 不足位数补0[通俗易懂]

SqlServer存储过程详解

java创建线程池代码_java手写线程池

sql is not null 优化(oracle语句索引优化)

PostMan使用教程。

2021Eclipse安装教程

发表回复

oracle补位函数不足位数补0[通俗易懂]