Press "Enter" to skip to content

【知识星球】视频分类模型和数据集板块介绍

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

1 视频分类问题

 

基于深度学习的视频分类包含非常多的方法,如3D卷积,双流法,LSTM时序模型等,在本站中有非常多的相关模型解读,案例如下:

 

 

 

LiteFlowNet

 

 

FlowNet以及FlowNet2证明了CNN可以用于光流估计,尤其是FlowNet2已经达到了传统变分法的精度,但是模型超过100M,SPyNet虽然只有1.2M但是精度不够。LiteFlowNet是一个兼顾精度和模型大小,速度优势的轻量级模型,大小只有FlowNet2的30分之一,速度是它的1.36倍。

 

作者/编辑 言有三

 

如上图所示,LiteFlowNet由两个紧凑的子网络NetC和NetE组成,分别用于金字塔特征提取和光流估计,与同样采用金字塔结构的SPyNet相比,这种策略将特征提取和光流估计分为两个步骤,方便更好地控制模型性能。

 

NETC为一个两输入的网络,两个网络共享滤波器权重。注意这里的warp操作使用的是特征warp,而不是在FlowNet中使用的图片warp。

 

总的说来,文章有3个比较重大的贡献:

 

其一,在FLowNet中会将image2和光流进行warping操作,然后对其提取特征,这里就将其合并为一个操作,直接在特征层面完成,这样精度反而更高,计算代价也更低。

 

其二,NetE也是一种级联形式的方法,这样的金字塔式的结构学习光流的过程更加稳定,也逐步降低学习误差。

 

 

该学习包括两个步骤,分别是M和S。

 

M过程即descriptor matching,输入上一级的光流估计和特征F2,F1,估计残差。

 

 

S过程即sub-pixel refinement,是在M过程的基础上进一步提高精度。

 

 

其三,对光流估计每一层都做了正则化约束,其实就是一个平滑操作使得光流的边界更加平滑。

 

整个网络非常的复杂,细节也很多,感兴趣的同学需要去细读原文。以上三个技术的实际效果展示如下,可知道对改善效果都是正向的作用。

 

 

在数据集上完整的实验结果如下,兼顾性能和精度优势。

 

 

 

[1] Hui T W, Tang X, Change Loy C. Liteflownet: A lightweight convolutional neural network for optical flow estimation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 8981-8989.

 

另外也有非常多的数据集提供解读和下载。

 

有三AI知识星球-数据集

 

Kinetics-700 dataset

 

 

Kinetics-700 dataset是一个视频分类/行为识别数据集,被用于ActivityNet比赛,包含约650000个视频,700个类别。

 

作者/编辑 言有三

 

数据集地址:https://deepmind.com/research/open-source/open-source-datasets/kinetics/,发布于2019年。

 

ActivityNet比赛始于2016的CVPR,是与ImageNet齐名的在视频理解方面最重要的比赛。在这个比赛下的Task A–Trimmed Action Recognition比赛是一个视频分类比赛,2019年的比赛使用kinetics-700数据集,在此之前还有2017年的kinetics-400和2018年的kinetics-600。

 

数据集是Google的deepmind团队提供,每个类别至少600个视频以上,每段视频持续10秒左右,标注一个唯一的类别。

 

行为主要分为三大类:

 

(1) 人与物互动,比如演奏乐器;

 

(2) 人人互动,比如握手、拥抱;

 

(3) 运动等。

 

虽然每一个视频只会标记一个标签,但是它可以包含几种动作。例如开车”时“发短信”,“弹奏尤克里里”时“跳草裙舞”等,因此取top-5的准确率更为合适。另外很多的运动也 容易混淆,比如跳远和三级跳远,吃汉堡和吃甜甜圈,因此这个数据集具有非常高的难度,仍然是当前算法的评测基准。

 

一些类别的展示如下:

 

 

[1] Kay W, Carreira J, Simonyan K, et al. The kinetics human action video dataset[J]. arXiv preprint arXiv:1705.06950, 2017.

 

Be First to Comment

发表评论

邮箱地址不会被公开。 必填项已用*标注