视频分割全面探究:从视频物体分割到视频全景分割

Source

前言

       图像分割大家可能都耳熟能详,近年来,图像分割的研究已经取得了显著成果,而视频分割的研究仍在起步阶段。

       视频分割由简到繁可分为三类:视频物体分割、视频语义分割和视频全景分割。视频物体分割是指从视频所有图像中把感兴趣的物体区域完整的分割出来;视频语义分割则要求给视频中所有图像上的每一个像素赋予一个带有语义的标签;视频全景分割的目标是精确定位整个视频的所有语义和实例边界,并为这些分割的视频管分配正确的标签。

       目前,视频分割任务主要面临两大挑战:第一,在视频序列中,随着时间的推移,视频在不断变化,光照、视角、遮挡和图像噪声等因素为视频分割带来的影响;第二,怎样将视频中的空间局部特征与时序信息相结合,在视频序列之间建立信息传播机制。因此,如何提取更有效的特征以及高效地利用时序信息成为是视频分割任务的研究重点。

研究

1、视频分割任务的研究与挑战
       

        分割是计算机视觉领域的一个基础任务,图像分割更是被大家所熟知,而现实应用中,接触更多的是视频分割,像自动驾驶、AR、视频剪辑等。与图像分割不同,视频分割有空间信息和时序信息,而图像分割只有静态的空间信息。根据复杂程度,视频分割可分为:视频物体分割、视频语义分割和视频全景分割。
 

2、利用前后帧像素相似性的视频物体分割

       视频物体分割有半监督视频物体分割、无监督视频物体分割和交互式视频物体分割三个子类。其中,半监督视频物体分割需要在视频序列仅有初始掩膜(mask)的情况下,分割目标物体;无监督视频物体分割是指没有初始掩膜,模型自动预测要分割的目标物体;交互式视频物体分割需要给出目标物体的简单标注,根据标注,分割出视频中对应的所有物体。下面图片讲解将围绕半监督视频物体分割和交互式视频物体分割,介绍如何利用前后帧像素相似性,获得视频中一个或多个物体获得分割结果。

 
3、基于长距离时序上下文信息的视频语义分割


       目前,视频语义分割的数据集是比较有限的,比如Cityscapes,它的每个视频序列中只标注一帧,严格意义上说,它是图像分割的数据集,且仅关注一个场景;NYUv2只关注室内场景;CamVid包含时序信息,但标注率比较低,且规模较小,这限制了视频语义分割的发展。
VSWP数据集是最新发布的大规模室外数据集,它包括251632个pixel-level标注帧,536个视频,视频长度约为5秒,超96%的视频帧率是在720P到4K之间。这个数据集的提出,也带来了新的挑战与应用,即如何利用时序信息提升视频分割的准确性和时效性。视频语义分割的内容在苗嘉旭博士发表的CVPR 2021论文《VSPW: A Large-scale Dataset for Video Scene Parsing in the Wild》 中有明确体现。


4、视频全景分割方法及未来展望

        视频全景分割比较复杂,它不仅要给出每个pixel的类,而且对每个instance都要识别出来。目前,这方面的内容只有一篇CVPR 2020论文。 未来,针对视频物体分割的研究会集中在交互式视频物体分割和利用语言实现视频物体分割;对于视频语义分割,将会更注重利用时序信息;而视频全景分割还是一个全新的研究方向,需要我们更多的关注。


【注:以上内容参考智东西公开课公众号文章(已授权)】