深度学习和时空谱聚类之间的迭代交换，怎么用于视频无监督分割？

发布一下 2023年06月05日 08:11 0 0

文|千不樊

编辑|千不樊

介绍

在没有人类监督的情况下发现物体，因为它们在空间和时间上移动和改变外观是计算机视觉中最具挑战性和尚未解决的问题之一；我们如何才能最好地利用物体运动和外观之间的相关性，在没有人工监督的情况下对物体发现过程进行数学建模。

从时空域中可用的大量数据中更有效地学习，而人为干预最少，视觉分组的任务对人类来说是自然而然的，但对机器来说要求很高；在视频无监督分割的背景下，具有强大监督学习能力的深度学习领域和迭代图算法领域，具有证明的无监督聚类优势。

我们引入了一种，可用于在无监督设置中自动分割视频序列的主要对象，虽然一般的基于 3D 卷积的方法将时间维度视为等同于空间维度，我们提出了一种不同的耦合运动和外观的方式。

现实世界中的物体在它们的时空邻域中形成簇，属于同一物体的点在空间和时间上保持连接，具有相似的外观和运动模式，也与场景的其余部分不同。

科学背景

视频对象分割在计算机视觉领域得到快速发展，大多数解决方案基本上都是受监督的，因为它们依赖于带有人工标记注释的大量预训练模型；虽然人工标注成本极高，但真正的无监督方法很少。

利用不同的启发式方法和多尺度视频对象分割的内在属性；嵌入经过预训练以用于显着性预测、跟踪、估计几何变换和视频摘要，与上述工作不同，弥合了经典迭代图算法和深度学习之间的差距，利用两者的优势实现自我监督。

图1 我们的迭代知识交换 ( IKE ) 系统的架构图模块（左）和网络模块（右）在多个循环上交换信息，直到收敛。

图 2

时空图结构的可视化表示，说明了创建定义图形的远程边的过程；彩色曲线表示运动链，通过跟随光流矢量，从一帧到另一帧按时间向前和向后形成，黑色虚线曲线对应于图边，在通过至少一个运动链连接的节点之间定义。

图 3

沿运动链收集节点特征：对于一个节点j, 构成特征向量的特征Fj沿着两个输出运动链（一个向前，一个向后）收集，来自与沿链相遇的节点相关联的像素的不同特征。

两个关键要素使我们的方法与众不同：

（1）我们提出了一个紧凑的数学模型，它将运动和外观耦合起来，将视频中的主要对象定义为我们的特征运动矩阵中的主要自然光谱簇。

图 4

(2) 我们的时空簇在像素级别是密集的，因此能够通过早期做出硬分组决策（例如，计算超像素）来使用视频中的所有信息而不会丢失细节。

图 5

方法

一种双重迭代知识交换模型，将时空谱聚类与深度对象分割相结合，能够在没有任何人工注释的情况下进行学习，图形模块利用了视频序列中固有的时空一致性，但无法访问深层特征。

网络模块作为图形模块的补充，将深层特征添加到聚类算法中，该网络具有强大的表示能力，并尝试预测仅具有单帧输入的时空聚类过程的输出。

图 6

图形模块

给定一个序列M视频帧，图形模块发现主要对象作为时空图中最强的自然簇，并提取一组米软分割掩码，每帧一个，对应于该主要对象。

时空图

定义时空图 G=(V,E), 有一个节点一个 a∈V关联到视频的每个像素|V|=n，在哪里n = m h w,M- 帧数和( h , w )- 帧大小）；G是一个无向图，具有由运动链定义的边集（图 2）。

在时空图中，每个节点A具有关联的节点级功能 FA∈R1 ，从与节点关联的像素开始，沿着传出运动链收集特征向量A并通过连接到的所有像素A通过运动链。

谱聚类问题公式

我们定义矩阵P是将任何向量投影到特征矩阵的列空间的投影矩阵F(P = F (FtF)− 1Ft). 对向量的约束X, 它表明它应该是列的线性组合F, 可以通过要求满足S=xTMx。

最优解x∗最大化xTMx在约束下x = P x和∥ x∥2个= 1, 也会最大化xTPMPx受约束 ∥x∥2。

证明草图作为x∗最大化x = P x在约束下x = P x和 ∥x∥2= 1, 它也最大化(Px)TMPx. As P=PT作为P =PT，它遵循x∗最大化XTP M P x在考虑的约束条件下。

优化问题可以定义如下：

图优化算法

Feature-Motion 矩阵的主特征向量A最佳解决方程式中定义的问题，在这个公式中，我们将分割转换为经典谱聚类，也与图匹配的谱方法相关。

基于的属性A，具有非负元素，我们可以使用 Perron-Frobenius 定理推断出最优解x∗具有正值，我们的算法是幂迭代法的有效实现，将收敛到最优解x∗。

迭代t期间图模块的主要算法步骤

传播步骤

传播步骤相当于让每个节点A根据更新其标签x(t)a=∑bMa,bx(t−1)b

步骤也相当于每个节点A有自己的标签被传播到它所连接的所有节点。

经过一个节点时b，我们将其标签更新为xb←xb+Ma,bxa但也更新标签A xa←xa+Ma,bxb，我们在前向和后向方向上将信息从一帧中的所有节点联合传播到所有相邻帧。

在每次迭代中，我们估计最佳权重集w＊给定节点级特征的最佳近似当前节点标签F. 权重计算如下：

w∗=(FTF)−1FTx(t)

x(t)←Fw∗=Px(t)

理论分析

尝试将算法的步骤表述为单个更新，会得出描述幂迭代的递归关系：

x(t)=(PMx(t−1))/(∥PMx(t−1)∥2

这意味着所提出的算法保证收敛到 PM矩阵，它遵循x∗最大化瑞商R(PM,x)=(xTPMx)/(xTx

最优解的 L2-范数是∥x∗∥2=1 和x∗住在列空间F， 意思是x∗= Px∗. 它立即得出最优解x∗也最大化了我们的目标xTPMPx。

网络模块

网络模块（图 4）是一个补充时空图的深度分割模型，在每个周期，仅使用图形模块的输出作为监督信号从头开始训练网络，并在接下来的聚类迭代中将它们传递给图形。

网络模块在样本对上进行训练(Ii,xi)， Ii∈Rh×w×3是ith视频序列的图像，以及xi∈[0,1]h×w是监控信号，对于帧i，由图形模块提供。

这种配置确保在高置信度区域增加惩罚，同时我们确保在不确定区域更宽松的行为，在实践中，我们考虑 λ1=λ2=0.5，网络模块解决了以下优化任务：

优化算法在实践中的收敛性

分割过程应该收敛到相同的解决方案x∗不管它的初始化X( 0 )，即使初始解决方案是完全随机的，算法也会收敛到视频中的主要对象，根据人工标记的 ground truth 验证了 Feature-Motion 矩阵具有一个主要的强簇，它确实对应于序列中的主要对象。

为了验证唯一解的收敛性，我们仔细研究了起点在实践中的影响，我们验证了给定相同的特征运动矩阵时会发生什么（这仅取决于所使用的光流模块，而不取决于初始解决方案X( 0 ))，我们改变初始起点。

表 1 无监督图模块的性能（第一个周期）

无监督情况：光流的影响

运动链中连接的两个节点（像素）在图中也连接，而未通过运动链连接的节点在图中也不连接，连接性以矩阵编码米并立即转移到特征运动矩阵A, 是时空图的邻接矩阵。

在表 1中，提出了一个不同的实验，其中对于用于构建图运动结构的给定光流（M），我们连接了用两种光流方法（RAFT 和 FlowNet2.0）计算的节点级特征向量来构建F。

图 7

特征运动矩阵的谱分析

特征运动矩阵A是所提出的图形模块的关键元素，我们的公式将分割视为一个谱聚类问题，前提是视频序列中的主要对象像素（其中存在此类对象）在空间和时间上形成了一个强大的自然聚类。

图 8 在图 8中我们为每个考虑的配置提供前六个特征值A, 降序排列

改进几个图网络循环

迭代知识交换系统的有效性，其中图形作为网络模块的教师，然后网络为下一个聚类和学习周期提供更强大的功能，在表 3和图 9中，我们详细介绍了多个数据集的性能演变，同时考虑了无监督和监督情况。

表 3 循环之间的相对百分比变化

在图 9 中，展示了系统在无监督情况下的性能演变，此时节点仅使用流特征，网络模块总是随机初始化的。

我们系统的无监督公式是最有价值的，因为该系统受益于时空图的聚类能力和网络的学习能力，使学习成为可能，而过程中的任何步骤都无需人工注释。

图 9

与基线和最新技术的比较

在图 10中，我们展示了迭代知识交换系统的定性结果，我们强调两个组件之间的协议，图形模块和网络模块。

我们的无监督系统的定性结果，包括所有 4 个数据集的网络和图形模块，对于 YouTube-Objects 和 DAVSOD，ground truth 有时是粗糙的，在这些情况下，我们的结果往往比注释更精细，这强调了获得高度准确的人工注释的难度。

在图 11中，我们展示了图和网络模块在无监督设置中的最终性能（在任何级别的训练或预训练中都没有使用人工注释），我们观察到，虽然该图显示出优越的性能，但单图像网络模块也具有竞争力，并且在相同监督水平下克服了大多数顶级方法。

表 4 用于视频显着目标检测任务的 DAVSOD 数据集的定量比较

表 6 用于零样本视频对象分割任务的 YouTube 对象数据集的定量比较

计算复杂度

IKE 系统的每个循环都需要通过图形模块和网络模块，给定时空图的公式，视频像素和图节点之间存在一对一的对应关系，光谱聚类问题可能看起来很棘手。

考虑到整个系统的复杂性与帧数成线性关系，报告每帧的计算成本，对于图形模块的第一个周期，实现需要 0.8 秒/帧：光流 0.04 秒 + 图形数据初始化 0.18 秒 + 20 次时空图形迭代 0.58 秒。

图 12

只有第一个周期需要初始化，报告的数字是考虑的最大特征数 (26) 和 FlowNet2.0 光流（RAFT 解决方案需要 0.33 秒/帧），网络模块需要 1.64 秒/帧：1.63 秒用于 5 个训练时期 + 0.01 用于推理。

IKE 所需的总时间为 5.24 秒/帧，224 × 416. 图形模块也可以并行化，但它不在我们当前的实现中，在图 13中，我们研究了图形模块第一个周期的计算成本的演变，涉及特征数量和帧数量。

图 13

讨论与结论

双迭代知识交换系统中，无监督时空聚类模块向深度网络模块提供监督信号，后者又将其新学习的深度特征传回图形，这两个互补模块作为一个单一的自我监督实体运行，并在几个周期内交换信息，直到达成共识。

IKE 非常符合当前视频对象分割的需求，因为无监督情况对于开发对未知数据强大且稳健的方法来说是强制性的，通过将更经典的图聚类与现代深度学习的互补力量结合在一起，我们在优化和数据驱动模型之间取得了平衡，这种方法可以为无监督视频分割研究提供新的思路。

参考文献：

《格式塔心理学原理》，K. Koffka ，2013 年。

《Quo vadis 动作识别？一个新模型和动力学数据集》，J. Carreira 和 A. Zisserman，2017 。

《无监督视频对象分割的掩码选择和传播》，S. Garg 和 V. Goel，2021 。

《MATNeT：用于零镜头视频对象分割的运动注意力转换网络》,T. Zhou、J. Li、S. Wang、R. Tao 和 J. Shen，2020 年。

如果你也喜欢我的文章，不妨点个“关注”吧！小生在此谢过了！

END

本文地址：http://0561fc.cn/210447.html