Press "Enter" to skip to content

AAAI 2020 | 中山大学HCP实验室:基于树状结构策略的渐进强化学习,代码已开源!

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

作者 | 吴捷

 

编辑 | Camel

 

本文对中山大学、北京航空航天大学、DMAI合作完成,被AAAI2020录用的一篇关于多模态视频理解的论文《Tree-Structured Policy based Progressive Reinforcement Learning for Temporally Language Grounding in Video》进行了解读。

 

论文链接: http://colalab.org/media/paper/AAAI2020-Tree-Structured.pdf

 

代码链接: https://github.com/WuJie1010/

 

论文动机

 

Temporally Language Grounding in Video (自然语言描述的视频片段定位)是视频理解中一项新的具有挑战性的任务,其目标是确定视频中与给定句子描述相对应视频片段的时间边界。该任务需要对语言和视频等模态进行融合理解,并且建模语言和视觉模态之间的联合语义关系。现有的方法大多效率低下且灵活性不高,依赖于稠密的滑动窗口,需要对许多交叉的滑动窗口进行匹配或者穷举搜索;另一方面,现有方法缺乏可解释性,偏离了人的推理机制。

 

当人们在视频中定位描述时,通常假设一个初始的视频片段边界,比较和分析句子描述和边界内视频片段之间的语义差异。 然后逐步执行一系列连续动作,如缩放或移动来调节边界。 深入研究人类的思维范式,人们通常会进行出一个从粗到细的思考过程,从而做出一个更为合理和可解释的决定。 这种自上而下的由粗到细的推理模式已经在机器翻译、文本摘要等任务中得到了探索。

 

 

图1: TSP-PRL将该任务制定成一个由粗到细的迭代优化过程。

 

基于此,我们提出了一种新的基于树结构策略的渐进强化学习(TSP-PRL)框架,采用迭代优化过程来对边界进行顺序调节。 该框架可以有效地分解复杂的行动策略,在增加搜索空间的同时减少搜索步骤的数量,以更合理的方式获得更佳的结果。

 

论文方法

 

 

树结构策略

 

在本论文中,我们将该任务制定为一个马尔可夫决策过程,它被表示为状态s∈S, 动作元组  和转移函数  。 TSP-PRL中的树结构策略由根策略和叶策略组成,  和  分别表示根策略和叶策略的动作选择。 TSP-PRL根据智能体移动距离和方向将所有原始动作分为与语义概念相关的五类: 尺度变化、显着左移、显着右移、轻微左调整和轻微右调整。

 

这些语义概念被明确地表示为树形结构根策略的分支,根策略首先粗略地估计了能够最大程度减少语义差距的分支,接着叶策略基于所选分支推理一个更加细化的动作,从而调整边界。 模型代理反复调用树结构策略,以获得一系列连续的原子动作,从而消除语义间隙,逐步获得准确的时间边界。

 

 

图2: TSP-PRL框架的流程图。

 

根策略旨在学习在以下不同情况下从调用正确的叶策略:

 

1)当预测边界的尺度与正确边界的尺度不匹配时,应选择尺度变换策略;

 

2)当预测边界远离正确边界时,智能体应执行显着左移或显着右移策略;

 

3)当预测边界于正确边界有一定的交集但有些偏差时,智能体应执行轻微左调整和轻微右调整策略。

 

在每个时间步骤中,树结构策略首先从根策略  中采样  ,接着从与所选语义分支相关的叶策略πlπl中采样送入环境的动作:

 

 

渐进强化学习策略

 

树结构策略通过渐进强化学习进行优化。 渐进强化学习任务导向的奖励设置需要能够提供正确的信用分配,并逐步地优化根策略和叶策略,鼓励智能体采取较少的步骤以获得准确的定位结果。 我们定义了两个面向任务的奖励函数,第一个奖励为是叶奖励  ,它反映了动作  对当前环境的影响。 它可以通过时间IoU,即  的变化情况直接在环境中获得:

 

 

第二个奖励是根奖励  ,由于根策略执行的操作不直接与环境交互,为了提供全面和正确的信贷分配,  被定义为包括两个奖赏项: 1)内在奖励项反映了  对语义分支选择的选择好坏; 2)外部奖励项反映了所选分支执行的后续动作对环境的影响。 为了估计根策略选择高级语义分支的能力,该模型遍历所有可能的分支,从而产生五种不同的IoU。 这五个IoU中的最大IoU被定义为  。 接着根奖励  设计如下:

 

 

 

图3: 树结构策略的迭代优化流程。

 

同时优化根,叶策略会导致训练过程的不稳定。 为了避免这种情况,我们设计了一个渐进强化学习优化过程: 对于每一组  迭代,保持一个策略固定,只训练另一个策略。 当达到  迭代时,它会切换训练的策略。 基于树形结构策略的渐进强化学习可概括为:

 

 

其中,  是指示选择训练策略的二元变量。 表示整个培训过程中的迭代次数。  是除法运算的下界整数,  是模函数。 和  分别代表根叶策略的损失函数。 这两种策略在训练过程中相互促进,叶策略为根策略提供准确的内在奖励,而根策略选择合适的高层语义分支来进一步细化叶策略。 这种渐进式优化确保了智能体在强化学习的设置中获得稳定和卓越的性能。

 

 

实验结果

 

 

树结构策略的有效性

 

为了验证树结构策略的重要性,我们设计了一个扁平策略,表示为“Ours w/o TSP-10’‘,它是在TSP-PRL上删除了树结构策略,将状态特征直接映射到一个原始动作中。 实验结果表明随着探索步数的减少,它的性能会显着下降,这表明扁平策略在很大程度上依赖于步数以获得更好的结果。

 

然而,我们的方法能够以较少的步骤获得优异的性能。 为了进一步探讨树型策略是否能更好地感知环境状态和分解复杂的策略,我们总结了在每个时间步和IoU间隔选择高层语义分支的比例。

 

我们可以观察到,扁平策略总是倾向于选择基于精细调整的分支,对时间步长和IoU不敏感。 然而TSP-PRL在最初的几个步骤中设法选择基于显着移动的分支,以更快地减少语义鸿沟。

 

当IoU增大或时间步长增大时,精细调整型分支逐渐占主导地位,对边界进行精细调节。 这个发现表明树结构策略有助于有效地分解复杂的行动策略,以提高发现扁平策略无法学习的复杂策略的能力。

 

 

 

 

与最先进方法的对比

 

在Charades-STA, ActivityNet数据集的实验结果证明,TSP-PRL在这两个数据集上能达到了最先进的性能。

 

 

TSP-PRL与基于监督学习(SL)的方法相比,能够获得更灵活的边界,避免搜索和穷举滑动窗口。 SL方法很容易受到过度拟合的困扰,并且像一个缺乏可解释性的黑盒子一样处理这个任务。

 

而TSP-PRL有助于实现更有效和更具启发性的定位结果。 消融实验结果还表明,TSP-PRL可以(1)有效地提高发现扁平策略(非树状策略)无法学习的复杂政策的能力; (2)提供更合适的信贷分配,逐步优化树形结构政策; (3)确定更准确的停止信号。

Be First to Comment

发表评论

电子邮件地址不会被公开。 必填项已用*标注