【CCF多媒体技术专委会新技术选介17-08期】
编者按:随着人工智能的火速发展,利用机器人来服务生活的美好愿景指日可待。智能机器人领域中,在特定环境下根据任务指令自动生成行为序列是一项关键技术。然而,这种任务导向型的动作预测一直未被直接纳入研究的范畴。今天介绍的文章首次提出了这一问题,设计了多阶段模型来生成特定场景下的任务导向型动作序列,并取得了良好的预测效果。
今天技术选介的前沿论文来自中山大学林倞老师团队,发表于IEEE ICME-2017,并刚刚喜获IEEE ICME 10K Best Paper Award中Diamond Best Paper大奖,重点研究了数据与知识联合驱动的任务导向视觉理解[1]。这项工作首次提出了任务导向型的动作预测问题,即如何在特定场景下,自动地生成能完成指定任务的动作序列(如图1),并针对该问题进行了数据采集。解决这一问题的挑战在于如何对特定任务的进行建模,并且能够将其嵌入模型的学习过程中。在这篇论文中,作者提出使用长短期记忆神经网络(LSTM)进行动作预测,并提出了多阶段的训练方法。为了解决学习过程中标注样本不足的问题,该文算法在第一阶段采取时域与或图模型(And-Or Graph, AOG)自动地生成动作序列集合进行数据增强,在下一阶段利用增强后的数据训练动作预测网络。
图1 任务导向型的动作序列预测
时域与或图模型
为了对任务知识建模,该文引入时域与或图(And-Or Graph, AOG)模型表达任务。AOG由四部分组成:表示任务的根节点,非终端节点集合,终端节点集合和权重分布集合。非终端节点包括与节点和或节点。其中,与节点表示将该节点的动作分解为有时序关系的子动作,或节点则表示可以完成该节点动作的不同方式,并根据概率分布P选择其中一个子节点。终端节点包括跟该任务相关的原子动作。图2(a)展示了任务“pour water with the cup”的AOG表示。对于给定的场景及其物体信息,通过深度优先算法(Deep First Search, DFS)遍历AOG中所有的或节点,并选择每个或节点的分支,可以产生该场景下的解析图(parsing graph)和相应的动作序列,如图2(b)所示。
图2(a) 任务pour water with the cup的AOG表示
图2(b) 特定场景下pour water with the cup的解析图
基于与或图的样本生成
由于AOG定义时存在的时序依赖关系,该论文利用深度优先遍历的方法遍历每个节点,同时利用LSTM(即AOG-LSTM)预测该节点的支路选择。如图3,该论文首先提取场景图片和任务的特征,f^I和f^T,利用一个简单的线性变换将其映射成一个特征向量,作为LSTM的初始隐层单元。然后,该论文利用邻接矩阵把AOG编码成一个特征,作为LSTM的输入,预测第一个节点的支路选择,接下来将AOG未选择的支路去除,更新AOG,并基于该更新的AOG,预测第二个或节点的支路选择。该过程一直重复直到遍历所有或节点。这一过程可以形式化表示为:
引入AOG结构化的表示任务极强地限制了语义空间,减小了支路选择的歧义性,因此,只需要少量的标注样本,即可比较好的训练AOG-LSTM。该论文人工定义了11个任务的AOG结构,为每个任务收集少量场景图片,标注其AOG或节点选择,并利用这部分数据训练AOG-LSTM。给定未标注的场景图片,使用训练好的AOG-LSTM生成相应的动作序列,形成特定场景图像I,任务指令T和动作序列A的组合(I, T, A),结合已标注(I, T, A)的样本作为下一阶段的训练样本。
图3 AOG-LSTM结构
行为预测
如图4所示,由于原子动作序列非常强的时序依赖关系,该论文同样设计了一个LSTM(即Action-LSTM)时序地预测每个时刻的原子动作。具体地,原子动作Ai由一个原生动作以及一个相关物体组成,可表示为Ai=(ai, oi)。为了降低模型复杂性和预测空间的多变性,该论文假设原生动作和相关物体的预测是独立的,并分别进行预测。时刻t的动作预测可形式化表示为:
图4 Action-LSTM的结构
实验结果
表1 不同方法动作预测的比较
为了验证算法的有效性,该论文设计并实现了两个基准方法,即多层感知机(MLP),循环神经网络(RNN)。表1展示了不同方法在预定义的11个任务上的动作预测性能,包括MLP,RNN,本文算法是否使用AOG产生训练样本等四种算法,每项任务的具体内容请参考论文。该论文提出的多阶段训练方法取得了最好的效果。同时,该方法可以迁移运用在相似任务的动作预测上,即未进行标注,但和已标注任务具有相似原子动作的任务,如数据集对“pour water”进行了标注和训练,则该模型也可以预测与其相似的“pour water from bowl”的动作序列。表2展示了不同算法生成相似任务动作序列的性能。
表2 不同方法相似任务动作预测的比较
[1] L. Lin, L. Huang, T. Chen, Y. Gan, and H. Cheng. Knowledge-guided recurrent neural network learning for task-oriented action prediction. ICME, 2017.