本文为简单机翻,参考学习用
1
多模态机器学习:综述与分类
Tadas Baltruˇsaitis, Chaitanya Ahuja,和Louis-Philippe Morency
抽象——我们对世界的体验是多模态的——我们看到物体,听到声音,感觉到纹理,闻到气味,尝到味道。模态是指某件事情发生或体验的方式,当一个研究问题包含多个这样的模态时,它就被称为多模态。为了让人工智能在理解我们周围的世界方面取得进展,它需要能够一起解释这样的多模态信号。多模态机器学习旨在建立能够处理和关联来自多种模态的信息的模型。它是一个充满活力的多学科领域,重要性日益增加,具有非凡的潜力。本文没有聚焦于具体的多模态应用,而是综述了多模态机器学习本身的最新进展,并以一个共同的分类方式呈现它们。我们超越了典型的早期和晚期融合分类,并确定了多模态机器学习面临的更广泛的挑战,即:表示、翻译、对齐、融合和共同学习。这种新的分类方法将使研究人员能够更好地了解该领域的现状,并确定未来研究的方向。

索引术语-多模态,机器学习,入门,综述。

1介绍
我们周围的世界涉及多种模态——我们看到物体,听到声音,感觉到纹理,闻到气味,等等。一般来说,模态指的是某件事发生或被体验的方式。大多数人将“模态”一词与感官模态联系在一起,感官模态代表了我们沟通和感觉的主要渠道,如视觉或触觉。因此,当一个研究问题或数据集包含多个这样的模态时,它被认为是多模态的。在本文中,我们主要关注但不完全关注三种模态:既可以写也可以说的自然语言;通常用图像或视频表示的视觉信号;以及编码声音和诸如韵律和声音表达等辅助语言信息的声音信号。
为了让人工智能在理解我们周围的世界方面取得进展,它需要能够对多模态信息进行解读和推理。多模态机器学习旨在建立能够处理和关联来自多种模态信息的模型。从早期对视听语音识别的研究,到最近人们对语言和视觉模型的兴趣激增,多模态机器学习是一个充满活力的多学科领域,其重要性日益提高,潜力非凡。
鉴于数据的异构性,多模态机器学习的研究领域给计算研究人员带来了一些独特的挑战。从多模态来源学习提供了捕捉模态之间的对应关系和获得对自然现象的深入理解的可能性。本文确定并探索了围绕多模态机器学习的五个核心技术挑战(及相关子挑战)。它们是多模态设置的核心,并且需要是

•T. Baltruˇsaitis, C. Ahuja和L-P。莫伦西就职于宾夕法尼亚州匹兹堡卡内基梅隆大学语言技术研究所
E-mail: tbaltrus, cahuja, morency@cs.cmu.edu

F

为了在该领域取得进展。我们的分类法超越了典型的早期和晚期融合分裂,并由以下五个挑战组成:
1)表示第一个基本挑战是学习如何以利用多模态的互补性和冗余性的方式表示和总结多模态数据。多模态数据的异质性使得构建这样的表示具有挑战性。例如,语言通常是符号化的,而音频和视觉模态将被表示为信号。
2)翻译第二个挑战涉及如何将(map)数据从一种模态翻译为另一种模态。不仅数据是异构的,而且模态之间的关系往往是开放式的或主观的。例如,存在许多正确的方式来描述一个图像和和一个完美的翻译可能不存在。
3)对齐第三个挑战是识别来自两个或更多不同模态的(子)元素之间的直接关系。例如,我们可能想要将菜谱中的步骤与展示正在制作的菜肴的视频对齐。为了应对这一挑战,我们需要测量不同模态之间的相似性,并处理可能的长程依赖性和模糊性。
4)融合第四个挑战是将来自两个或多个模态的信息连接起来进行预测。例如,对于视听语音识别,将唇动的视觉描述与语音信号融合,以预测口语单词。来自不同模态的信息可能具有不同的预测能力和噪声拓扑结构,在至少一种模态中可能存在缺失数据。
5)共同学习第五个挑战是在模态、它们的表示和它们的预测模型之间迁移知识。这可以通过协同训练、概念基础和零样本学习的算法得到例证。Co-learning探索了从一种模态进行知识学习如何帮助在a上训练的计算模型

2
表1:多模态机器学习的应用概述。对于每个应用领域,我们确定了需要解决的核心技术挑战,以便解决它。

	挑战		

应用程序 表示 翻译 对齐 融合 CO-LEARNING
语音识别与合成视听语音识别(视觉)语音合成
事件检测动作分类多媒体事件检测
情感与影响识别合成
媒体描述图像描述视频描述视觉问答媒体摘要
多媒体检索跨模态检索跨模态哈希

不同的形态。当其中一种模态的资源有限(例如,注释数据)时,这一挑战尤其相关。
对于这五个挑战中的每一个,我们都定义了分类类和子类,以帮助构建多模态机器学习这一新兴研究领域的最近工作。我们首先讨论了多模态机器学习的主要应用(第2节),然后讨论了多模态机器学习面临的所有5个核心技术挑战的最新发展:表示(第3节)、翻译(第4节)、对齐(第5节)、融合(第6节)和共同学习(第7节)。我们以第8节的讨论结束。
2 .应用:历史视角
多模态机器学习使广泛的应用成为可能:从视听语音识别到图像字幕。在本节中,我们将介绍多模态应用的简史,从其在视听语音识别中的开始,到最近重新燃起对语言和视觉应用的兴趣。
多模态研究最早的例子之一是视听语音识别(AVSR)[243]。它的动机是McGurk效应[138]——语音感知过程中听觉和视觉之间的相互作用。当人类受试者在听到音节/ba-ba/的同时,看着一个人说/ga-ga/的嘴唇,他们会感知到第三种声音:/da-da/。这些结果激励了许多来自语音社区的研究人员,用视觉信息扩展他们的方法。考虑到隐马尔可夫模型(HMM)在当时的语音社区中的突出地位[95],许多早期的AVSR模型都是基于各种HMM扩展[24],[25],这一点也不奇怪。虽然目前对AVSR的研究并不常见,但它已经看到了来自深度学习社区的重新兴趣[151]。
虽然AVSR最初的愿景是在所有上下文中提高语音识别性能(例如,单词错误率),但实验结果表明,视觉信息的主要优势是在语音信号有噪声(即低信噪比)的情况下[75]、[151]、[243]。在

换句话说,捕捉到的模态之间的相互作用是互补的,而不是互补的。两种模式都捕获了相同的信息,提高了多模态模型的鲁棒性,但没有提高无噪声场景下的语音识别性能。
第二个重要的多模态应用类别来自多媒体内容索引和检索领域[11],[188]。随着个人计算机和互联网的进步,数字化多媒体内容的数量急剧增加[2]。虽然早期索引和搜索这些多媒体视频的方法是基于关键词的[188],但当试图直接搜索视觉和多模态内容时,新的研究问题出现了。这导致了多媒体内容分析中的新研究课题,如自动镜头边界检测[123]和视频摘要[53]。这些研究项目得到了国家标准与技术研究所的TrecVid倡议的支持,该倡议引入了许多高质量的数据集,包括2011年开始的多媒体事件检测(MED)任务[1]。
第三类应用是在21世纪初围绕多模态交互这一新兴领域建立的,其目标是理解人类在社会交互中的多模态行为。在这一领域收集的首批里程碑式数据集之一是AMI会议语料库,其中包含100多个小时的会议视频录音,都是完整转录和注释的[33]。另一个重要的数据集是SEMAINE语料库,它允许研究发言者和听众之间的人际动态[139]。该数据集构成了2011年组织的第一次视听情感挑战(AVEC)的基础[179]。得益于自动人脸检测、面部地标检测和面部表情识别[46]的强大技术进步,情感识别和情感计算领域在2010年代初蓬勃发展。此后,AVEC挑战每年都在继续,后来的实例包括医疗保健应用,如抑郁和焦虑的自动评估[208]。D 'Mello等人对多模态情感识别的最新进展进行了总结。[50]。他们的荟萃分析显示,最近关于mul-的大部分工作

当使用多个模态时,Timodal情感识别表现出改进,但当识别自然发生的情感时,这种改进就会降低。
最近,出现了一种新的多模态应用类别,强调语言和视觉:媒体描述。其中最具代表性的应用是图像描述(image cap),其任务是生成输入图像的文本描述[83]。这是由这样的系统能够帮助视障人士完成日常任务[20]所激发的。媒体描述的主要挑战是评估:如何评估预测描述的质量。视觉问答(VQA)的任务最近被提出,以解决[9]的一些评估挑战,其目标是回答关于图像的特定问题。
为了将上述的一些应用带到现实世界中,我们需要解决多模态机器学习面临的许多技术挑战。我们在表1中总结了上述应用领域的相关技术挑战。其中最重要的挑战之一是多模态表示,这是我们下一节的重点。
3多模态表征
以计算模型可以处理的格式表示原始数据一直是机器学习中的一大挑战。在Bengio等人[18]的工作之后,我们交替使用术语特征和表示,每个都指的是实体的向量或张量表示,无论是图像、音频样本、单个单词还是句子。多模态表示是使用来自多个这样的实体的信息的数据表示。表示多个模态带来了许多困难:如何组合来自异质来源的数据;如何处理不同程度的噪声;以及如何处理缺失数据。以有意义的方式表示数据的能力对多模态问题至关重要,并形成任何模型的支柱。
良好的表示对于机器学习模型的性能很重要,最近语音识别[79]和视觉目标分类[109]系统的性能飞跃就是证明。Bengio等人。[18]确定了良好表示的许多属性:平滑性、时间和空间一致性、稀疏性和自然聚类等。Srivastava和Salakhutdinov[198]确定了多模态表示的其他理想属性:表示空间中的相似性应反映相应概念的相似性,即使在缺少某些模态的情况下,表示也应该很容易获得,最后,根据观察到的模态,应该有可能填补缺失的模态。
单模态表示的发展已经被广泛研究[5],[18],[122]。在过去的十年中,已经从针对特定应用的手工设计转向了数据驱动。例如,2000年代初最著名的图像描述符之一,尺度不变特征变换(SIFT)是手工设计的[127],但目前大多数视觉描述都是使用卷积神经网络(CNN)等神经架构从数据中学习的[109]。同样,在音频领域,声学特征

如梅尔频率倒谱系数(MFCC)已被语音识别中的数据驱动深度神经网络[79]和用于准语言分析的循环神经网络所取代[207]。在自然语言处理中,文本特征最初依赖于对文档中单词出现次数的统计,但已经被利用单词上下文的数据驱动的单词嵌入所取代[141]。虽然在单模态表示方面已经有了大量的工作,但直到最近,大多数多模态表示都涉及单模态表示的简单拼接[50],但这种情况一直在迅速发生变化。
为了帮助理解工作的广度,我们提出了两类多模态表示:联合和协调。联合表示将单模态信号组合到相同的表示空间中,而协调表示分别处理单模态信号,但对它们施加一定的相似性约束,使它们进入我们所说的协调空间。不同的多模态表示类型的说明可以在图1中看到。
在数学上,联合表示表示为:

其中使用函数f(例如,深度神经网络、受限玻尔兹曼机或循环神经网络)计算的多模m 态表示x依赖于单模态表示x1,…xn.而协调表示如下所示:

其中每个模态都有相应的投影函数(上面的f和g),将其映射到一个协调的多模态空间。虽然向多模态空间的投影对每个模态来说都是独立的,但由此产生的空间在它们之间是协调的(表示为~)。这种协调的例子包括最小化余弦距离[61],最大化相关性[7],以及在结果空间之间强制偏序[212]。
3.1联合表示
我们从联合表示开始我们的讨论,联合表示将单模态表示一起投射到多模态空间(等式1)。联合表示主要(但不是唯一)用于在训练和推理步骤中都存在多模态数据的任务中。联合表示最简单的例子是单个模态特征的拼接(也称为早期融合[50])。在本节中,我们讨论了创建联合表示的更先进的方法,从神经网络开始,然后是图形模型和循环神经网络(代表作见表2)。
神经网络已经成为一种非常流行的单模态数据表示方法[18]。它们被用于表示视觉、声学和文本数据,并越来越多地用于多模态领域[151]、[156]、[217]。在本节中,我们将描述如何使用神经网络来构建联合多模态表示,如何训练它们,以及它们提供了哪些优势。
一般来说,神经网络是由连续的内积构建模块和非线性激活函数组成的。为了使用神经网络作为

4

(a)联合代表

(b)协调陈述
图1:联合和协调表征的结构。使用所有模态作为输入,将关节表示投影到相同的空间。另一方面,协调表示存在于自己的空间中,但通过相似性(如欧氏距离)或结构约束(如偏序)进行协调。

一种表示数据的方法,它首先被训练来执行特定的任务(例如,识别图像中的物体)。由于深度神经网络的多层性质,假设每一层连续的以更抽象的方式[18]表示数据,因此通常使用最后或倒数第二层的神经层作为数据表示的形式。要使用神经网络构建多模态表示,每个模态都从几个单独的神经层开始,然后是一个将模态投射到联合空间的隐藏层[9],[145],[156],[227]。然后,联合多模态表示通过多个隐藏层本身传递或直接用于预测。这样的模型可以进行端到端的训练——既学习表示数据,也学习执行特定任务。这导致了在使用神经网络时,多模态表示学习和多模态融合之间的密切关系。
由于神经网络需要大量标记的训练数据,通常使用自动编码器在无监督数据上预训练这种表示[80]。Ngiam等人[151]提出的模型将使用自编码器的思想扩展到多模态域。他们使用堆叠的去噪自编码器分别表示每个模态,然后使用另一个自编码器层将它们融合成多模态表示。类似地,Silberer和Lapata[184]提出使用多模态自编码器来完成语义概念基础的任务(见第7.2节)。除了使用重建损失来训练表示外,他们还在损失函数中引入了一个术语,该术语使用表示来预测对象标签。微调手头上特定任务的结果表示也是常见的,因为使用自编码器构建的表示是通用的,并不一定是特定任务的最佳表示[217]。
基于神经网络的联合表示的主要优势来自于它们通常的优越性能和以无监督方式预训练表示的能力。然而,性能的提升取决于可用于训练的数据量。缺点之一来自于模型不能自然地处理缺失数据——尽管有方法可以缓解这个问题[151],[217]。最后,深度网络通常很难训练[69],但该领域在更好的训练技术方面正在取得进展[196]。
概率图模型是另一种流行的方法

通过使用潜在随机变量[18]来构造表示。在本节中,我们将描述如何使用概率图模型来表示单模态和多模态数据。
最流行的基于图形模型的表示方法是深度玻尔兹曼机(DBM)[176],将受限玻尔兹曼机(RBM)[81]堆叠作为构建模块。与神经网络类似,DBM的每个连续层都被期望在更高的抽象层次上表示数据。DBMs的吸引力来自于它们不需要监督数据进行训练这一事实[176]。由于它们是图形模型,数据的表示是概率的,然而,可以将它们转换为确定性的神经网络——但这失去了模型的生成方面[176]。
Srivastava和Salakhutdinov[197]的工作将多模态深度信念网络作为一种多模态表示引入。Kim等人[104]对每个模态使用深度信念网络,然后将它们组合成联合表示,用于视听情感识别。Huang和Kingsbury[86]在AVSR中使用了类似的模型,Wu等[225]则用于基于音频和骨骼关节的手势识别。
Srivastava和Salakhutdinov[198]将多模态深度信念网络扩展到多模态DBMs。多模态DBMs能够通过在多个模态上使用隐藏单元的二进制层合并两个或更多无向图来学习来自多个模态的联合表示。由于模型的无向性质,它们允许每个模态的低级表示在联合训练后相互影响。
欧阳等人[156]探索了将多模态DBMs用于从多视角数据中进行人体姿态估计的任务。他们证明,在后期(单模态数据经历非线性转换后)整合数据对模型是有益的。同样,Suk等人[199]使用多模态DBM表示对正电子发射断层扫描和磁共振成像数据进行阿尔茨海默病分类。
使用多模态DBMs学习多模态表示的一大优势是它们的生成性,这允许以一种简单的方式处理缺失数据——即使整个模态缺失,模型也有一种自然的方式来处理。它还可以用于在另一种模态存在的情况下生成一种模态的样本,或者

5
表2:多模态表示技术总结。我们确定了联合表征的三种亚型(3.1节)和协调表征的两种亚型(3.2节)。For模态+表示组合的模态。

表示 模式 参考
联合
神经网络 图像+音频图像+文本 [145]、[151]、[227][184]
图形化的模型 图片+文字图片+音频 [198] [104]
顺序 音频+视频图像+文字 【96】、【152】【166】
协调
相似 图片+文字视频+文字 [61]、[105]、[159]、[231]
结构化 图片+文字音频+发音 [32], [212], [248] [220]
两种模态都来自表示。与自动编码器类似,表示可以以无监督的方式进行训练,从而能够使用未标记的数据。DBMs的主要缺点是训练它们的困难-高计算成本,并且需要使用近似的变分训练方法[198]。
顺序表示。到目前为止,我们已经讨论了可以表示固定长度数据的模型,然而,我们经常需要表示不同长度的序列,如句子、视频或音频流。在本节中,我们描述了可用于表示此类序列的模型。
递归神经网络(rnn)及其变体,如长短期记忆(LSTMs)网络[82],由于其在跨各种任务的序列建模方面的成功,最近受到了欢迎[12],[213]。到目前为止,rnn主要用于表示单词、音频或图像的单模态序列,在语言领域取得了最大的成功。与传统的神经网络类似,RNN的隐藏状态可以被看作是数据的表示,即RNN在时间步长t处的隐藏状态可以被看作是该时间步长的序列的总结。这在RNN编码器-解码器框架中尤其明显,其中编码器的任务是将RNN隐藏状态中的序列表示为这样一种方式,解码器可以将其重建为[12]。
RNN表示的使用并不局限于单模态域。使用rnn构建多模态表示的早期使用来自Cosi等人[43]在AVSR上的工作。它们还被用于表示用于情感识别的视听数据[37],[152]以及表示用于人类行为分析的不同视觉线索等多视图数据[166]。
3.2协同表征
联合多模态表示的另一种选择是协调表示。我们不是将模态一起投影到一个联合空间中,而是学习每个模态的单独表示,但通过约束来协调它们。我们的讨论从加强表示之间相似性的协调表示开始,接着是在结果空间上加强更多结构的协调表示(不同协调表示的代表性作品可以在表2中看到)。

相似性模型使协调空间中模态之间的距离最小化。例如,这样的模型鼓励单词狗和狗的图像之间的距离比单词狗和汽车图像之间的距离更小[61]。这种表示的最早例子之一来自Weston等人[221],[222]在WSABIE (web scale annotation by image embedding)模型上的工作,其中为图像及其注释构建了一个协调空间。WSABIE从图像和文本特征构建了一个简单的线性映射,这样对应的注释和图像表示将比非对应的注释和图像表示之间具有更高的内积(较小的余弦距离)。
最近,由于神经网络具有学习表示的能力,它已经成为构建协调表示的一种流行方式。它们的优势在于能够以端到端的方式共同学习协调表示。设计了这种协调表示的一个例子——深度视觉-语义嵌入[61]。设计使用类似于WSABIE的内积和排名损失函数,但使用更复杂的图像和单词嵌入。Kiros等人[105]通过使用LSTM模型和成对排序损失来协调特征空间,将其扩展到句子和图像协调表示。Socher等人[191]处理了相同的任务,但将语言模型扩展到依存树RNN,以纳入组合语义。Pan等人[159]也提出了类似的模型,但使用视频而不是图像。Xu et al.[231]也使用h主语、动词、宾语组合语言模型和深度视频模型构建了视频和句子之间的协调空间。然后,这种表示被用于跨模态检索和视频描述的任务。
虽然上述模型强制表示之间的相似性,但结构化协调空间模型超越了这一点,并在模态表示之间强制执行额外的约束。强制执行的结构类型通常基于应用,对哈希、跨模态检索和图像描述具有不同的约束。
结构化协调空间常用于跨模态哈希——将高维数据压缩为紧凑的二进制代码,其中相似的二进制代码用于相似的对象[218]。跨模态哈希的思想是创建这样的代码用于跨模态检索[27],[93],[113]。哈希对生成的多模态空间施加一定的约束:1)它必须是一个N维汉明空间——具有可控位数的二进制表示;2)来自不同模态的相同对象必须具有相似的哈希码;3)空间必须保持相似性。学习如何将数据表示为哈希函数试图强制执行所有这三个要求[27],[113]。例如,Jiang和Li[92]介绍了一种方法,使用端到端的可训练深度学习技术来学习句子描述和相应图像之间的这种共同的二值空间。而Cao等人[32]用更复杂的LSTM句子表示扩展了该方法,并引入了异常值不敏感的按位间隔损失和基于相关反馈的语义相似性约束。同样,Wang et al.[219]构建了一个协调空间,其中图像(和

6
意思相近的句子彼此更接近。
另一个结构化协调表示的例子来自图像和语言的顺序嵌入[212],[249]。Vendrov等人[212]提出的模型强制实施了非对称的相异度量,并在多模态空间中实现了偏序的概念。其想法是捕捉语言和图像表示的偏序-在空间上强制执行层次结构;例如“一个女人遛狗”的图像→文本“女人遛狗”→文本“女人散步”。Young等人[238]也提出了一个使用表示图的类似模型,其中使用表示图来归纳偏序。最后,Zhang等人介绍了如何利用文本和图像的结构化表示以无监督的方式创建概念分类[249]。
结构化协调空间的一个特殊情况是基于典型相关分析(CCA)的情况[84]。CCA计算线性投影,最大化两个随机变量之间的相关性(在我们的案例模态中),并强制新空间的正交性。CCA模型已被广泛用于跨模态检索[76]、[106]、[169]和视听信号分析[177]、[187]。对CCA的扩展试图构建相关性最大化的非线性投影[7],[116]。核典型相关分析(KCCA)[116]使用再生核希尔伯特空间进行投影。然而,由于该方法是非参数的,它随着训练集的大小伸缩性很差,并且在非常大的真实世界数据集上存在问题。深度典型相关分析(DCCA)[7]被引入作为KCCA的替代方案,并解决了可扩展性问题,它也被证明可以导致更好的相关性表示空间。类似的通信自编码器[58]和深度通信RBMs[57]也被提出用于跨模态检索。
CCA、KCCA和DCCA是无监督技术,只优化表示上的相关性,因此主要捕获跨模态共享的内容。深度自然相关自编码器[220]还包括一个基于自编码器的数据重建项。这鼓励表示也捕获模态特定信息。语义相关性最大化方法[248]也鼓励语义相关性,同时保留相关性最大化和结果空间的正交性-这导致了CCA和跨模态哈希技术的结合。
3.3讨论
在本节中,我们确定了两种主要的多模态表示类型——联合和协调。联合表示将多模态数据投射到一个共同的空间中,最适合在推理过程中所有模态都存在的情况。它们已被广泛用于AVSR、affect和多模态手势识别。另一方面,协调表示将每个模态投射到单独但协调的空间中,使其适合于在测试时仅存在一种模态的应用,例如:多模态检索和翻译(第4节)、接地(第7.2节)和零样本学习(第7.2节)。最后,虽然联合表示已被用于在各种情况下构建表示

表3:多模态翻译研究的分类。对于每个类和子类,我们都包含了带有参考文献的示例任务。我们的分类还包括翻译的方向性:单向(→)和双向(争斗)。

任务	DIR。	参考文献

基于实例
检索 图像描述媒体检索视觉语音图像描述 自鸣得意 [155] [191], [231]; [98]; [99]
结合 图像字幕 ⇒ [74]、[114]、[119]
生成
语法基础 视频描述图像描述 ⇒⇒ [14], [204] [51], [121], [142]
Encoder-decoder 图像描述视频描述文本到图像 →→→→→ [105]、[134]、[213]、[241]、[132]、[171]
连续 声音合成视觉语音 ⇒⇒ [157], [209] [6], [47], [203]
超过两种模态,协调空间,到目前为止,大多局限于两种模态。
4翻译
多模态机器学习的很大一部分涉及从一种模态到另一种模态的翻译(映射)。给定一种模态中的实体,任务是在不同的模态中生成相同的实体。例如,给定一个图像,我们可能想要生成一个描述它的句子,或者给定一个文本描述,生成一个与它匹配的图像。多模态翻译是一个长期研究的问题,早期的工作在语音合成[88],视觉语音生成[136]视频描述[107],以及跨模态检索[169]。
最近,由于计算机视觉和自然语言处理(NLP)社区[19]的共同努力,以及最近大型多模态数据集[38]的可用性,多模态翻译重新引起了人们的兴趣[205]。一个特别流行的问题是视觉场景描述,也称为图像[214]和视频字幕[213],它为许多计算机视觉和NLP问题提供了一个很好的测试平台。要解决它,我们不仅需要充分理解视觉场景并识别其显著部分,还需要产生语法正确、全面而简洁的描述它的句子。
虽然多模态翻译的方法非常广泛,而且往往是特定于模态的,但它们共享了一些统一的因素。我们将它们分为两种类型——基于实例的和生成式的。基于实例的模型在模态之间进行转换时使用字典。另一方面,生成模型构建了一个能够生成翻译的模型。这种区别类似于非参数和参数机器学习方法之间的区别,如图2所示,表3中总结了具有代表性的例子。
可以说,生成模型的构建更具挑战性,因为它们需要生成信号或符号序列(例如句子)的能力。这对于任何模态(视觉、声学或言语)都是困难的,特别是需要生成时间上和结构上一致的序列时。这导致了许多早期的多模态翻译系统依赖于基于实例的翻译。然而,

7

(一)基于实例

(b)生成
图2:基于实例和生成式多模态翻译概述。前者从词典中检索最佳翻译,而后者首先在词典上训练一个翻译模型,然后使用该模型进行翻译。
随着能够生成图像[171]、[210]、声音[157]、[209]和文本[12]的深度学习模型的出现,这种情况一直在改变。
4.1基于实例
基于实例的算法受其训练数据字典的限制(见图2a)。我们确定了两种类型的这样的算法:基于检索的算法和基于组合的算法。基于检索的模型直接使用检索到的翻译,而不修改它,而基于组合的模型依赖更复杂的规则来基于大量检索实例创建翻译。
基于检索的模型可以说是多模态翻译最简单的形式。它们依赖于在字典中找到最接近的样本,并将其作为翻译结果。检索可以在单模态空间或中间语义空间中完成。
给定要翻译的源模态实例,单模态检索在源空间的字典中寻找最近的实例-例如,图像的视觉特征空间。此类方法已用于视觉语音合成,通过检索所需音素[26]的最接近匹配的视觉示例。它们也被用于拼接式文本到语音系统[88]。最近,Ordonez等人[155]使用单模态检索通过使用全局图像特征检索标题候选[155]来生成图像描述。Yagcioglu等人[232]使用基于cnn的图像表示,利用自适应邻域选择检索视觉上相似的图像。Devlin等人的[49]证明,与更复杂的生成方法相比,具有一致标题选择的简单k近邻检索取得了具有竞争力的翻译结果。这种单模态检索方法的优势在于,它们只需要我们正在执行检索的单一模态的表示。然而,它们通常需要额外的处理步骤,如重新排序检索到的翻译[135],[155],[232]。这表明了这种方法的一个主要问题——单峰空间中的相似性并不总是意味着良好的翻译。
另一种选择是在检索期间使用中间语义空间进行相似性比较。手工制作语义空间的一个早期例子是由

Farhadi et al.[56]。他们将句子和图像映射到一个对象、动作、场景的空间,然后在该空间中执行对图像的相关标题检索。与手工制作表示相比,Socher等人[191]学习句子和CNN视觉特征的协调表示(有关协调空间的描述,请参见第3.2节)。他们使用该模型进行从文本到图像的转换以及从图像到文本的转换。类似地,Xu等人[231]使用视频及其描述的协调空间进行跨模态检索。Jiang和Li[93]以及Cao等人。[32]使用跨模态哈希来执行从图像到句子和返回的多模态翻译,而Ho- dosh等人[83]使用多模态KCCA空间进行图像-句子检索。Karpathy等人[99]提出了一种多模态相似性度量方法,在内部将图像片段(视觉对象)与句子片段(依存树关系)对齐在一起,而不是将图像和句子全局对齐在一个公共空间中。
语义空间中的检索方法往往比它们的单模态对应方法表现得更好,因为它们在反映两种模态的更有意义的空间中检索示例,并且通常为检索进行了优化。此外,它们允许双向翻译,这对于单模态方法来说并不直接。然而,它们需要人工构建或学习这样的语义空间,这往往依赖于大型训练字典(成对样本的数据集)的存在。
基于组合的模型将基于检索的方法更进一步。他们不只是从字典中检索示例,而是以一种有意义的方式将它们组合起来,以构建更好的翻译。基于组合的媒体描述方法的动机是这样一个事实:图像的句子描述共享一个可以利用的共同和简单的结构。大多数情况下,组合的规则是手工制作的或基于启发式。
Kuznetsova等人[114]首先检索描述视觉上相似图像的短语,然后通过使用整数线性规划与大量手工制作的规则将它们组合起来,以生成查询图像的新颖描述。Gupta等人[74]首先找到与源图像最相似的k张图像,然后使用从它们的标题中提取的短语来生成目标句子。Lebret et al.[119]使用基于cnn的图像表示来推断描述它的短语。然后将预测的短语进行组合使用

8
三元文法约束的语言模型。
基于实例的翻译方法面临的一个大问题是,模型就是整个字典——使得模型很大,推理很慢(尽管,诸如哈希等优化缓解了这个问题)。基于实例的翻译面临的另一个问题是,期望一个与源例子相关的全面而准确的翻译永远存在于字典中是不现实的——除非任务很简单或者字典非常大。这在一定程度上可以通过能够构建更复杂结构的组合模型来解决。然而,它们只能在一个方向上进行翻译,而基于语义空间检索的模型可以在两种方向上进行翻译。
4.2生成式方法
多模态翻译的生成式方法构建模型,可以在给定单模态源实例的情况下进行多模态翻译。这是一个具有挑战性的问题,因为它需要既能理解源模态,又能生成目标序列或信号。正如在下一节中讨论的那样,这也使得此类方法的评估变得更加困难,因为可能的正确答案空间很大。
在本综述中,我们专注于三种模态的生成:语言、视觉和声音。语言生成已经被探索了很长时间[170],最近对图像和视频描述[19]等任务有很多关注。语音和声音生成也见证了大量使用历史[88]和现代方法[157],[209]的工作。逼真图像生成的探索较少,仍处于早期阶段[132],[171],然而,已经有许多尝试生成抽象场景[253],计算机图形[45],说话头[6]。
本文确定了三大类生成模型:基于语法的、编码器-解码器和连续生成模型。基于语法的模型通过使用语法来限制目标域,从而简化了任务,例如,通过基于h主语、宾语、动词模板生成受限句子。编码器-解码器模型首先将源模态编码为潜在表示,然后由解码器使用该表示来生成目标模态。连续生成模型基于源模态输入流连续生成目标模态,最适合于时间序列之间的翻译——例如文本到语音。
基于语法的模型依赖于预定义的语法来生成特定的模态。它们首先从源模态中检测高级概念,例如图像中的对象和视频中的动作。然后将这些检测与基于预定义语法的生成程序结合在一起,以产生目标模态。
Kojima等人[107]提出了一个系统来描述视频中的人类行为,该系统使用检测到的人的头和手的位置以及基于规则的自然语言生成,其中包含了概念和动作的层次结构。Barbu et al.[14]提出了一种视频描述模型,该模型可以生成如下形式的句子:who did what to whom and where and howthey did it。该系统基于手工制作的对象和事件分类器并使用

适用于该任务的受限语法。guadarama等人[73]使用语义层次预测描述视频的主语、动词、宾语三元组,这些语义层次在不确定的情况下使用更一般的单词。与语言模型一起,他们的方法允许翻译词典中没有见过的动词和名词。
为了描述图像,Yao等人[235]建议使用基于and-or图的模型,以及特定领域的词汇化语法规则、目标视觉表示方案和分层知识本体。Li等[121]首先检测对象、视觉属性和对象之间的空间关系。然后,他们在视觉提取的短语上使用n-gram语言模型来生成hsubject,介词,objecti风格的句子。Mitchell等人[142]使用更复杂的基于树的语言模型来生成语法树,而不是填充模板,从而产生了更多样化的描述。大多数方法将整个图像联合表示为视觉对象的包,而没有捕获它们的空间和语义关系。为了解决这个问题,Elliott等人[51]建议显式建模对象的邻近关系,用于图像描述生成。
一些基于语法的方法依赖于图形模型来生成目标模态。一个例子包括BabyTalk[112],它给定一个图像生成对象、介词、对象三元组,与条件随机场一起使用来构建句子。Yang等人[233]使用从图像中提取的视觉特征预测一组hnoun、动词、场景、介词i候项,并使用统计语言模型和隐马尔可夫模型风格推理将它们组合成一个句子。Thomason等人[204]也提出了类似的方法,其中因子图模型用于视频描述hsubject, verb, object, placei的形式。因子模型利用语言统计来处理嘈杂的视觉表示。反过来Zitnick等人[253]建议使用条件随机场根据从句子中提取的语言三元组来生成抽象的视觉场景。
基于语法的方法的一个优点是,它们更有可能生成语法上(在语言的情况下)或逻辑上正确的目标实例,因为它们使用预定义的模板和受限的语法。然而,这限制了它们只能生成公式化的而不是创造性的翻译。此外,基于语法的方法依赖于复杂的管道进行概念检测,每个概念都需要一个单独的模型和一个单独的训练数据集。基于端到端的训练神经网络的编码器-解码器模型是目前多模态翻译最流行的技术之一。该模型背后的主要思想是首先将源模态编码为矢量表示,然后使用解码器模块来生成目标模态,所有这些都在单通道管道中完成。虽然,首先用于机器翻译[97],但这样的模型已成功用于图像描述[134]、[214]和视频描述[174]、[213]。到目前为止,编码器-解码器模型大多用于生成文本,但它们也可以用于生成图像[132]、[171],以及语音和声音的连续生成[157]、[209]。
编码器-解码器模型的第一步是对源对象进行编码,这是以模态特定的方式完成的。

流行的编码声学信号的模型包括RNNs[35]和DBNs[79]。大多数编码单词句子的工作使用分布式语义[141]和RNNs[12]的变体。图像最常使用卷积神经网络(CNN)编码[109],[185]。虽然学习到的CNN表示在图像编码中很常见,但对于视频来说情况并非如此,手工制作的特征仍然是常用的[174],[204]。虽然可以使用单模态表示对源模态进行编码,但已有研究表明,使用协调空间(参见第3.2节)可以获得更好的结果[105]、[159]、[231]。
解码最常由RNN或LSTM执行,使用编码表示作为初始隐藏状态[54],[132],[214],[215]。许多对传统LSTM模型的扩展被提出,以帮助完成翻译任务。可以使用引导向量来紧耦合图像输入中的解[91]。Venugopalan等人[213]证明,在微调其为视频描述之前,对用于图像描述的解码器LSTM进行预训练是有益的。Rohrbach等人[174]探索了各种LSTM架构(单层、多层、因子化)和一些训练和正则化技术用于视频描述任务的使用。
使用RNN进行翻译生成所面临的一个问题是,模型必须从图像、句子或视频的单个向量表示中生成描述。当生成长序列时,这变得尤其困难,因为这些模型往往会忘记初始输入。神经注意力模型(见第5.2节)已经部分解决了这一问题,该模型允许网络在生成过程中专注于图像[230]、句子[12]或视频[236]的某些部分。
基于生成注意力的rnn也被用于从句子生成图像的任务[132],虽然结果仍然远低于照片的真实感,但它们显示出了很大的希望。最近,在使用生成对抗网络生成图像方面取得了大量进展[71],它已被用作rnn的替代方案,用于从文本生成图像[171]。
虽然基于神经网络的编码器-解码器系统已经非常成功,但它们仍然面临许多问题。Devlin et al.[49]提出,有可能神经网络是在记忆训练数据,而不是学习如何理解视觉场景并生成它。这是基于观察到k近邻模型的表现与基于生成的模型非常相似。此外,这样的模型通常需要大量的数据进行训练。
连续生成模型旨在序列翻译,并以在线方式在每个时间步产生输出。这些模型在将序列翻译成序列(如文本到语音,语音到文本,视频到文本)时非常有用。许多不同的技术已经被提出用于这种建模-图形模型,连续编码器-解码器方法,以及各种其他回归或分类技术。这些模型需要解决的额外困难是模态之间的时间一致性要求。
很多关于序列到序列翻译的早期工作都使用了图形或潜变量模型。Deena和Galata[47]提出使用共享的高斯过程潜变量

9
基于音频的可视语音合成的变量模型。该模型在音频和视觉特征之间创建了一个共享的潜空间,可用于从另一个空间生成一个空间,同时在不同的时间步上强制视觉语音的时间一致性。隐马尔可夫模型(HMM)也被用于视觉语音生成[203]和文本到语音[245]任务。它们还被扩展到使用聚类自适应训练,以允许对多个说话者、语言和情感进行训练,以便在生成语音信号[244]或视觉语音参数[6]时进行更多控制。
编码器-解码器模型最近成为序列到序列建模的流行模型。Owens等[157]使用LSTM根据视频生成鸡腿的声音。虽然他们的模型能够通过CNN视觉特征预测耳蜗图来生成声音,但他们发现,基于预测的耳蜗图检索最接近的音频样本可以得到最好的结果。van den Oord等人[209]提出了直接对原始音频信号进行建模以生成语音和音乐。作者提出使用分层的全卷积神经网络,在语音合成任务上比之前的最先进水平有了很大的改进。rnn还被用于语音到文本的翻译(语音识别)[72]。最近,基于编码器-解码器的连续方法被证明可以很好地从表示为滤波器组频谱[35]的语音信号中预测字母——允许更准确地识别罕见和未出现在词汇表中的单词。Collobert等人[42]演示了如何直接使用原始音频信号进行语音识别,消除了对音频特征的需要。
很多早期的工作都使用了图形模型进行连续信号之间的多模态翻译。然而,这些方法正在被基于神经网络编码器-解码器的技术所取代。特别是最近,它们被证明能够表示和生成复杂的视觉和声学信号。
4.3模型评估和讨论
多模态翻译方法面临的一个主要挑战是它们非常难以评估。虽然语音识别等一些任务有一个正确的翻译,但语音合成和媒体描述等任务没有。有时,就像在语言翻译中,多个答案是正确的,决定哪一种翻译更好往往是主观的。幸运的是,有许多近似的自动指标可以帮助模型评估。
通常,评估主观任务的理想方式是通过人类的判断。那就是让一群人来评估每一个翻译。这可以在李克特量表上进行,其中每个翻译都在某个维度上进行评估:语音合成的自然性和平均意见得分[209],[244],视觉语音合成的真实感[6],[203],以及媒体描述的语法和语义正确性、相关性、顺序和细节[38],[112],[142],[213]。另一种选择是进行偏好研究,将两个(或更多)翻译呈现给参与者进行偏好比较[203]、[244]。然而,虽然用户研究将产生最接近人类判断的评价,但它们是耗时和昂贵的。此外,它们还-

在构建和指导他们时需要谨慎,避免流利程度、年龄、性别和文化偏见。
虽然人类研究是评价的黄金标准,但已经为媒体描述任务提出了许多自动替代方案:BLEU[160]、ROUGE[124]、Meteor[48]和CIDEr[211]。这些指标直接取自(或基于)机器翻译中的工作,并计算一个分数,以衡量生成的文本和地面真实文本之间的相似性。然而,它们的使用面临着很多批评。Elliott和Keller[52]表明,句子级别的unigram BLEU与人类判断的相关性很弱。Huang等[87]证明,在视觉故事讲述任务中,人类判断与BLEU和Meteor之间的相关性非常低。此外,基于人类判断的方法排序与MS COCO challenge[38]上使用自动指标的排序不匹配——大量算法在所有指标上的表现都超过了人类。最后,只有当参考翻译的数量很高[211]时,这些指标才能很好地工作,而这通常是不可用的,特别是对于当前的视频描述数据集[205]
这些批评导致Hodosh等人[83]提出使用检索作为图像描述评估的代理,他们认为这更好地反映了人类的判断。基于检索的系统不是生成标题,而是根据可用标题与图像的契合度对其进行排名,然后通过评估正确的标题是否被赋予高排名来进行评估。由于许多标题生成模型是生成式的,它们可以直接用于评估给定图像的标题的可能性,并被图像标题生成社区[99],[105]所调整。这种基于检索的评价指标也被视频字幕社区采用[175]。
视觉问答(Visual question-answering, VQA)[130]任务被提出,部分原因是由于图像字幕的评估面临的问题。VQA是一个任务,给定图像和关于其内容的问题,系统必须回答它。由于正确答案的存在,评估这样的系统更容易。然而,它仍然面临着某些问题和答案的模糊性和问题偏见等问题。
我们相信,解决评价问题将是多模态翻译系统进一步成功的关键。这不仅可以更好地比较不同的方法,还可以更好地优化目标。
5对齐
本文将多模态对齐定义为从两个或更多模态中发现实例的子组件之间的关系和对应关系。例如,给定一个图像和一个标题,我们希望找到与标题的单词或短语[98]相对应的图像区域。另一个例子是,给定一部电影,将其与它所基于的剧本或书籍章节对齐[252]。
我们将多模态对齐分为两种类型——隐性对齐和显性对齐。在显式对齐中,我们明确地对对齐模态之间的子组件感兴趣,例如,将配方步骤与相应的教学视频相对齐[131]。隐式对齐被用作另一项任务(例如图像检索)的中间步骤(通常是潜步骤)

10表4:我们对多模态对齐挑战的分类法总结。对于我们分类法的每个子类,我们包括参考引用和对齐的模态。

对齐 模式 参考
显式的
无人管理的 视频+文字视频+音频 [131]、[201]、[202]、[154]、[206]、[251]
监督 视频+文字图片+文字 [23], [252] [108], [133], [161]
隐式的
图形化的模型 音频/文本+文本 [186], [216]
神经网络 图片+文字视频+文字 [98]、[228]、[230]、[236]、[241]
基于文本描述可以包括单词和图像区域之间的对齐步骤[99]。这些方法的概述可以在表4中看到,并在以下章节中进行更详细的介绍。
5.1显式对齐
如果论文的主要建模目标是来自两个或更多模态的实例的子组件之间的对齐,则将其归类为执行显式对齐。显式对齐的一个非常重要的部分是相似性度量。大多数方法依赖于测量不同模态子组件之间的相似性,作为基本的构建块。这些相似性可以手动定义,也可以从数据中学习。
我们确定了两种处理显式对齐的算法类型——无监督和(弱)监督。第一种类型在来自不同模态的实例之间没有直接对齐标签(即标记对应关系)的情况下运行。第二种类型可以访问这种(有时是弱)标签。
无监督多模态对齐处理模态对齐,而不需要任何直接对齐标签。大多数方法的灵感来自于统计机器翻译比对[28]和基因组序列[3]的早期工作[111]。为了使任务更容易,这些方法对比对进行了一定的约束,例如序列的时间顺序或模态之间存在相似性度量。
动态时间规整(DTW)[3],[111]是一种动态规划方法,已被广泛用于对齐多视图时间序列。DTW测量两个序列之间的相似性,并通过时间弯曲(插入帧)找到它们之间的最佳匹配。它要求两个序列中的时间步长具有可比性,并要求它们之间的相似性度量。通过手工制作模态之间的相似性度量,DTW可以直接用于多模态对齐;例如Anguera et al.[8]使用手工定义的字素和音素之间的相似度;以及Tapaswi等人[201]根据相同角色的出现[201]定义视觉场景和句子之间的相似性,以对齐电视节目和剧情大纲。类似dtw的动态规划方法也被用于文本到语音[77]和视频[202]的多模态对齐。
由于原始的DTW公式需要预先定义模态之间的相似性度量,因此对其进行了扩展

典型相关分析(CCA)将模态映射到协调空间。这允许(通过DTW)对齐和(通过CCA)以联合和无监督的方式学习不同模态流之间的映射[180],[250],[251]。虽然基于CCA的DTW模型能够在线性变换下找到多模态数据对齐,但它们无法对非线性关系建模。这已经通过深度规范时间规整方法(deep canonical time warping method,[206])解决了,这可以被视为深度CCA和DTW的泛化。
各种图形模型也以无监督的方式流行于多模态序列比对。Yu和Ballard[239]的早期工作使用生成式图形模型将图像中的视觉对象与口语对齐。Cour等人采取了类似的方法,[44]将电影镜头和场景与相应的剧本对齐。Malmaud等人[131]使用可分解HMM将食谱与烹饪视频对齐,而Noulas等人[154]使用动态贝叶斯网络将说话人与视频对齐。Naim等人[147]使用分层HMM模型将句子与帧对齐,并使用改进的IBM[28]算法进行单词和对象对齐[15],从而将句子与相应的视频帧进行匹配。然后,该模型被扩展为使用潜条件随机场进行对齐[146],并在名词和对象[195]之外将动词对齐合并到动作中。
DTW和图形模型对齐方法都允许对对齐进行限制,例如时间一致性、时间上没有大跳跃和单调性。虽然DTW扩展允许联合学习相似性度量和对齐,但基于图模型的方法需要专家知识来构建[44],[239]。
有监督的对齐方法依赖于标记的对齐实例。它们被用于训练用于对齐模态的相似性度量。
许多有监督的序列比对技术都是从无监督的序列比对技术中获得灵感的。Bojanowski et al.[22],[23]提出了一种类似于规范时间规整的方法,但也对其进行了扩展,以利用现有(弱)的监督比对数据进行模型训练。Plummer等人[161]使用CCA来寻找图像区域和短语之间的协调空间进行对齐。Gebru等人[65]训练了一个高斯混合模型,并与一个无监督潜变量图形模型一起进行半监督聚类,以将音频通道中的说话人与其在视频中的位置对齐。Kong等人[108]训练了一个马尔可夫随机场,使3D场景中的对象与文本描述中的名词和代词对齐。
由于最近在语言和视觉社区的对齐数据集的可用性[133],[161],基于深度学习的方法在显式对齐(特别是测量相似性)方面变得流行。Zhu et al.[252]通过训练CNN来测量场景和文本之间的相似性,将书籍与其相应的电影/剧本进行对齐。Yu等人[242]对该模型进行了扩展,使其包含了相对外观和上下文信息,从而可以更好地对同一类型的物体进行消歧。最后,Hu等人[85]使用了基于LSTM的评分函数来寻找它们之间的相似性

11
图像区域及其描述。
5.2隐式对齐
与显式对齐相比,隐式对齐被用作另一项任务的中间步骤(通常是潜在的)。这允许在包括语音识别、机器翻译、媒体描述和视觉问答在内的许多任务中获得更好的性能。这样的模型并不显式地对齐数据,也不依赖于监督的对齐示例,而是学习如何在模型训练期间潜在地对齐数据。我们确定了两种隐式对齐模型:早期基于图形模型的工作,以及更现代的神经网络方法。
图模型已经看到了一些早期工作,用于更好地对齐语言之间的单词以进行机器翻译[216],以及语音音素与其转录的对齐[186]。然而,它们需要人工构建模态之间的映射,例如将音素映射到声学特征的生成音素模型[186]。构建这样的模型需要训练数据或人工专业知识来手动定义它们。
神经网络翻译(第4节)是一个建模任务的例子,如果将对齐作为潜在的中间步骤执行,则通常可以改进。正如我们之前提到的,神经网络是解决这个翻译问题的流行方法,要么使用编码器-解码器模型,要么通过跨模态检索。当翻译在没有隐式对齐的情况下进行时,它最终会给编码器模块施加很大的权重,以便能够用单个向量表示正确地总结整个图像、句子或视频。
解决这个问题的一个非常流行的方法是通过attention[12],它允许解码器专注于源实例的子组件。这与在传统的编码器-解码器模型中将所有源子组件编码在一起形成对比。一个注意力模块将告诉解码器更多地关注要翻译的源的目标子组件——图像的区域[230],句子的单词[12],音频序列的片段[35],[39],视频中的帧和区域[236],[241],甚至是指令的部分[140]。例如,在图像描述中,而不是使用CNN对整个图像进行编码,注意力机制将允许解码器(通常是RNN)在生成每个连续的单词[230]时专注于图像的特定部分。学习要关注图像哪一部分的注意力模块通常是一个浅层神经网络,并与目标任务(例如,翻译)一起进行端到端的训练。
注意力模型也被成功地应用于问答任务,因为它们允许将问题中的单词与信息源的子组件(如一段文本[228]、一幅图像[62]或一段视频序列[246])对齐。这既允许在问答中获得更好的性能,也导致了更好的模型可解释性[4]。特别是,已经提出了不同类型的注意力模型来解决这个问题,包括分层注意力[128]、堆叠注意力[234]和情景记忆注意力[228]。
Karpathy提出了另一种用于跨模态检索的将图像与cap-对齐的神经替代方案

等[98],[99]。他们提出的模型通过使用图像区域和单词表示之间的点积相似性度量,将句子片段与图像区域对齐。虽然它没有使用注意力,但它通过通过训练检索模型间接学习的相似性度量来提取模态之间的潜在对齐。
5.3讨论
多模态对齐面临许多困难:1)很少有数据集具有明确标注的对齐;2)难以设计模态之间的相似性度量;3)可能存在多种可能的对齐,并不是一种模态中的所有元素在另一种模态中都具有对应关系。早期关于多模态比对的工作侧重于使用图形模型和动态规划技术以无监督的方式对齐多模态序列。它依赖于手工定义的模态之间的相似性度量,或以无监督的方式学习它们。随着最近标记训练数据的可用性,对模态之间相似性的监督学习已经成为可能。然而,学习联合对齐和翻译或融合数据的无监督技术也变得流行起来。
6融合
多模态融合是多模态机器学习的原始主题之一,之前的调查强调早期、晚期和混合融合方法[50],[247]。用技术术语来说,多模态融合是一个整合来自多个模态的信息的概念,其目标是预测一个结果度量:通过分类预测一个类别(例如,快乐vs.悲伤),或通过回归预测一个连续的值(例如,情感的积极性)。它是可追溯到25年前的多模态机器学习的研究最多的方面之一[243]。
对多模态融合的兴趣来自于它可以提供的三个主要好处。首先,能够获得观察同一现象的多种模态可能允许更稳健的预测。AVSR社区对此进行了特别的探索和利用[163]。其次,获得多种模态可能使我们能够捕捉互补信息——一些在单个模态中不可见的信息。第三,当其中一个模态缺失时,多模态系统仍然可以运作,例如,当人没有说[50]时,从视觉信号中识别情绪。
多模态融合具有非常广泛的应用,包括视听语音识别(AVSR)[163]、多模态情感识别[192]、医学图像分析[89]和多媒体事件检测[117]。关于[11]、[163]、[188]、[247]这一主题的评论有很多。其中大多数集中在针对特定任务(如多媒体分析、信息检索或情感识别)的多模态融合。相比之下,我们专注于机器学习方法本身以及与这些方法相关的技术挑战。
虽然之前的一些工作使用术语多模态融合来包括所有多模态算法,但在这篇综述论文中,当在后期预测时进行多模态集成时,我们将方法分类为融合类别

12表5:我们对多模态融合方法分类的总结。输出-输出类型(类别-分类或reg -回归),TEMP -是时间建模的可能。

融合类型 出 临时 任务 参考
Model-agnostic
早期 类 没有 情感矩形。 [34]
晚些时候 注册 是的 情感矩形。 [168]
混合动力 类 没有 地中海 [117]
基于模型的
基于 类类 不不 对象类。情感矩形。 [31], [66] [36], [90], [182]
图形化的模型 类reg类 是是否 AVSR Emotion rec. Media class。 [75] [13] [93]
神经网络 类类reg 是否是 Emotion rec. AVSR Emotion rec. [96], [224] [151] [37]
分期,以预测结果测量为目标。在最近的工作中,对于表示学习与分类或回归目标交错的深度神经网络等模型,多模态表示和融合之间的界限已经模糊。正如我们将在本节中描述的那样,对于其他方法,如图形模型和基于核的方法,这条线更加清晰。
我们将多模态融合分为两大类:不直接依赖于特定机器学习方法的模型无关方法(第6.1节);以及在构建中明确解决融合问题的基于模型的方法(第6.2节)——如基于核的方法、图形模型和神经网络。这些方法的概述可以在表5中看到。
6.1模型不可知的方法
历史上,绝大多数多模态融合都是使用模型无关的方法[50]完成的。这样的方法可以分为早期(即基于特征的),后期(即基于决策的)和混合融合[11]。早期融合在提取特征后立即集成特征(通常是通过简单地连接它们的表示)。另一方面,后期融合在每个模态做出决定(例如,分类或回归)后进行集成。最后,混合融合结合了早期融合和单个单模态预测器的输出。模型无关方法的一个优点是,它们可以使用几乎任何单模态分类器或回归器来实现。
早期的融合可以被视为多模态研究人员进行多模态表示学习的初步尝试——因为它可以学习利用每个模态的低级特征之间的相关性和相互作用。此外,它只需要训练单个模型,与后期融合和混合融合相比,使训练管道更容易。
相比之下,后期融合使用单峰决策值,并使用融合机制进行融合,如平均[181]、投票方案[144]、基于信道噪声[163]和信号方差[53]的加权,或学习模型[68]、[168]。它允许为每个模态使用不同的模型,因为不同的预测者可以更好地为每个单独的模态建模,从而具有更大的灵活性。此外,它使预测更容易当一个或多个

模态是缺失的,甚至在没有平行数据可用的情况下允许训练。然而,后期融合忽略了模态之间的低水平交互。
混合融合试图在一个共同的框架中利用上述两种方法的优势。它已被成功用于多模态说话人识别[226]和多媒体事件检测(MED)[117]。
6.2基于模型的方法
虽然使用单模态机器学习方法很容易实现模型不可知的方法,但它们最终使用的技术不是为处理多模态数据而设计的。在本节中,我们描述了三大类旨在执行多模态融合的方法:基于核的方法、图形模型和神经网络。
多核学习(MKL)方法是核支持向量机(SVM)的扩展,允许对数据的不同模态/视图使用不同的核[70]。由于核可以被视为数据点之间的相似度函数,MKL中的特定模态核允许更好地融合异质数据。
MKL方法一直是融合用于目标检测的视觉描述符的一种特别流行的方法[31],[66],直到最近才被用于任务的深度学习方法所超越[109]。它们还被用于多模态情感识别[36],[90],[182],多模态情感分析[162],和多媒体事件检测(MED)[237]。此外,McFee和Lanckriet[137]提出使用MKL从声学、语义和社会观点数据中执行音乐艺术家相似性排序。最后,Liu等[125]在阿尔茨海默病分类中使用MKL进行多模态融合。它们的广泛适用性证明了此类方法在各种领域和跨不同模态的优势。
除了在核选择上的灵活性,MKL的一个优势是损失函数是凸的,允许使用标准优化包和全局最优解进行模型训练[70]。此外,MKL可以同时用于执行回归和分类。MKL的主要缺点之一是在测试时依赖训练数据(支持向量),导致推理速度慢和内存占用大。
图形模型是多模态融合的另一类流行方法。在本节中,我们概述了使用浅层图形模型在多模态融合方面所做的工作。关于深度图模型(如深度信念网络)的描述可以在3.1节中找到。
大多数的图模型可以分为两大类:生成-建模联合概率;或判别性-建模条件概率[200]。最早的一些使用图模型进行多模态融合的方法包括生成模型,如耦合[149]和阶乘隐马尔可夫模型[67]以及动态贝叶斯网络[64]。最近提出的一种多流HMM方法为AVSR提出了模态的动态加权[75]。
可以说,生成模型的受欢迎程度低于判别模型,如条件随机场(CRF)[115],后者牺牲了联合概率的建模以获得预测能力。CRF模型被用来更好地分割

13幅图像通过结合视觉和文本信息对图像进行[60]描述。CRF模型已被扩展到使用隐条件随机场(hidden conditional random fields)建模潜在状态[165],并已应用于多模态会议分割[173]。其他隐变量判别图模型的多模态应用包括多视图隐CRF[194]和隐变量模型[193]。最近,Jiang等人[93]展示了多模态隐条件随机场在多媒体分类任务中的好处。虽然大多数图形模型都是针对分类的,但CRF模型已经扩展到用于回归的连续版本[164],并应用于多模态设置[13],用于音频视觉情感识别。
图形模型的好处是它们能够轻松地利用数据的空间和时间结构,这使得它们在时间建模任务中特别受欢迎,如AVSR和多模态情感识别。它们还允许在模型中内置人类专家知识。并经常导致可解释的模型。
神经网络已经被广泛用于多模态融合的任务[151]。最早使用神经网络进行多模态融合的例子来自于AVSR的工作[163]。如今,它们被用于融合视觉和媒体问答[63]、[130]、[229]、手势识别[150]、影响分析[96]、[153]和视频描述生成[94]的信息。虽然使用的模态、架构和优化技术可能有所不同,但在神经网络的联合隐藏层中融合信息的总体思路是相同的。
通过使用RNNs和LSTMs,神经网络也被用于融合时间多模态信息。早期使用双向LSTM的此类应用之一被用于执行视听情感分类[224]。最近,W¨ollmer等人[223]使用LSTM模型进行连续多模态情感识别,证明了其相对于图形模型和svm的优势。类似地,Nicolaou等人[152]使用lstm进行连续情绪预测。他们提出的方法使用LSTM来融合特定模态(音频和面部表情)LSTM的结果。
通过循环神经网络实现模态融合已被用于各种图像描述任务,示例模型包括:神经图像描述[214],其中CNN图像表示使用LSTM语言模型解码,gLSTM[91]在每个时间步将图像数据与句子解码结合在一起,在联合表示中融合视觉和句子数据。最近的一个例子是Rajagopalan等人[166]提出的多视图LSTM (MV-LSTM)模型。MV-LSTM模型通过显式地建模随时间变化的特定模态和跨模态交互,允许在LSTM框架中灵活地融合模态。
深度神经网络方法在数据融合方面的一大优势是它们能够从大量数据中学习。其次,最近的神经架构允许对多模态表示组件和融合组件进行端到端的训练。最后,与非基于神经网络的系统相比,它们表现出了良好的性能,并能够学习其他方法难以学习的复杂决策边界。
神经网络方法的主要缺点

是它们缺乏可解释性。很难判断预测依赖于什么,哪些模态或特征起着重要作用。此外,神经网络需要大量的训练数据集才能成功。
6.3讨论
多模态融合一直是一个被广泛研究的话题,提出了大量的方法来解决它,包括模型无关方法、图形模型、多核学习和各种类型的神经网络。每种方法都有自己的优缺点,其中一些更适合较小的数据集,而另一些在噪声环境中表现更好。最近,神经网络已经成为一种非常流行的解决多模态融合的方法,然而图形模型和多核学习仍然在使用,特别是在训练数据有限或模型可解释性很重要的任务中。
尽管取得了这些进展,多模态融合仍然面临以下挑战:1)信号可能无法在时间上对齐(可能是密集的连续信号和稀疏的事件);2)很难建立利用补充且不仅是互补信息的模型;3)每个模态可能在不同的时间点表现出不同类型和不同程度的噪声。
7 CO-LEARNING
我们分类法中的最后一个多模态挑战是共同学习——通过利用来自另一种(资源丰富)模态的知识来帮助一种(资源贫乏)模态的建模。当其中一种模态的资源有限时——缺乏标注数据、有噪声的输入和不可靠的标签,这就特别相关。我们称这种挑战为共同学习,因为通常辅助模态只在模型训练期间使用,而在测试期间不使用。我们根据它们的训练资源确定了三种类型的共同学习方法:并行、非并行和混合。并行数据方法需要训练数据集,其中一种模态的观察结果与其他模态的观察结果直接关联。换句话说,当多模态观察来自相同的实例时,例如在视听语音数据集中,视频和语音样本来自同一说话人。相比之下,非平行的数据方法不需要不同模态观测之间的直接联系。这些方法通常通过使用类别方面的重叠来实现共同学习。例如,在零样本学习中,当用维基百科的第二个纯文本数据集扩展传统的视觉目标识别数据集时,以提高视觉目标识别的泛化性。在混合数据设置中,模态通过共享模态或数据集进行桥接。联合学习方法的概述可以在表6中看到,数据并行性的总结在图3中看到。
7.1并行数据
在并行数据共同学习中,两种模态共享一组实例——音频记录与相应的视频、图像及其句子描述。这允许两种类型的算法利用这些数据来更好地对模态进行建模:协同训练和表示学习。

14

图3:在共同学习中使用的数据并行类型:并行-模态来自同一数据集,实例之间有直接对应关系;非平行-模态来自不同的数据集,没有重叠的实例,但在一般类别或概念上有重叠;混合——实例或概念由第三种模态或数据集连接起来。
协同训练是当我们在多模态问题[21]中只有少量标记样本时,创建更多标记训练样本的过程。基本算法在每个模态中建立弱分类器,对未标记的数据用标签互相引导。它已经被证明可以基于网页本身和Blum和Mitchell[21]的开创性工作中的超链接发现更多的网页分类训练样本。根据定义,这项任务需要并行数据,因为它依赖于多模态样本的重叠。
Co-training已被用于统计解析[178]以构建更好的视觉检测器[120]以及用于视听语音识别[40]。它还被扩展到处理模态之间的分歧,通过过滤不可靠的样本[41]。虽然co-training是一种生成更多标签数据的强大方法,但它也可能导致有偏的训练样本导致过拟合。
迁移学习是利用并行数据进行co-learning的另一种方法。多模态表示学习(第3.1节)如多模态深度玻尔兹曼机[198]和多模态自编码器[151]等方法将信息从一种模态的表示迁移到另一种模态的表示。这不仅导致了多模态表示,而且还产生了更好的单模态表示,在测试时间内只使用了一种模态[151]。
Moon等人[143]展示了如何将信息从语音识别神经网络(基于音频)转移到唇读神经网络(基于图像),从而获得更好的视觉表示,以及在测试时间无需音频信息即可用于唇读的模型。类似地,Arora和Livescu[10]在声学和发音(嘴唇、舌头和下巴的位置)数据上使用CCA构建了更好的声学特征。他们仅在CCA构建期间使用发音数据,并在测试期间仅使用由此产生的声学(单模态)表示。
7.2非平行数据
依赖于非平行数据的方法不要求模态具有共享的实例,而只要求共享的类别或概念。非平行共同学习方法在学习表示时可以有所帮助,允许更好的语义概念理解,甚至执行未见过的对象识别。

表6:基于数据并行性的共同学习分类法总结。并行数据——多种模态可以看到相同的实例。非平行数据——单模态实例彼此独立。混合数据——模态通过共享模态或数据集进行枢轴。

数据并行性 任务 参考
平行
Co-training 混合物 [21], [110]
转移学习 AVSR唇读 [151] [143]
光场
转移学习 视觉分类动作识别 [61] [129]
概念基础 比喻类。词相似 [181] [103]
零样本学习 图像类。认为阶级。 [61]、[190]、[158]
混合数据
桥接 MT与image ret.音译 [167] [148]
迁移学习也可以在非平行数据上进行,并允许通过将信息从使用数据丰富或干净的模态构建的表示转移到数据稀缺或有噪声的模态来学习更好的表示。这种类型的迁移学习通常通过使用协调的多模态表示来实现(参见第3.2节)。例如,Frome等人[61]通过协调CNN视觉特征与在单独的大型数据集上训练的word2vec文本特征[141],使用文本来改进图像分类的视觉表示。以这种方式训练的视觉表示会导致更有意义的错误——将对象误认为相似类别的对象[61]。Mahasseni和Todorovic[129]演示了如何通过强制其隐藏状态之间的相似性,使用在3D骨骼数据上训练的自动编码器LSTM来正则化基于彩色视频的LSTM。这样的方法能够改进原始的LSTM,并在动作识别方面带来最先进的性能。
概念基础是指学习语义意义或概念不纯粹基于语言,还基于其他模态,如视觉,声音,甚至嗅觉[16]。虽然大多数概念学习方法都是纯粹基于语言的,但人类对意义的表征不仅是我们语言暴露的产物,而且还通过我们的感觉运动经验和感知系统[17]建立基础,[126]。人类的语义知识严重依赖于感知信息[126],许多概念都是基于感知系统,而不是纯粹的符号化[17]。这意味着纯粹从文本信息中学习语义可能不是最佳的,并激励使用视觉或声学线索来为我们的语言表示奠定基础。
从Feng和Lapata[59]的工作开始,接地通常通过寻找表示[59],183之间的公共潜空间来执行,或通过分别学习单模态表示,然后将它们连接起来,以得到多模态表示[29],[101],[172],181。一旦构建了一个多模态表示,它就可以用于纯语言任务。Shutova et al.[181]和Bruni et al.[29]使用基础表征来更好地分类隐喻和字面语言。这种repre

15句子对于测量概念相似性和相关性也很有用——识别两个单词在语义或概念上是如何相关的[30],[101],[183]或动作[172]。此外,不仅可以使用视觉信号,也可以使用声学信号来建立概念,从而导致更好的表现,特别是在具有听觉关联的单词上[103],甚至对于具有嗅觉关联的单词,也可以使用嗅觉信号[102]。最后,多模态对齐和概念接地之间有很多重叠,因为将视觉场景与其描述对齐会导致更好的文本或视觉表示[108],[161],[172],[240]。
人们已经发现,概念基础是提高许多任务性能的有效方法。它还表明,语言和视觉(或音频)是互补的信息源,将它们结合在多模态模型中往往可以提高性能。然而,人们必须小心,因为基础并不总是导致更好的性能[102],[103],只有在基础与任务相关时才有意义-例如使用图像为视觉相关概念进行基础。
零样本学习(ZSL)指的是在没有明确看到任何示例的情况下识别一个概念。例如,在从未见过(标记)猫的图像的情况下对图像中的猫进行分类。这是一个需要解决的重要问题,就像在许多任务中,如视觉对象分类:为每个可想象的感兴趣的对象提供训练示例是非常昂贵的。
ZSL有两种主要类型-单模态和多模态。单模态ZSL查看对象的组成部分或属性,例如音素来识别一个未听过的单词,或视觉属性,如颜色、大小和形状,来预测一个未见过的视觉类[55]。多模态ZSL通过次级模态的帮助来识别主模态的物体——在次级模态中,物体已经被看到。根据定义,多模态ZSL是一个面临非平行数据的问题,因为所见类别的重叠在模态之间是不同的。
Socher等人[190]将图像特征映射到一个概念词空间,并能够在可见和未见的概念之间进行分类。然后,未见过的概念可以分配给一个与视觉表示接近的单词——这是由在见过更多概念的单独数据集上训练的语义空间实现的。Frome等人[61]不是学习从视觉到概念空间的映射,而是学习概念和图像之间的协调多模态表示,从而允许ZSL。Palatucci等人[158]基于功能性磁共振图像对人们正在思考的单词进行预测,他们展示了如何通过使用中间语义空间来预测未见过的单词。Lazaridou等人[118]提出了一种快速的ZSL映射方法,通过神经网络将提取的视觉特征向量映射到基于文本的向量。
7.3混合数据
在混合数据设置中,两个非平行模态由共享模态或数据集桥接(见图3c)。最显著的例子是桥接相关神经网络[167],它使用枢轴模态来学习存在非平行数据时的协调多模态表示。例如,在多语言图像的情况下

字幕,图像模态将始终与任何语言的至少一个字幕配对。此类方法也被用于桥接可能没有平行语料库但可访问共享枢轴语言的语言,如机器翻译[148]、[167]和文档音译[100]。
一些方法不是使用单独的模态进行桥接,而是依赖于来自类似或相关任务的大型数据集的存在,以在只包含有限注释数据的任务中实现更好的性能。Socher和Fei-Fei[189]利用存在的大型文本语料库来指导图像分割。而Hendricks等人[78]使用单独训练的视觉模型和语言模型来产生更好的图像和视频描述系统,而该系统只有有限的数据可供使用。
7.4讨论
多模态联合学习允许一种模态利用跨模态的互补信息影响另一种模态的训练。重要的是要注意,联合学习是独立于任务的,可以用来创建更好的融合、翻译和对齐模型。这一挑战以协同训练、多模态表示学习、概念基础和零样本学习(ZSL)等算法为例,并在视觉分类、动作识别、视听语音识别和语义相似度估计中发现了许多应用。
8的结论
作为这项调查的一部分,我们介绍了多模态机器学习的分类法:表示、翻译、融合、对齐和共同学习。其中一些(如融合)已经被研究了很长时间,但最近对表示和翻译的兴趣导致了大量新的多模态算法和令人兴奋的多模态应用。
我们相信,我们的分类法将有助于对未来的研究论文进行编目,也能更好地理解多模态机器学习面临的尚未解决的问题。

05-24 04:38