【论文精读】MultiEMO: An Attention-Based Correlation-Aware Multimodal Fusion Framework for Emotion Recogni

2024 年 9 月 1 日 6点热度 0人点赞 0条评论

本文并非逐句翻译，添加个人理解与疑惑，如有需要，请自行阅读原文。

MultiEMO: An Attention-Based Correlation-Aware Multimodal Fusion Framework for Emotion Recognition in Conversations

MultiEMO：一种用于会话中情感识别的基于注意力的相关性感知多模态融合框架

会议：ACL 2023

数据集：MELD、IEMOCAP

实验运行环境：

Github：GitHub - TaoShi1998/MultiEMO-ACL2023: MultiEMO: An Attention-Based Correlation-Aware Multimodal Fusion Framework for Emotion Recognition in Conversations (ACL 2023)

Abstract

会话中的情感识别（ERC）是自然语言处理界越来越流行的一项任务，旨在对说话人在会话中表达的话语进行准确的情感分类。

大多数现有方法侧重于基于文本模态对说话者和上下文信息进行建模，而多模态信息的互补性没有得到很好的利用，目前很少有方法能够充分捕捉不同模态之间的复杂相关性和映射关系。此外，现有的最先进的ERC模型很难对少数群体和语义相似的情感类别进行分类。

为了应对这些挑战，本文提出了一种新的基于注意力的相关性感知多模态融合框架MultiEMO，该框架通过基于双向多头交叉注意力层捕获文本、音频和视觉模态之间的跨模态映射关系，有效地集成了多模态线索cues。（"线索"指的是情感识别模型中用于识别、分类情感的各种信息或特征，可以是文本、音频或视觉数据中的特定模式或信号。 "线索"可以帮助模型更准确地理解和分类不同的情感类别。）本文提出的样本加权焦点对比度（SWFC）损失减轻了识别少数和语义上难以区分的情绪类别的困难。在两个基准ERC数据集上进行的大量实验表明，本文的MultiEMO框架在两个数据集上的所有情绪类别中始终优于现有的最先进方法，在少数群体和语义相似的情绪方面的改进尤其显著。

1 Introduction

会话中的情绪识别（ERC）是自然语言处理（NLP）领域的一项新兴任务，旨在根据说话人的文本、音频和视觉线索识别会话中每个话语的情绪。

为了解决ERC的问题，已经提出了许多方法。现有的大多数工作都集中在对说话者依赖性和会话上下文进行建模上（Poria et al.，2017；Hazarika et al.，2018a，c；Majumder et al.，2019；Ghosal et al.，20192020；Shen et al.，2021；Hu等人，2021a，b；Li et al.，2021a；Joshi et al.，2022；Lee和Lee，2022），但仍存在一些未解决的挑战：

（1）多模态信息的互补性没有得到很好的利用。除了语篇模态中包含的丰富信息外，说话人的语气和语调可以指示情绪的强度，对话者的面部表情也能够明确地揭示情绪倾向（Li et al.，2022）。图1显示了一个例子，其中除了文本模态之外，声音和视觉信号的互补性对于准确的情绪分类至关重要。然而，大多数现有的方法都专注于话语的文本模态，或者简单地利用特征级联作为多模态融合机制（Poria et al.，2017；Hazarika et al.，2018a，c；Majumder et al.，2019；张和柴，2021；李等人，2022），而没有对文本、音频和视觉模态之间的复杂相关性和映射关系进行建模，这导致多模态cues的不充分整合。

（2）少数群体和语义相似的情绪类别方面有困难。（注："少数群体"并不是指人口中的少数民族或少数群体，而是指在情感分类中出现频率较低的、相对罕见的情感类别。因为这些情感类别出现的次数较少，所以情感识别模型可能会在将其正确分类时遇到困难。）ERC领域现有的基准数据集（如IEMOCAP和MELD）存在类别不平衡的问题。如图2所示，MELD和IEMOCAP都存在类别不平衡的情况，特别是在MELD中，中性情绪这个占据大多数的类别比厌恶和恐惧这两个少数类别所占比例要高得多。目前最先进的方法无法解决类别不平衡问题，并且在少数类别上的表现较差。

（3）区分语义相似的情感的困难。正确分类语义相关的不同情绪，如MELD中的厌恶和愤怒，仍然是一项具有挑战性的任务，因为它们具有相似的潜在认知、情感和生理特征，并且往往由说话者在相似的上下文中表达。

为了解决上述问题，本文提出了一种新的基于注意力的相关感知多模态融合框架MultiEMO。

首先，对每种模态进行单模态特征提取和上下文建模，其中引入了一种基于多任务级联卷积网络（MTCNN）（Zhang et al.，2016）和VGGFace2（Cao et al.，2018）预训练的ResNet-101（He et al.，16）的视觉特征提取器VisExtNet。VisExtNet通过提取对话者富含情感的面部表情，准确捕捉话语视频的视觉线索，而无需建模冗余的场景相关视觉信息。

其次，提出了一种称为MultiAttn的多模态融合模型，以有效地集成基于双向多头交叉注意力层的多模态信息（Vaswani et al.，2017），该模型成功地捕捉了上下文化文本、音频和视觉特征之间复杂的跨模态相关性和映射关系。

第三，为了减轻对少群体数和语义相似的情绪类别进行分类的困难，在焦点对比度损失（Zhang et al.，2021）的启发下，提出了一种样本加权焦点对比度（SWFC）损失，将更多的关注点分配给难以分类的少数类，并使具有不同情绪标签的样本对彼此互斥，从而可以更好地区分语义相似的情绪。

此外，利用Soft Hirschfeld GebeleinRényi（Soft HGR）损失（Wang et al.，2019）来最大化从MultiAttn中提取的多模态融合文本、音频和视觉特征表示之间的相关性。

最后，在两个ERC基准数据集MELD和IEMOCAP上进行了广泛的实验。实验结果表明，与现有的最先进的方法相比，本文提出的MultiEMO框架具有有效性和优越性，在少数和语义相似的情绪类别方面的改进尤其显著。

Contributions：

提出了一种新的视觉特征提取网络VisExtNet，该网络在不建模冗余场景信息的情况下有效地捕捉对话者的视觉cues。
设计了一个基于双向多头交叉注意力层（bidirectional multi-head cross-attention layers）的多模态融合模型MultiAttn，该模型成功地对文本、音频和视觉模态之间的复杂相关性进行了建模。
创新性地引入了SWFC损失，以解决对少数群体和语义相似的情绪类别进行分类的困难。
在MELD和IEMOCAP上进行了广泛的实验，结果表明，本文提出的MultiEMO框架在这两个数据集上都实现了最先进的性能，在少数群体和语义相似的情绪方面的改进尤其显著。

2 Related Work

2.1 Recurrence-based Models 基于递归的模型

（Poria et al.，2017）提出了一种基于长短期记忆（LSTM）的网络，名为BC-LSTM，用于从对话中提取上下文信息。（Hazarika et al.，2018b）提出了交互式会话记忆网络（ICON），该网络基于门控递归单元（GRU）对自我和说话者间的影响进行建模。（Majumder et al.，2019）介绍了一种使用GRU对说话者状态和上下文信息进行建模的DialogueRNN。（Lu et al.，2020）提出了一种基于GRU的迭代情感交互网络（IterativeERC），该网络通过迭代使用预测的情感标签来对情感交互进行建模。（Ma et al.，2022）设计了一个多视图网络（MVN），基于注意力机制和双向GRU，对来自单词和话语层面的查询的情感表示进行建模。

2.2 Graph-based Models 基于图的模型

（Ghosal et al.，2019）提出了一种对话图卷积网络（DialogueGCN），用有向图对会话上下文进行建模。（Zhang et al.，2019）设计了一个名为ConGCN的基于图的模型来捕获上下文和说话者敏感的依赖关系。（Shen et al.，2021）介绍了一种有向无环神经网络（DAG-ERC），用于使用有向无循环图（DAG）捕获会话的内在结构。（Joshi et al.，2022）提出了一种基于上下文的图神经网络（GNN）模型，名为COGMEN，该模型利用了会话中的局部和全局信息。

2.3 Transformer-based Models 基于Transformer的模型

（Li et al.，2020）介绍了一种基于两个层次Transformer的基于Transformer的上下文敏感模型HiTrans。（Li et al.，2022）设计了一个名为EmoCaps的基于Transformer的模型，从多模态特征中提取情感倾向。CoMPM由（Lee和Lee，2022）引入，它由基于Transformer编码器的上下文嵌入模块（CoM）和预训练的存储器模块（PM）组成。

2.4 Multimodal-based Models 基于多模态的模型

多模态融合图卷积网络（MMGCN）由（Hu et al.，2021b）提出，它利用了多模态信息和长距离上下文。（Li et al.，2021b）引入了一种名为QMNN的类量子框架，以联合执行多模态融合和会话上下文建模。（Chudasama et al.，2022）设计了一个基于多头注意力层的多模态融合网络，名为M2FNet，以捕捉跨模式交互。（Hu et al.，2022）提出了一个名为UniMSE的统一框架，其中通过将声学和视觉信号注入T5模型来融合多模态表示。

3 Methodology

3.1 Problem Definition

对话由n个话语组成，分别由说话者发出。ERC的目标是从预定义的k类情感类别集合Y中预测对话中每个话语的情感标签。每个话语都包含相应的文本(t)、音频(a)和视觉(v)模态，可以如下所示：

3.2 Model Overview

MultiEMO的总体框架如图3所示，由四个关键组成部分组成：

单模态特征提取、上下文建模、多模态融合和情感分类。

3.3 Unimodal Feature Extraction and Context Modeling

3.3.1 Textual Modality

现有研究通常采用两种不同的范式来提取语境化的文本特征：

（1）两阶段范式（Li et al.，2020；Chudasama et al.，2022）：文本序列首先被输入到预先训练的语言模型中，以学习话语级的局部文本表示，然后被输入到另一个Transformer中，通过在会话中结合上下文信息来生成对话级的全局文本特征。

（2）一阶段范式（Kim和Vossen，2021；Lee和Lee，2022）：通过微调单个预训练的语言模型，共同捕捉局部话语层面的信息和全局对话层面的会话上下文。

本文探索了两种方法并且实验结果显示一阶段范式略优于两阶段范式。为了提高计算效率，本文采用了一阶段的范式。

具体而言，根据（Kim和Vossen，2021）的描述，每个文本话语前缀为该话语的发言者姓名，以便有效地编码说话者信息。然后，第 i 个话语的输入序列由三个部分组成，以整合上下文信息：前面的上下文话语，当前话语，以及后续上下文话语。这三个部分被连接在一起，并在[SEP]处分隔，然后输入到一个预训练的RoBERTa模型和一个随后的全连接层中，其中第一个隐藏状态的嵌入[CLS]被用作的学习上下文化的256维文本表示。

3.3.2 Audio Modality

音频特征提取：我们遵循（Majumder et al.，2019）并使用OpenSMILE（Eyben et al.，2010）为每个话语音频提取6373维的特征表示，然后采用全连接层为每个输入音频获得512维的特征。

音频上下文建模：在单模态音频特征提取后，我们使用DialogueRNN（Majumder et al.，2019）来捕捉上下文音频特征，每个音频特征片段具有256个维度的音频特征。DialogueRNN的 speaker-modeling 特性使其能够有效地集成来自不同 speaker 的音频cues（Li et al.，2022）。

3.3.3 Visual Modality

视觉特征提取：大多数现有工作（Hazarika et al.，2018a，c；Majumder et al.，2019；张和柴，2021；李等人，2022）利用3D-CNN（Tran et al.，2015）从视频片段中捕捉视觉特征。最近，（Chudasama et al.，2022）提出了一种基于多任务级联卷积网络（MTCNN）的对偶网络（Zhang et al.，2016），该网络被证明是有效的。这两种方法不仅对对话者的面部表情进行编码，而且对每个话语片段的场景相关信息进行编码。

然而，我们认为这两种方法是有缺陷的，因为视觉周围的信息是多余的。首先，场景信息和说话者的情绪之间没有明确的相关性，因为发生在同一场景中的对话往往不会有相似的情绪倾向。举例来说，MELD中很大一部分对话发生在家里，但这些对话的情绪差异很大。此外，在整个谈话过程中，场景通常保持不变。因此，为每个话语捕获与场景相关的视觉信息是不必要的，并且由于不相关的场景信息的影响，可能导致对说话者的实际情绪倾向的错误理解。

为了解决这个问题，本文提出了一种新的视觉特征提取器，名为VisExtNet，它由一个MTNN和一个在VGGFace2上预训练的ResNet-101（He et al.，2016）组成（Cao et al.，2018）。VisExtNet的体系结构如图4所示。VisExtNet旨在通过整合多帧对话者的面部表情来有效捕捉视觉线索，而无需编码冗余的场景相关信息。

对于话语视频，对话语片段的20帧执行视觉特征提取，其中使用步长来选择每个帧：

具体地说，每个帧首先被送到MTNN中，以准确地检测在该帧的场景中存在的所有对话者的面部，然后每个检测到的面部通过VGGFace2预训练的ResNet-101，以提取富含情感的视觉特征向量。将所有参与者的面部表情特征进行串联被视为该帧的视觉表示。对于每个帧，重复相同的过程，然后对所有帧的输出特征在帧轴上进行平均池化，以获得一个1000维的视觉特征向量hvi。。（注："帧轴"指的是视频或动态图像中的时间轴上的每一帧。视频可以被看作是由一系列连续的帧组成的，每一帧代表了某个时间点的图像。在这个语境下，对于每个帧，将其对应的面部表情特征提取出来，并进行处理和汇总。然后，对所有帧的输出特征在时间轴上进行平均池化，得到一个1000维的视觉特征向量。）

视觉上下文建模：与音频上下文建模类似，在提取视觉特征后，使用另一个DialogueRNN来学习每个视频片段的256维上下文化视觉表示。

3.4 Multimodal Fusion

现有文献未能有效地整合多模态信息，多模态之间复杂的相关性和映射关系也没有得到很好的捕捉。为了解决这个问题，受（Chudasama et al.，2022）的启发，本文提出了一种基于双向多头交叉注意力机制的新型多模态融合网络 MultiAttn，其中查询是从一个模态生成的，而键和值来自不同的模态，并且在计算注意力分布时利用先前和随后的上下文。

MultiAttn的体系结构如图5所示。MultiAttn由三个组件组成：

每个组件旨在将一种模态与其他两种模态的互补信息集成在一起。如图5所示，MultiAttntext、MultiAttnaudio和MultiAttnvisual共享相同的构建块，仅在输入Query、Key和Value方面有所不同。因此，为了简洁起见，我们使用MultiAttntext来说明多模态融合是如何工作的。

MultiAttntext通过三阶段法有效地将文本模态与音频和视觉cues相结合：

（1）首先通过将文本模态视为查询，将音频模态视为双向多头交叉注意力操作的键和值，来学习文本模态和音频模态之间的跨模态相关性和映射关系；

（2）来自第一阶段的学习输出然后被用作新的查询，而视觉模态被视为另一个双向多头交叉注意力层的键和值，以将文本模态与视觉cues融合；

（3）最后，采用由两个全连接层组成的前馈网络，其中使用带有修正线性单元（ReLU）的激活函数，该网络作为一个键-值记忆操作（Geva等，2021）。（注：疑问在这种情况下，前馈网络可能被认为起到了类似于键值存储和检索的作用，因为它接收之前阶段输出的查询作为输入，并通过两个全连接层和ReLU激活函数来处理这些输入，以获得最终的输出。这种处理过程可以被类比为从存储中检索特定键值对的过程，虽然实际上并没有明确的“存储”过程发生在前馈网络内部。）

此外，在每个阶段的输出上应用残差连接和层归一化，以促进训练过程。为了构建一个更深入、更强大的网络，我们利用MultiAttntext、MultiAttnaudio和MultiAttnvisual的T层作为MultiAttn的全模型架构，其中每层的输出都作为新的Query输入到下一层。

给定从 j−1 层学习的所有话语的查询，音频和视觉特征和，j 层处的MultiAttntext的计算如下所示：

是投影矩阵，是偏置参数，H是注意力头的数量，Cat代表串联 concatenate。

3.5 Emotion Classification

在多模态融合之后，所学习的多模态文本、音频和视觉特征表示被级联，然后被送到全连接层和随后的具有ReLU的2层多层感知器（MLP）中。

最后，使用Softmax层来计算情绪类别集上的概率分布，其中选择具有最高概率的情绪标签作为第i个话语的预测值。计算如下所示：

3.6 Training Objectives

给定一批由M个对话组成的N个样本，其中第 i 个对话包含C（i）个话语，

训练目标定义如下：

SWFC损失：为了减轻对少数和语义相似情绪进行分类的困难，本文基于焦点对比损失提出了一种新的损失函数，称为样本加权焦点对比（SWFC）损失（Zhang et al.，2021），通过引入样本权重项和聚焦参数，在训练阶段更加重视难以分类的少数类别，并使具有不同情绪标签的样本对相互排斥，以最大化类间距离，从而更好地区分语义相似的情绪。SWFC损失定义如下：

其中是对话 i 中的话语 j 的全连接层（等式14）的输出，

是除了之外的同批次中的特征集合，是对话 i 中话语 j 的标签，

是与共享相同标签的正特征集，是批次中标签的计数，α是控制少数类别关注程度的样本权重参数，τ是控制负类样本惩罚强度的温度参数。是一个焦点权重参数，它迫使模型专注于难以分类的样本，用于控制对负配对的惩罚强度。

M：对话总数。
C(i)：对话 i 中的话语数量。

个人理解：公式18是对话 i 中句子 j 的全连接层输出 Z_i,j 与同一批次中其他特征 Z_i,q 之间的相似度。通过计算 Z_i,j 和 Z_i,q 的点乘值的指数除以温度参数 τ，并通过 A_i,j 集合中所有特征的指数和进行归一化来得到的。τ (tau)是一个温度参数，它对点积进行缩放以控制softmax函数的分布。较低的温度使其分布更硬(更尖峰)，而较高的温度使其更软(更均匀)。

公式19是所有对话 M 和对话中所有话语的加权和。此损失由样本计数参数 α 加权，并且加入了一个焦点权重参数 γ。在求和表达式内部，对于每个句子 j，计算一个处罚项，该项通过取 s_(i,j,q) 的对数似然率的负值来实现，只考虑那些与 Z_i,j 标签 y_i,j 相同的特征 Z_i,q。处罚项受焦点权重参数的调节，当预测置信度较低时，对于负配对（不同标签）的处罚会更加严厉。

Soft-HGR损失：我们利用软HirschfeldGebelein-Rényi（软HGR）损失（Wang et al.，2019）来最大限度地提高从MultiAttn中提取的多模态融合文本、音频和视觉特征之间的相关性。软HGR损失定义如下：

Cross-Entropy 损失：此外，采用交叉熵损失来测量预测概率和真实标签之间的差异：

其中，pi，j是对话 i 中话语 j 在情感类上的概率分布，yi，j是会话 i 中话语 j 的真实标签。

Full Loss Function ：SWFC损失、软HGR损失和交叉熵损失的线性组合被用作全损失函数。

4 Experimental Settings

4.1 Datasets

IEMOCAP（Busso et al.，2008）：IEMOCAP包含大约12小时的二元对话视频，分为7433个话语和151个对话。每一句话都有六个情绪标签中的一个：快乐、悲伤、中性、愤怒、兴奋和沮丧。

MELD（Poria et al.，2019）：MELD是一个多方数据集，包含电视剧《老友记》中的13708句话语和1433段对话。每一句话都有七种情绪类别中的一种：愤怒、厌恶、恐惧、喜悦、中性、悲伤和惊讶。

4.2 Baseline Methods

BC-LSTM（Poria et al.，2017）：BC-LSTM通过双向LSTM对会话上下文进行建模，而不区分不同的说话者。

DialogueRNN（Majumder et al.，2019）：对话RNN通过三个不同的GRU对上下文信息和说话者状态进行建模。

DialogueGCN（Ghosal et al.，2019）：DialogueGCN通过使用有向图对对话进行建模来捕捉上下文。

IterativeERC（Lu et al.，2020）：IterativeERC迭代地使用预测的情绪标签而不是黄金情绪标签来对情绪交互进行建模。

QMNN（Li et al.，2021b）：QMNN从一个新颖的量子视角捕捉会话上下文并进行多模式融合。

MMGCN（Hu et al.，2021b）：MMGCN通过利用图卷积网络（GCN）对远程会话上下文进行建模。

MVN（Ma et al.，2022）：MVN从单词和话语两个层面有效地捕捉查询的情绪表征。

UniMSE（Hu et al.，2022）：UniMSE利用情绪之间的相似性和互补性来实现更好的预测。

4.3 Implementation Details

模态设置：我们利用话语的文本、音频和视觉模态对MELD和IEMOCAP进行实验。

超参数设置：

（1）数据集特定设置：由于MELD明显比IEMOCAP更不平衡，因此批量大小在IEMOCAP上设计为64，在MELD上设计为100。

（2）数据集通用设置：训练时期的数量为100，优化器为Adam（Kingma和Ba，2015），β1=0.9，β2=0.99，学习率初始化为0.0001，每10个时期后衰减0.95，L2正则化权重λ为0.00001。为了避免过度拟合，我们使用Dropout（Srivastava et al.，2014）层辍学率为0.1。

（3） MultiEMO中的超参数：MultiAttn中的层数T被调整为6，SWFC损失中的温度参数τ、样本权重参数α和聚焦参数γ分别被设计为0.8、0.8和2，全训练损失函数LTrain中的组合系数µ1和µ2分别被调整为0.4和0.3。

评估指标：我们使用加权平均F1分数（Weighted-F1）进行模型评估。

5 Results and Analysis

5.1 Comparison with Baseline Models

MultiEMO与现有最先进的IEMOCAP和MELD方法之间的比较分别如表1和表2所示。实验结果表明，MultiEMO在两个数据集上都实现了最先进的性能，在所有情绪类别中都优于现有方法，在少数和语义相似的类别中有显著改进。

具体而言，在IEMOCAP上，MultiEMO在少数幸福类中以17.97%的权重-F1超过MVN，在悲伤和沮丧两个相似类中分别实现8.49%和10.54%的相对权重-F1改进；在MELD上，MultiEMO在少数民族情绪恐惧方面获得了153.59%的显著相对改善，并在语义相似的情绪对Anger和Disgust方面分别优于之前的最佳基线11.31%和68.12%。

5.2 Different Modality Settings

表3显示了MultiEMO与IEMOCAP和MELD上不同模态设置的比较。从表3中我们可以看出，话语的文本模态在ERC中起着重要作用，而来自音频和视觉模态的互补线索可以比基于文本的MultiEMO带来相当大的改进。

5.3 Ablation Study

为了研究MultiEMO中不同成分对模型性能的贡献，我们对IEMOCAP和MELD进行了消融研究，结果如表1和表2所示。

VisExtNet的影响：为了研究VisExteNet的影响，我们实现了MultiEMOw/o VisExtNet，其中所提出的VisExtNet被3D-CNN取代。实验结果表明，MultiEMOw/o-VisExtNet在IEMOCAP和MELD上的所有情绪类别中的性能都有所下降，在MELD上下降更为显著，因为MELD中复杂的多方对话使3D-CNN更难准确捕捉视觉线索。MultiEMOw/o-VisExtNet在两个数据集上的较差性能证明了VisExtNet的有效性。

MultiAttn的影响：为了分析MultiAttn的影响，我们实现了MultiEMOw/o MultiAttn，其中我们用特征级联来代替MultiAttn以融合上下文化的多模式特征。如表1和表2所示，MultiEMOw/o MultiAttn在IEMOCAP和MELD的所有情绪类别中的表现都急剧下降，这证明了使用MultiAttn捕捉文本、音频和视觉模态之间的跨模态相关性和依赖性的重要性和优越性。

SWFC损失的影响：为了研究SWFC损失，我们通过从训练损失函数中删除SWFC损失部分来实现另一种变体MultiEMOw/o SWFC损失。实验结果表明，在IEMOCAP和MELD上，MultiEMOw/o SWFC损失的性能都显著下降，少数和语义相似的情绪类别的下降非常显著，而多数类别的下降只是微不足道的。此外，MELD的下降程度更为明显，因为MELD明显比IEMOCAP更不平衡。MultiEMOw/o SWFC损失的结果证明了SWFC损失在减轻少数和语义相似情绪类别分类困难方面的有效性。

5.4 Case Study

A case study is illustrated in Appendix A.1.

6 Conclusion

本文针对ERC任务提出了一种新的基于注意力的相关感知多模态融合框架MultiEMO，

设计了一个视觉特征提取器VisExtNet来准确地捕捉富含情感的视觉线索，

引入了一个多模态融合模型MultiAttn来有效地对跨模态交互和多模态映射关系进行建模。

提出的SWFC损失减轻了对少数和语义相似情绪进行分类的困难。

在IEMOCAP和MELD上进行的大量实验证明了MultiEMO的有效性和优越性。

局限性

尽管我们提出的MultiEMO框架在IEMOCAP和MELD上都取得了最先进的性能，但这项工作仍有一些局限性：

•我们提出的视觉特征提取器VisExtNet无法区分场景中的说话者和无关人员，这在某些场景中可能会出现问题。例如，MELD中的一个场景是自助餐厅，许多背景演员坐在那里喝咖啡。这些背景人物的面部表情对说话者的情绪没有影响，因为他们不参与对话。然而，VisExtNet捕捉到了出现在自助餐厅的每个人的视觉特征，没有任何区别，这可能会导致由于无关人员的面部表情的影响而对说话者的情绪倾向产生错误的理解。本文计划在未来的工作中探索有效的方法来区分场景中的对话者和无关人员。

•SWFC损失中的超参数（温度参数τ、样本权重参数α和聚焦参数γ）对模型性能的影响尚未得到充分研究，我们将在未来的研究中对此进行深入分析。
•由于MELD的类不平衡问题，SWFC损失需要MELD上的大批量，以确保每个训练样本在批量中至少存在一个正对，这可能在计算上是昂贵的。我们将在未来的研究中研究应对这一挑战的有效方法。

•尽管MultiEMO在少数情绪类别中取得了显著的进步，但其在少数情绪方面的表现仍不如大多数类别。如何进一步提高低资源情感课堂的表现将在未来进行探索。伦理声明我们的方法在对少数情绪类别进行分类方面取得的显著改进，可以使MultiEMO成为抑郁症检测等精神病理学领域的有力工具，其中少数情绪悲伤、恐惧和愤怒是抑郁症的重要早期指标（O’Connor et al.，2002）。

附录

MultiEMO的案例研究由于一阶段范式（第3.3.1节）同时执行单模态文本特征提取和文本上下文建模，为了更好地说明上下文建模对情绪分类的作用，在案例研究部分，使用两阶段范式处理所选话语的文本模态（Yang et al.，2021）：使用预训练的RoBERTa进行单模态特征提取，并使用另一个transformer 1进行上下文建模，从而可以结合音频和视觉模态来分析上下文建模对文本模态的影响。

图6描绘了MELD中倾向于错误分类的话语的可视化，其中文本模态“Chandler是一个伟大的名字！”看起来是积极的，而话语的真正内涵实际上意味着愤怒。左侧话语的文本、音频和视觉模态的热图是通过单峰特征提取获得的，从中我们可以看出：（1）文本模态：“伟大”一词在文本中起着重要作用，揭示了强烈的积极情绪；（2）音频模态：音频后半部分的强度越高，表示音调从平坦到尖锐；（3）视觉形态：说话者脸上的皱眉意味着负面情绪。来自不同模态的情绪倾向的异步性使得识别这种话语的实际情绪具有挑战性。然而，通过建模上下文信息并捕捉上下文化的文本、音频和视觉模态之间的复杂跨模态相关性，MultiEMO学习到了该话语的一个高度代表性特征，如图6右侧的热图所示。学习到的多模式融合特征可以很容易地进行分类1如第3.3.1节所述，两阶段范式的MultiEMO的性能仅略高于一阶段范式，这两种方法都可以学习良好的上下文文本表示。因为它通过在上下文化的文本、音频和视觉模式中选择性地关注高度相关的信息来保留有用的情绪线索，同时丢弃不相关的信息。

本作品采用知识共享署名 4.0 国际许可协议进行许可