La position actuelle:Accueil du site>2019 Bar _ Aaai ICCN
2019 Bar _ Aaai ICCN
2022-07-23 06:09:28【Cityd】
Learning Relationships between Text, Audio, and Video via Deep Canonical Correlation for Multimodal Language Analysis
Adresse de la thèse:https://arxiv.org/abs/1911.05544
Modèle proposé par le texte-Réseaux de corrélation typiques interactifs(ICCN),Le modèle utilise le produit extérieur de la paire de caractéristiques et l'analyse de corrélation canonique de la profondeur(DCCA)Pour générer des caractéristiques d'intégration multimodales utiles.
Les caractéristiques textuelles sont généralement meilleures que les caractéristiques non textuelles dans les tâches d'analyse émotionnelle ou de reconnaissance émotionnelle.,Il y a plusieurs raisons:
Le texte lui - même contient plus d'informations émotionnelles.
L'information visuelle ou auditive peut parfois confondre les tâches d'analyse émotionnelle.Par exemple,“La colère”Et“Excitation”Il peut y avoir une représentation sonore similaire(Volume élevé et tonalité élevée),Bien qu'ils appartiennent à des émotions opposées.La même chose.,“Triste”Et“Dégoût”Peut avoir des caractéristiques visuelles différentes,Bien qu'ils soient tous négatifs.
Les algorithmes d'analyse de texte ont une histoire plus riche,Et bien étudié.
Sur la base de cette observation,La relation cachée entre l'apprentissage de l'information linguistique et non linguistique est un point clé de l'analyse multimodale des langues..Pour ce faire, on peut étudier différentes façons de combiner les caractéristiques multimodales..
Joindre les caractéristiques audio et vidéo au même message texte en même temps , Permet une meilleure compréhension de l'information non textuelle ,À l'envers., L'information non textuelle peut aussi donner plus de sens à l'information textuelle . Il est donc raisonnable d'étudier la corrélation profonde entre les caractéristiques audio textuelles et les caractéristiques vidéo textuelles . Où l'audio textuel et la vidéo textuelle sont respectivement le produit externe du texte et de l'audio et le produit externe du texte et de la vidéo .
Pour une meilleure association entre la vidéo textuelle et l'audio textuel , Utiliser une analyse de corrélation typique (CCA).Et pourtantCCA Ne peut apprendre que les changements linéaires , Et l'analyse de corrélation canonique de la profondeur (DCCA) Utiliser un réseau neuronal profond pour permettre CCA Traiter les relations non linéaires .Sur cette base,Utilisé dans cet articleDCCA Associer l'audio textuel à la vidéo textuelle .
Dans le modèle présenté ici,,DCCAPar deuxCNNEtCCAComposition des couches,Parmi euxCCA La couche se compose de deux projections et d'une CCA Composition de la fonction de perte . Les caractéristiques audio et vidéo textuelles passent par CNN Entrée après traitement CCACouche,CNN Et le poids projeté passe CCA Optimisation de la fonction de perte .Par la formation,Deux.CNN Pour extraire des caractéristiques utiles de la matrice du produit extérieur .
Enfin,Deux.CNN La projection de la sortie est liée à l'insertion de mots dans la phrase texte originale , Comme intégration multimodale finale , Peut être utilisé pour des tâches en aval telles que l'analyse émotionnelle .
Voici commentCCAEtDCCA, Ensuite, nous présenterons ce qui est proposé dans cet article. ICCNModèle
1、Analyse de corrélation typiqueCCA& Analyse de corrélation canonique en profondeur DCCA
CCA .Est une méthode Statistique multivariée qui utilise la corrélation entre les paires de variables combinées pour refléter la corrélation globale entre deux ensembles d'indicateurs .CCA Utilisé pour trouver un sous - espace linéaire avec une corrélation maximale entre deux entrées .
Compte tenu de deux ensembles de vecteurs X ∈ R n 1 × m X\in R^{n_1\times m} X∈Rn1×mEt Y ∈ R n 2 × m Y\in R^{n_2\times m} Y∈Rn2×m,Parmi eux m m m Représente le nombre de vecteurs ,CAA Apprendre deux transformations linéaires A ∈ R n 1 × r A\in R^{n_1\times r} A∈Rn1×rEt B ∈ R n 2 × r B\in R^{n_2 \times r} B∈Rn2×r,De faire A T X A^TX ATXEt B T Y B^TY BTY La plus grande pertinence .Oui. X X XEt Y Y Y La covariance de S 11 S_{11} S11Et S 22 S_{22} S22, X X XEt Y Y Y La covariance croisée de S 12 S_{12} S12.CCAL'objectif de:
A ∗ , B ∗ = arg max A , B c o r r ( A T X , B T Y ) = arg max A , B A T S 12 B A T S 11 A B T S 22 B A^*,B^*=\mathop{\arg\max}\limits_{A,B}\;corr(A^TX,B^TY)\\=\mathop{\arg\max}\limits_{A,B}\;\frac{A^TS_{12}B}{\sqrt{A^TS_{11}A}\sqrt{B^TS_{22}B}} A∗,B∗=A,Bargmaxcorr(ATX,BTY)=A,BargmaxATS11ABTS22BATS12B
La solution de l'équation ci - dessus est fixe , Peut être résolu de plusieurs façons . Une façon est de laisser U , S , V T U,S,V^T U,S,VT Devenir une matrice Z = S 11 − 1 2 S 12 S 22 − 1 2 Z=S_{11}^{-\frac{1}{2}}S_{12}S_{22}^{-\frac{1}{2}} Z=S11−21S12S22−21Décomposition de la valeur singulière de(SVD).Alors, A ∗ , B ∗ A^*,B^* A∗,B∗ La corrélation typique maximale avec le total est :
A ∗ = S 11 − 1 2 U B ∗ = S 22 − 1 2 V c o r r ( A ∗ T X , B ∗ T Y ) = t r a c e ( Z T Z ) 1 2 A^*=S_{11}^{-\frac{1}{2}}U\\B^*=S_{22}^{-\frac{1}{2}}V\\ corr(A^{*T}X,B^{*T}Y)=trace(Z^TZ)^{\frac{1}{2}} A∗=S11−21UB∗=S22−21Vcorr(A∗TX,B∗TY)=trace(ZTZ)21
CCA Une des limites est qu'il ne tient compte que des transformations linéaires .DCCA Apprentissage de la transformation non linéaire à l'aide d'une paire de réseaux neuronaux .Jean f , g f,g f,g Représente deux réseaux neuronaux indépendants ,DCCA L'objectif est d'optimiser f , g f,g f,gParamètres pour θ f , θ g \theta_f,\theta_g θf,θg,Faire f f fEt g g g Corrélation typique entre les résultats ,Exprimé en F X = f ( X ; θ 1 ) F_X=f(X;\theta_1) FX=f(X;θ1)Et F Y = g ( Y ; θ 2 ) F_Y=g(Y;\theta_2) FY=g(Y;θ2), Vous pouvez trouver deux transformations linéaires C ∗ , D ∗ C^*,D^* C∗,D∗ Maximiser .DCCALe but de:
θ f ∗ , θ g ∗ = arg max θ f , θ g C C A ( F X , F Y ) = arg max θ f , θ g c o r r ( C ∗ T F X , D ∗ T F Y ) \theta_f^*,\theta_g^*=\mathop{\arg\max}\limits_{\theta_f,\theta_g}\;CCA(F_X,F_Y)\\=\mathop{\arg\max}\limits_{\theta_f,\theta_g}\;corr(C^{*T}F_X,D^{*T}F_Y) θf∗,θg∗=θf,θgargmaxCCA(FX,FY)=θf,θgargmaxcorr(C∗TFX,D∗TFY)
Pour la mise à jour f , g f,g f,gParamètres pour, Les pertes typiques associées à la mesure doivent être calculées et rétropropagées .Mise en place R 11 , R 22 R_{11},R_{22} R11,R22Pour F X , F Y F_X,F_Y FX,FYCovariance of, F X , F Y F_X,F_Y FX,FY La covariance croisée de R 12 R_{12} R12.Mise en place E = R 11 − 1 2 R 12 R 22 − 1 2 E=R_{11}^{-\frac{1}{2}}R_{12}R_{22}^{-\frac{1}{2}} E=R11−21R12R22−21.Mise à jour F X , F Y F_X,F_Y FX,FY Les pertes associées typiques peuvent être définies comme suit: :
C C A L o s s = − t r a c e ( E T E ) 1 2 CCA\;Loss=-trace(E^TE)^{\frac{1}{2}} CCALoss=−trace(ETE)21
Réseau f ( X ; θ f ) , g ( Y ; θ g ) f(X;\theta_f),g(Y;\theta_g) f(X;θf),g(Y;θg) Les paramètres de CCA Perte à mettre à jour ( C'est - à - dire maximiser la corrélation générale typique ).
2、Réseaux de corrélation typiques interactifsInteraction Canonical Correlation Network(ICCN)
L'image ci - dessus estICCNStructure globale du modèle, Le processus de rectification du modèle est décrit ci - dessous. .
Mise en place H t ∈ R d t H_t\in R^{d_t} Ht∈Rdt Intégration de caractéristiques textuelles au niveau du corpus (UtiliserBERTEtInferSentObtenir), H v ∈ R d v × l v , H a ∈ R d a × l a H_v\in R^{d_v \times l_v},H_a \in R^{d_a \times l_a} Hv∈Rdv×lv,Ha∈Rda×la Pour les séquences d'entrée audio et vidéo (UtiliserCOVAREPEtFacet).
Un réseau neuronal convolutif unidimensionnel est utilisé pour extraire la structure locale des séquences audio et vidéo , La sortie du réseau neuronal de convolution unidimensionnelle est exprimée comme suit: H a 1 ∈ R d a 1 × l a , H v 1 ∈ R d v 1 × l v H_{a1}\in R^{d_{a1}\times l_a},H_{v1}\in R^{d_{v1}\times l_v} Ha1∈Rda1×la,Hv1∈Rdv1×lv.
Ensuite, la sortie du réseau neuronal convolutif unidimensionnel est transmise LSTM Pour le traitement des séquences audio et vidéo ,ChaqueLSTM L'état caché final de est utilisé comme caractéristique audio et vidéo au niveau du corpus ,Exprimé en H a 2 ∈ R d a 2 , H v 2 ∈ R d v 2 H_{a2}\in R^{d_{a2}},H_{v2}\in R^{d_{v2}} Ha2∈Rda2,Hv2∈Rdv2.
Après avoir obtenu les caractéristiques de chaque niveau modal de corpus , Une matrice de caractéristiques audio textuelles et une matrice de caractéristiques vidéo textuelles sont disponibles pour H t , H v 2 , H a 2 H_t,H_{v2},H_{a2} Ht,Hv2,Ha2 Le produit extérieur de :
H t a = H t ⊗ H a 2 , H t a ∈ R d t × d a 2 H t v = H t ⊗ H v 2 , H t v ∈ R d t × d v 2 H_{ta}=H_t \otimes H_{a2},H_{ta}\in R^{d_t \times d_{a2}}\\H_{tv}=H_t\otimes H_{v2},H_{tv}\in R^{d_t \times d_{v2}} Hta=Ht⊗Ha2,Hta∈Rdt×da2Htv=Ht⊗Hv2,Htv∈Rdt×dv2
De la matrice du produit extérieur H t a , H t v H_{ta},H_{tv} Hta,Htv Extraire des caractéristiques utiles , Utilisation du réseau neuronal convolutif comme extracteur de caractéristiques , Matrice de convolution externe comme entrée dans le réseau neuronal de convolution bidimensionnelle pour extraire les caractéristiques , La matrice de produit externe est remodelée en vecteur unidimensionnel par le réseau neuronal de convolution .Et passerCCA Perte de calcul de la couche , Sa fonction de perte est une perte dépendante typique telle que définie ci - dessus :
C C A L o s s = − t r a c e ( E T E ) 1 2 CCA\;Loss=-trace(E^TE)^{\frac{1}{2}} CCALoss=−trace(ETE)21
1D-CNN、LSTMEt2D-CNN Poids réutilisé CCA Perte de Rétropropagation mise à jour .Deux.2D-CNNsApprendre de H t v H_{tv} HtvEt H t a H_{ta} HtaCaractéristiques extraites, Afin de maximiser leur corrélation typique . Voici l'ensemble du réseau interactif typique (ICCN)Le pseudo - Code de.
ICCN La méthode est un extracteur de fonctionnalités . Pour tester ses performances , Un classificateur supplémentaire en aval est également nécessaire . Texte obtenu 、 Caractéristiques monomodales de la vidéo et de l'audio ,Ça marche.ICCN Pour apprendre les caractéristiques audio textuelles K t a K_{ta} Kta Et des fonctionnalités vidéo textuelles K t v K_{tv} Ktv. Intégration multimodale finale en audio textuel 、 Concaténation du texte original et des caractéristiques vidéo basées sur le texte ,Exprimé en [ K t a ; H t ; k t v ] [K_{ta};H_t;k_{tv}] [Kta;Ht;ktv]. [ K t a ; H t ; K t v ] [K_{ta};H_t;K_{tv}] [Kta;Ht;Ktv] Peut être utilisé comme entrée dans un classificateur en aval , Comme la régression logique ou le perceptron multicouche , Pour compléter la tâche de l'analyse multimodale des émotions .
L'expérience
InCMU-MOSIEtCMU-MOSEILes résultats de(Analyse émotionnelle):
InIEMOCAPLes résultats de(Reconnaissance émotionnelle):
Mentions de copyright
Auteur de cet article [Cityd],Réimpression s’il vous plaît apporter le lien vers l’original, merci
https://fra.chowdera.com/2022/204/202207221757347404.html
Recommandé par sidebar
- Comment le détournement de DNS peut - il être parfaitement réparé? Comment résoudre le problème du détournement de DNS
- Flask Cross - Domain
- Mise en œuvre de la pile de chaînes (langage c)
- Lire attentivement le document DETR et analyser la structure du modèle
- [FPGA]: IP Core - - DDR3
- L'applet Wechat ne peut pas lire la propriété 'setdata' de NULL Error
- Buctf passing Diary - - [Netting Cup 2020 Qinglong Group] areuserialz
- Notes d'apprentissage du système intégré
- Cartesi mars 2022 Review
- Double pointeur quotidien leetcode - 7
Devinez que vous aimez
Ji Yuan Community ai Weekly # 90: Ma Yi pense que l'intelligence ne peut pas dépendre d'une grande puissance de calcul; Hugging face blog pour découvrir les détails de la formation bloom; Annonce du prix ICML pour la meilleure thèse
Typescript
Outils open source Introduction aux outils SAP ui5
Guide du tutoriel Lark
Sécurité du réseau - pénétration à l'aide d'une vulnérabilité de sécurité d'accès physique Evil Maid
Sécurité du réseau - pénétration et renforcement à l'aide d'une vulnérabilité locale Ubuntu
Rédaction de la classe d'outils jwt
Boom 3D Serial Number Licensing superbes Sound Enhancement and player Tools
Day1 Running SUMM of 1D Array / find pivot index / queue with two Stacks
Introduction de l'API commune de programmation de socket et mise en œuvre de socket, select, Poll et epoll
Recommandé au hasard
- Approfondir la file d'attente des conteneurs
- Méthode de rappel d'initialisation pour Bean et méthode de rappel pour libérer les ressources
- Enregistrer les données crawler dans la base de données MySQL
- Distribution des données via SQL
- Comment renouveler automatiquement les serrures distribuées redis (solution classique)
- Hongke Dynamics | cippe2022 est sur le point de se tenir, l'inscription est en cours
- Classe interne anonyme de kotlin (objet: XXXX)
- Interview raid: 6 grandes différences entre truncate, delete et Drop
- Ubuntu installe docker et les commandes de base de docker installent MySQL
- Leetcode - - Stack and queue articles
- Déploiement du cluster etcd
- Dix problèmes dans la famille de protocoles TCP / IP
- 【 stm32 learning】 (21) stm32 Implementing Stepper Motor
- Dessiner le tableau [grafana] avec les variables des critères de requête
- Reconnaître les interfaces
- LabVIEW: créer un VI
- Cadre de développement de l'interface devextreme Gantt Control - Exporter PDF, trier les tâches
- Exportation et importation de bases de données et de tableaux de données en ligne de commande MySQL
- Easyeeagle, une plate - forme intelligente d'exploitation et de maintenance avec plusieurs plateformes de base de données massives
- Vous souvenez - vous de offsetwidth, clientwidth, width, scrollwidth, clientx, screenx, offsetx, pagex dans JS?
- 【 Azure Event center】 Azure Event hub New Function attempt - GEO Disaster Recovery
- Quels sont les facteurs qui influent sur la prestation continue?
- 【 Tutoriel de démarrage rapide 7】 utilisation et introduction de l'ordinateur hôte de la station au sol de l'UAV en formation de coquille folle · Open Source
- Détails de la configuration redis
- Docker installe MySQL, redis
- Le circuit de limitation d'amplitude et le circuit de serrage utilisent la conductivité unidirectionnelle de la diode
- [carte des connaissances] cql et py2neo notes d'apprentissage
- C apprentissage des langues
- Application combinée de la ligne de transfert de colonne et de l'ensemble de données dans le scénario d'affaires
- Configuration SSL MySQL 5.6 / 5.7
- [apprentissage profond] fonction de perte (erreur absolue moyenne, erreur carrée moyenne, perte de lissage, entropie croisée, entropie croisée pondérée, perte de dé, focalloss)
- Optimisation de précision * stratégie d'optimisation 1: Réseau + optimiseur Sam
- Détails du Protocole Axi
- JS - - date Object & Ternary expression
- Leetcode - 494. Objectifs et
- L'interface utilisateur 3D ou le modèle dans l'unit é fait toujours face à la caméra et tourne avec l'angle de vue de la caméra 丨 l'angle de vue suit 丨 l'angle de vue fixe
- Discussion préliminaire sur JVM
- Déploiement de l'environnement appium pour les tests mobiles [à poursuivre]
- À propos du montage de fond, de la gestion des processus
- Lire la lecture efficace - l'auto - investissement le plus rentable