La position actuelle:Accueil du site>[arxiv2022] grouptransnet: Group transformer Network for RGB - D Salient Object Detection
[arxiv2022] grouptransnet: Group transformer Network for RGB - D Salient Object Detection
2022-07-23 08:26:19【Bébé agneau】
paper:https://arxiv.org/abs/2203.10785
Table des matières
3.1 Module de purification modale(MPM)
3.2 Module d'unification des échelles (SUM)
3.3 Beaucoup. Transformer Décodeur (MTE)
3.4 Unités d'intégration groupées (CIU)
Un. Le mobile
The locality of convolutional neural network requires that the model has a sufficiently deep global receptive field, which always leads to the loss of local details.
La localisation des réseaux neuronaux convolutifs exige que le modèle ait un champ global de perception suffisamment profond , Cela entraîne souvent la perte de détails locaux .
2. Méthodes
To address the challenge, we propose a novel Group Transformer Network (GroupTransNet) for RGBD salient object detection.
Pour relever ce défi, L'auteur propose un nouveau réseau ,Group Transformer Network (GroupTransNet).
This method is good at learning the long-range dependencies of cross layer features to promote more perfect feature expression.
Cette méthode est bonne pour apprendre Dépendance à distance des caractéristiques des couches transversales , Pour faciliter une caractérisation plus optimale .
At the beginning, the features of the slightly higher classes of the middle three levels and the latter three levels are soft grouped to absorb the advantages of the high-level features.
Au début., Les caractéristiques de niveau supérieur des troisième et troisième niveaux sont regroupées en douceur , Pour absorber les avantages des caractéristiques avancées .
The input features are repeatedly purified and enhanced by the attention mechanism to purify the cross modal features of color modal and depth modal.
AdoptionMécanisme d'attention Caractéristiques intermodales des modes de couleur purifiée et des modes de profondeur , Les caractéristiques d'entrée sont purifiées et améliorées à plusieurs reprises .
The features of the intermediate process are first fused by the features of different layers, and then processed by several transformers in multiple groups, which not only makes the size of the features of each scale unified and interrelated, but also achieves the effect of sharing the weight of the features within the group.
Les caractéristiques du processus intermédiaire sont d'abord fusionnées par les caractéristiques des différentes couches , Encore quelques - uns des groupes transformerTraitement, Non seulement les dimensions de chaque niveau d'une caractéristique sont unifiées et associées , Et la mise en œuvre sans regroupement , Validité des pondérations de partage des caractéristiques
The output features in different groups complete the clustering staggered by two owing to the level difference, and combine with the low-level features.
Les caractéristiques de sortie des différents groupes sont complétées en deux étapes en raison des différents niveaux Regroupement décalé , Et combiné avec des caractéristiques de bas niveau .
Trois Cadre du réseau
Au total, quatre composantes :Module de purification modale(MPM),Module d'unification des échelles (SUM),Beaucoup.transformerEncodeur (MTE), Unités d'intégration groupées (CIU).Tout au long du processus,CesRGB Caractéristiques de différentes tailles extraites en profondeur f1,f2,f3,f4,f5, Ils sont regroupés en 2Groupe,G1={f2,f3,f4},G2={f3,f4,f4}
Tout d'abord,, Toutes les caractéristiques d'entrée passent par MPM Purification modulaire pour obtenir des caractéristiques multimodales
Deuxièmement,, Envoyer les deux fonctions de regroupement à SUM Le module rend chaque dimension caractéristique uniforme et pertinente
Et voilà., Caractéristiques intermédiaires apprendre l'information publique moyenne de ces groupes ,AdoptionMTE Module pour une représentation plus discriminante des caractéristiques
Enfin,InCIUModule, Relier les caractéristiques de haut niveau aux caractéristiques de bas niveau pour produire des caractéristiques de sortie
Le diagramme de signification final est obtenu par agrégation de ces Les graphiques caractéristiques sont calculés pour
3.1 Module de purification modale(MPM)
InRGB-D Dans le test de signification , Il existe deux formes d'expression de l'information d'image .RGB Mode et mode profondeur ,RGB Le mode fournit des informations sur l'apparence de l'image , L'image de profondeur fournit des informations sur la distance de l'image . Ils fournissent des informations utiles pour la détection de différents modèles .Et pourtant, Les caractéristiques des différents modes sont en partie incompatibles , Ceci est dû aux différences inhérentes aux différents modes . Si nous utilisons simplement ces deux modes , Comme l'épissage direct , Cela provoquera une série de bruits sur les caractéristiques ,MPM Le module a été conçu pour résoudre ce problème .
MPM Le diagramme de 2Comme indiqué,MPM .D'abord la purification des caractéristiques par cascade d'éléments répétitifs , Ensuite, l'amélioration des caractéristiques par le mécanisme d'attention ,Parmi eux, Les mécanismes d'attention se réfèrent à l'attention canalisée et spatiale ,InCBAMIl y a des instructions.
Pour5CouchesRGBCaractéristiquesEt caractéristiques de profondeur,i=1,2,3,4,5. La purification des caractéristiques et l'amélioration des caractéristiques peuvent être purifiées RGB Caractéristiques des modes transversaux des modes et des modes de profondeur , Obtenir les caractéristiques combinées .
Processus de purification Peut être défini comme:
Processus d'amélioration Pour:
3.2 Module d'unification des échelles (SUM)
Dans le réseau, En raison de plusieurs sous - échantillons , Les caractéristiques de chaque échelle ont des résolutions différentes . En plus de ça,, Chaque caractéristique d'échelle contient également des informations sémantiques et détaillées très différentes . D'un côté, Les caractéristiques de différentes tailles ne peuvent pas être traitées de façon adaptative par un module .Deuxièmement,, L'interaction des caractéristiques à toutes les échelles est également très importante du début à la fin .Module d'unification des échelles (SUM) Pour résoudre ces problèmes .
Avant ça,Après fusion5 Les caractéristiques hiérarchiques passent d'abord par la couche de transition T Unifier tous les canaux en 64Accès,T Contient un 3×3 La couche de convolution et un ReLU Activer la fonction.
Envoyer les caractéristiques du troisième étage à SUMH , Le troisième étage central est livré à SUMM, Ils ont tous deux échantillonné des couches supérieures et inférieures à l'échelle de la couche moyenne. , Puis une série d'opérations d'épissage symétriques .La procédure est la suivante:
!!!Note:: Ici, je trouve cette formule un peu problématique ,Dans la formule8,En ce momentfm La caractéristique est déjà une formule 7 Après l'épissage …… Il semble y avoir un problème avec ce qui suit ( Peut - être que l'auteur a écrit un peu vite ^_^)
3.3 Beaucoup. Transformer Décodeur (MTE)
Après l'unification des canaux et l'unification de l'échelle à l'intérieur des deux groupes ,64x16x16,64x32x32, Les caractéristiques des deux groupes générés sont envoyées à ce module .transformer Ce morceau n'est pas très clair , Pas d'étude pour le moment …………Ce qui signifie probablementtransformer Ce truc est bon , Les caractéristiques de l'apprentissage sont également plus discriminantes .
3.4 Unités d'intégration groupées (CIU)
Va passertransformer Les caractéristiques des deux groupes de 3Catégorie,C'est - à - dire: C1 = {h’f5,m’f4}, C2 = {h’f4,m‘f3} Et C3 = {h‘f3,m’f2}.
Dans la première catégorie C1Moyenne,h‘f5 Contient des informations équivalentes sur les caractéristiques des couches 4 et 5 ,Etm’f4 Contient des informations équivalentes sur les caractéristiques des couches 2 et 4 et plus .Donc,, Il est riche d'informations du niveau 2 au niveau 5 , Cette propriété s'applique aux caractéristiques non destructives biaisées .De même,, Dans la catégorie 2 C2Moyenne,h'f4 Contient des informations équivalentes sur les caractéristiques des couches 5 et 4 ,Etm'f3 Contient des informations équivalentes sur les caractéristiques des deuxième et troisième niveaux . En même temps, Dans la catégorie 3 C3Moyenne,h'f3 Contient des informations équivalentes sur les caractéristiques des couches 3 et 5 et plus 4 ,m'f2 Contient des informations équivalentes sur les caractéristiques des couches 2 et 3 . Donc,, Ils satisfont également aux mêmes propriétés que la première catégorie .
( Pourquoi ce passage dit - il ça ?? ?Pas très compréhensif,Ça pourrait êtreSUMEtTransformerLe rôle deba)
Ces trois classes se concentrent sur l'information caractéristique en plus de la première couche ,L'accent est différent, Ils doivent donc être séparés des caractéristiques qui contiennent la première couche d'information. ft1Ensemble. Le processus d'intégration de toutes les caractéristiques à combiner peut être défini comme suit: :
CIU L'effet est de relier en série les caractéristiques des différentes couches , Identifier les caractéristiques de la couche , C'est une cascade , Intégrer les caractéristiques du regroupement dans un ordre de haut en bas , D'abord, les caractéristiques de haut niveau sont échantillonnées , Il est ensuite attelé à une caractéristique de niveau inférieur .
3.5 Fonction de perte
3 Surveillance de la sortie latérale , Entropie croisée binaire pondérée (wBCE) Combinaison croisée des pertes et des pondérations (wIoU) Pertes.【weighted Binary Cross Entropy (wBCE) loss and weighted Intersection over Union (wIoU) loss. 】
Performance
Résumé
Le processus général est : Caractéristiques d'extraction du réseau de base , Fusion intermodale , Harmonisation des canaux ,Unité d'échelle,Je l'envoie.transformer Dans cette bonne chose , Enfin, les caractéristiques inutilisées de la couche 1 sont introduites dans les caractéristiques de la couche moyenne et de la couche supérieure pour décoder. .
Mentions de copyright
Auteur de cet article [Bébé agneau],Réimpression s’il vous plaît apporter le lien vers l’original, merci
https://fra.chowdera.com/2022/204/202207222254578260.html
Recommandé par sidebar
- Comment le détournement de DNS peut - il être parfaitement réparé? Comment résoudre le problème du détournement de DNS
- Flask Cross - Domain
- Mise en œuvre de la pile de chaînes (langage c)
- Lire attentivement le document DETR et analyser la structure du modèle
- [FPGA]: IP Core - - DDR3
- L'applet Wechat ne peut pas lire la propriété 'setdata' de NULL Error
- Buctf passing Diary - - [Netting Cup 2020 Qinglong Group] areuserialz
- Notes d'apprentissage du système intégré
- Cartesi mars 2022 Review
- Double pointeur quotidien leetcode - 7
Devinez que vous aimez
Ji Yuan Community ai Weekly # 90: Ma Yi pense que l'intelligence ne peut pas dépendre d'une grande puissance de calcul; Hugging face blog pour découvrir les détails de la formation bloom; Annonce du prix ICML pour la meilleure thèse
Typescript
Outils open source Introduction aux outils SAP ui5
Guide du tutoriel Lark
Sécurité du réseau - pénétration à l'aide d'une vulnérabilité de sécurité d'accès physique Evil Maid
Sécurité du réseau - pénétration et renforcement à l'aide d'une vulnérabilité locale Ubuntu
Rédaction de la classe d'outils jwt
Boom 3D Serial Number Licensing superbes Sound Enhancement and player Tools
Day1 Running SUMM of 1D Array / find pivot index / queue with two Stacks
Introduction de l'API commune de programmation de socket et mise en œuvre de socket, select, Poll et epoll
Recommandé au hasard
- Approfondir la file d'attente des conteneurs
- Méthode de rappel d'initialisation pour Bean et méthode de rappel pour libérer les ressources
- Enregistrer les données crawler dans la base de données MySQL
- Distribution des données via SQL
- Comment renouveler automatiquement les serrures distribuées redis (solution classique)
- Hongke Dynamics | cippe2022 est sur le point de se tenir, l'inscription est en cours
- Classe interne anonyme de kotlin (objet: XXXX)
- Interview raid: 6 grandes différences entre truncate, delete et Drop
- Ubuntu installe docker et les commandes de base de docker installent MySQL
- Leetcode - - Stack and queue articles
- Déploiement du cluster etcd
- Dix problèmes dans la famille de protocoles TCP / IP
- 【 stm32 learning】 (21) stm32 Implementing Stepper Motor
- Dessiner le tableau [grafana] avec les variables des critères de requête
- Reconnaître les interfaces
- LabVIEW: créer un VI
- Cadre de développement de l'interface devextreme Gantt Control - Exporter PDF, trier les tâches
- Exportation et importation de bases de données et de tableaux de données en ligne de commande MySQL
- Easyeeagle, une plate - forme intelligente d'exploitation et de maintenance avec plusieurs plateformes de base de données massives
- Vous souvenez - vous de offsetwidth, clientwidth, width, scrollwidth, clientx, screenx, offsetx, pagex dans JS?
- 【 Azure Event center】 Azure Event hub New Function attempt - GEO Disaster Recovery
- Quels sont les facteurs qui influent sur la prestation continue?
- 【 Tutoriel de démarrage rapide 7】 utilisation et introduction de l'ordinateur hôte de la station au sol de l'UAV en formation de coquille folle · Open Source
- Détails de la configuration redis
- Docker installe MySQL, redis
- Le circuit de limitation d'amplitude et le circuit de serrage utilisent la conductivité unidirectionnelle de la diode
- [carte des connaissances] cql et py2neo notes d'apprentissage
- C apprentissage des langues
- Application combinée de la ligne de transfert de colonne et de l'ensemble de données dans le scénario d'affaires
- Configuration SSL MySQL 5.6 / 5.7
- [apprentissage profond] fonction de perte (erreur absolue moyenne, erreur carrée moyenne, perte de lissage, entropie croisée, entropie croisée pondérée, perte de dé, focalloss)
- Optimisation de précision * stratégie d'optimisation 1: Réseau + optimiseur Sam
- Détails du Protocole Axi
- JS - - date Object & Ternary expression
- Leetcode - 494. Objectifs et
- L'interface utilisateur 3D ou le modèle dans l'unit é fait toujours face à la caméra et tourne avec l'angle de vue de la caméra 丨 l'angle de vue suit 丨 l'angle de vue fixe
- Discussion préliminaire sur JVM
- Déploiement de l'environnement appium pour les tests mobiles [à poursuivre]
- À propos du montage de fond, de la gestion des processus
- Lire la lecture efficace - l'auto - investissement le plus rentable