当前位置:网站首页>Lancement du modèle NLP "megatron Turing" de 530 milliards de dollars, formé par 4480 A100, produit conjointement par Microsoft NVIDIA

Lancement du modèle NLP "megatron Turing" de 530 milliards de dollars, formé par 4480 A100, produit conjointement par Microsoft NVIDIA

2021-10-14 07:12:08 Qbital

Hiroshi. De Temple d'avo
Bit quantique Couverture | Numéro public QbitAI

5300Milliards de paramètres!La plus grande échelle au mondeNLPLa naissance du modèle.

ParMicrosoft a uni ses forces avec NVIDIALancement,Nom:Megatron-TuringModèle de génération de langage naturel(Megatron Turing-NLG).

18f5b895042e39758714f457fc14ab8e.png

D'après eux,Une telle échelle ne fait pas seulement de lui le plus grand,C'est aussi le plus performantNLPModèle.

Le processus d'entraînement a été utilisé4480Un morceau de NVIDIAA100 GPU,Enfin, le modèle est intégré dans une série de tâches en langage naturel——Y compris les prévisions textuelles、Compréhension de la lecture、Raisonnement de bon sens、Raisonnement en langage naturel、Désambiguation sémantique——Avec une précision sans précédent.

Trois fois plus grand queGPT-3

Ce modèle est abrégé enMT-NLG,C'est Microsoft.Turing NLGEt NVIDIAMegatron-LMLes deux“Le successeur”.

Turing NLGPar Microsoft sur2020Année2Lancement en mai,Le paramètre est170100 millions;Megatron-LMDe NVIDIA,2019Année8Lancement en mai,Paramètres83100 millions.

Ils étaient les premiers à l'époque、Ii) À grande échelleTransfomerModèle architectural.

Nous savons tous que les modèles linguistiques à grande échelle paramétrique sont plus efficaces , Mais c'est aussi difficile à former. ,Par exemple,:

  • Même la capacité maximale GPU, Il n'y a pas de paramètres de cette taille ;

  • Sans une attention particulière aux algorithmes d'optimisation 、Piles de logiciels et de matériel, Le grand nombre d'opérations de calcul nécessaires peut entraîner une formation trop longue .

Ce paramètre est déjà GPT-3 Triple MT-NLG Et comment ça s'est passé ?

La réponse estAbsorption“Deux.”Directeur, La fusion des plus modernes GPU Matériel d'entraînement accéléré , Et le système d'apprentissage distribué le plus avancé de Microsoft , Pour accélérer l'entraînement .

b110b6603821e262da6cd10d225fc1fc.png

Et avec des centaines de milliards token Construire un corpus , Développer conjointement des méthodes de formation pour optimiser l'efficacité et la stabilité .

Plus précisément,, En s'inspirant de NVIDIA Megatron-LMLe modèleGPUTraitement parallèle, Et le cadre de formation distribué de Microsoft open source DeepSpeed,Création3DSystèmes parallèles.

Pour cet article 5300 Un modèle avec des milliards de paramètres , Chaque copie du modèle couvre 280- Oui.NVIDIA A100 GPU, Adopté dans le noeud Megatron-LMDe8 Section du tenseur (tensor-slicing),Adopté entre les noeuds35 Pipeline parallèle (pipeline parallelism).

Ensuite, utilisez - le.DeepSpeed Le parallélisme des données s'est étendu à des milliers de GPU.

Enfin, sur la baseNVIDIA DGX SuperPODDeSelene Formation de précision hybride sur superordinateur .

(Le superordinateur est construit par560- Oui.DGX A100Prise en charge par le serveur,ChaqueDGX A100Oui.8- Oui. NVIDIA A100 80GB Tensor Core GPU,AdoptionNVLink Et NVSwitch Complètement connecté les uns aux autres ).

Le modèle utiliseTransformer L'architecture du décodeur ,Nombre de couches、hidden dimensionEtattention headRespectivement: 105、20480Et128.

L'ensemble de données utilisé pour la formation se compose de près de 20 Ensemble de données en texte simple pour 10 000 livres Books3、 Site de questions et réponses Stack Exchange、Wikipedia、 Site Web des ressources académiques PubMed Abstracts、ArXiv、Wikipedia、GitHubAttendez un peu!, Elles ont été construites à partir de Pile Sous - ensemble de haute qualité sélectionné dans l'ensemble de données .

Finalement, il y a eu une extraction totale 2700100 millionstoken.

8e5624ab93d414aa986000c3654ba97b.png

Tests de précision sur cinq missions principales

Les développeurs sont ici 5 C'est une grande mission MT-NLG Des tests de précision ont été effectués .

  • Dans la tâche de prévision de texteLAMBADAMoyenne, Le modèle doit prévoir le dernier mot d'un paragraphe donné .

  • Lire la tâche de compréhensionRACE-hEtBoolQMoyenne, Le modèle doit générer des réponses aux questions à partir d'un paragraphe donné .

  • Dans la tâche de raisonnement de bon sens PiQA、HellaSwagEtWinograndeMoyenne, Chaque tâche exige un certain niveau de connaissance générale du modèle .

  • Pour le raisonnement en langage naturel, Deux repères durs ,ANLI-R2EtHANS Exemples typiques d'échecs mettant à l'épreuve les modèles précédents .

  • Tâche de désambiguation sémantique WiC Le modèle est nécessaire pour comprendre les mots polysémiques du contexte .

Résultats le modèle est PiQAEnsemble de développement etLAMBADA Zéro échantillon sur l'ensemble d'essai 、 Les résultats les plus élevés ont été obtenus dans les trois configurations d'un seul échantillon et d'un petit échantillon .

Le meilleur dans toutes les autres tâches .

ea34c2a1bfbfc5cb037124eb910ba6e7.png

Outre les indicateurs agrégés qui rendent compte des tâches d'étalonnage , Ils ont également effectué une analyse qualitative des résultats du modèle ,Et a observé,Même si les symboles sont très confus,Le modèle peut également déduire des opérations mathématiques de base du contexte.

b1d4d95fa8e8428f2debe480bf59cc0a.png

Bien sûr., Le modèle extrait également des données des stéréotypes et des préjugés . Microsoft et NVIDIA disent qu'ils s'attaquent également à ce problème .

En plus, Ils représentent l'utilisation de MT-NLG Doit suivre Microsoft “ResponsableAIPrincipes” Pour réduire l'impact négatif du contenu de sortie , Mais le modèle n'est pas encore rendu public .

Liens de référence:

https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/

版权声明
本文为[Qbital]所创,转载请带上原文链接,感谢
https://chowdera.com/2021/10/20211013211437551j.html

随机推荐