当前位置:网站首页>En renforçant l'apprentissage et la théorie du jeu, l'IA d'essai développée par ea est devenue fine.

En renforçant l'apprentissage et la théorie du jeu, l'IA d'essai développée par ea est devenue fine.

2021-10-14 06:55:50 Qbital

Minmin De Temple d'avo
Bit quantique Couverture | Numéro public QbitAI

Les petits sautent sans cesse sur des plateformes générées en temps réel、Enfin à la fin……

Tu penses que c'est comme Wechat“Saute!”Un petit jeu?

7331ea9870f2073f14fa24fecd7f4b3d.gif

Mais sa véritable identité,En fait, c'est une grande usine de jeuxEA(American Arts & Electricity Corporation)Les tests de jeu les plus récentsAI.

Et les gens ordinaires ne jouent qu'à des jeuxAIC'est différent.,Cette foisEALe nouveau modèle proposé n'a pas seulement pour but de permettre aux petites personnes de sauter avec succès jusqu'au point final,Et construire votre propre plateforme en temps réel“Difficile”Moi - même..

Pourquoi ce design“L'amour et la mort”Et la relation??

Parce que,Beaucoup de tests de jeu précédentsAISouvent, les cartes d'entraînementAjustement excessif,Il en résulte une piètre performance lors de la mise à l'essai de nouvelles cartes.

Par conséquent,,Sur la base d'un apprentissage intensif,EALes chercheurs ont étéGANInspiré par,Cette nouvelle approche est proposéeARLPCG (Adversarial Reinforcement Learning for Procedural Content Generation).

Pour l'instant,Les documents relatifs à cette méthode ont étéIEEE Conference on Games 2021Réception.

L'ajustement a été résolu par la théorie du jeu

En fait...,Prends ça.AI En utilisant des tests de jeu , Ce n'est plus nouveau. .

Beaucoup de tests de jeu précédents AIC'est tout.Apprentissage intensif.

Il se caractérise par une action basée sur l'environnement , Sur la base des récompenses ou pénalités reçues de l'environnement ( Comme obtenir des points 、 Saignement, etc )Continuer à apprendre, Pour élaborer une stratégie d'action optimale .

Mais les chercheurs ont découvert que , L'apprentissage intensif est mauvais pour la généralisation de scénarios fixes ,Ça arrive souvent.Ajustement excessifPhénomène.

Comme dans le même scénario , Avec seulement une formation intensive , Le petit homme rencontre un chemin étrange ,Ça arrive.“ Suicide collectif ”Événements:

09da48057b196890910b0326dae45d02.gif

C'est pour tester où la carte du jeu a mal tourné , C'est vraiment très mauvais .

À cette fin,,EA Les chercheurs de GAN Pour concevoir des modèles ,JeanAI L'intérieur s'affronte 、Optimisation.

Plus précisément,, L'approche qu'ils proposent ARLPCG Il se compose principalement de deux agents d'apprentissage intensif .

Le premier agent Générateur (Generator) Responsable de la production de cartes de jeu ,Il a utiliséGénération de contenu de programme(Procedural Content Generation), Il s'agit d'une technologie qui peut générer automatiquement des cartes de jeu ou d'autres éléments .

Le deuxième agent est Solveur  (Solver), Il est chargé de compléter les niveaux créés par le générateur .

Parmi eux, Le solveur reçoit une certaine récompense après avoir terminé le niveau ; Quand le constructeur produit des cartes difficiles et passables , Il y aura aussi des récompenses .

Pendant la formation, La rétroaction mutuelle entre les deux agents , Pour que les deux parties obtiennent des récompenses .

Le générateur final apprendra à créer une variété de cartes , Les solveurs peuvent également devenir plus polyvalents lors de la mise à l'essai de diverses cartes .

5e91cbe23e3493057fcc4c32de6828fc.png

En même temps,, Pour pouvoir ajuster la difficulté du niveau , Les chercheurs ont également introduit Entrée auxiliaire  (Auxiliary input).

En redimensionnant cette valeur , Ils peuvent contrôler le taux de réussite du jeu .

Par exemple,, Régler l'entrée auxiliaire du générateur à 1Heure, La plateforme qu'il génère sera plus grande 、 Plus près l'un de l'autre , Les petits sauts sont moins difficiles .

39de6d83204f9d61bb56716144a5c25d.gif

Lorsque l'entrée auxiliaire est -1Heure, La plate - forme résultante devient plus petite 、 L'espacement s'ouvre aussi , Il y a moins de gens qui peuvent passer .

2d45f2842fdcd9ef9e0442844eb0d38a.gif

Les résultats montrent, L'entrée auxiliaire dans le générateur provient de 1Baisse-1En cours, Taux de réussite de 97%Réduit à69%.

ca1d6271626d00309fd2b6a53d8da2cf.png

En outre, Le taux de passage peut également être contrôlé en ajustant la valeur d'entrée auxiliaire du solveur .

Sur un chemin fixe 、 Chemin de génération de règles et chemin de génération de confrontation dans plusieurs cas , Le taux de passage diminue avec la diminution des entrées auxiliaires .

Parmi eux, Contre le taux de passage du chemin de génération amélioré Nettement plus élevé que Les deux autres .

103ad45bce4682b313e1b7657e192fcd.png

En outre, Parce qu'il a la capacité de généraliser un environnement inconnu ,C'estAI Une fois formé, il peut être utilisé pour Test en temps réel .

Il peut construire un parcours raisonnable dans un segment inconnu , Et peut renvoyer l'emplacement des obstacles ou d'autres problèmes dans le chemin .

94aa33488a13e6c93cc6de2216e13507.gif

En outre,C'estAI Peut également être utilisé dans différents environnements de jeu ,Dans cet article,EA Il montre également comment il se comporte dans un environnement de jeu de course .

add42ef5ac16eb69ee0d8e63927028b0.gif

Dans ce scénario, Le générateur peut créer différentes longueurs 、Pente、 Les virages , Le solveur devient un chariot qui roule dessus .

Si vous ajoutez des projections de rayons au générateur , Peut également naviguer dans l'environnement existant .

Dans ce cas,, Nous avons vu le générateur créer des pistes de faible difficulté entre différents obstacles , Pour que le chariot atteigne la ligne d'arrivée ( Les boules violettes sur la photo ).

f86884cce57013a0be9e1a46713315d9.gif

Pour tester de grands jeux ouverts

Une thèseLinus GisslénReprésentation, Les Jeux du monde ouvert et les jeux de service en temps réel sont la tendance actuelle , Quand beaucoup d'éléments modifiables sont introduits dans le jeu , Ça va arriver bug Et ça augmente .

Donc les tests de jeu deviennent très importants .

Il existe actuellement deux méthodes d'essai couramment utilisées :L'un est d'utiliser Test d'automatisation des scripts ,L'autre estEssais manuels.

Le script teste rapidement , Mais le traitement des problèmes complexes n'est pas efficace ; Les tests manuels sont exactement le contraire , Bien que vous puissiez trouver beaucoup de problèmes complexes ,Mais c'est inefficace..

EtAI .Juste assez pour combiner les avantages des deux méthodes .

608761f6bdfc7fc5ced48f426e563785.png

En fait,EA La nouvelle approche proposée cette fois est très légère , Le générateur et le solveur n'utilisent que deux couches avec 512 Un réseau neuronal d'unités .

Linus GisslénExplication, Cela s'explique par le fait que le fait d'avoir plusieurs compétences entraîne des coûts de formation très élevés pour le modèle , Ils font donc de leur mieux pour que chaque agent entraîné n'ait qu'une seule compétence .

Ils espèrent qu'après ça AI De nouvelles compétences peuvent être acquises en permanence , .Libérer les testeurs artificiels des tests ordinaires ennuyeux .

En outreEAReprésentation,QuandAI、 Au fur et à mesure que l'apprentissage automatique devient la technologie dominante utilisée dans l'ensemble de l'industrie du jeu ,EA Il y aura aussi une préparation adéquate .

Liens vers les articles:
https://arxiv.org/abs/2103.04847

Liens de référence:
[1]https://venturebeat.com/2021/10/07/reinforcement-learning-improves-game-testing-ai-team-finds/
[2]https://www.youtube.com/watch?v=z7q2PtVsT0I

版权声明
本文为[Qbital]所创,转载请带上原文链接,感谢
https://chowdera.com/2021/10/20211013211437614M.html

随机推荐