Les méta-chercheurs créent une IA qui maîtrise la diplomatie, trompant les joueurs humains

Une capture d'écran de Diplomacy fournie par un chercheur du CICERO.
Agrandir / Une capture d’écran d’un jeu en ligne de Diplomatiey compris une boîte de dialogue de discussion en cours d’exécution, fournie par un chercheur de Cicero.

Mardi, Meta AI a annoncé le développement de Cicero, qui, selon elle, est la première IA à atteindre des performances de niveau humain dans le jeu de société stratégique. Diplomatie. C’est une réalisation notable car le jeu nécessite de profondes compétences en négociation interpersonnelle, ce qui implique que Cicéron a obtenu une certaine maîtrise du langage nécessaire pour gagner la partie.

Même avant que Deep Blue ne batte Garry Kasparov aux échecs en 1997, les jeux de société étaient une mesure utile de la réussite de l’IA. En 2015, une autre barrière est tombée lorsque AlphaGo a vaincu le maître de Go Lee Sedol. Ces deux jeux suivent un ensemble relativement clair de règles analytiques (bien que les règles de Go soient généralement simplifiées pour l’IA informatique).

Mais avec Diplomatie, une grande partie du gameplay implique des compétences sociales. Les joueurs doivent faire preuve d’empathie, utiliser un langage naturel et établir des relations pour gagner, une tâche difficile pour un joueur informatique. Dans cet esprit, Meta a demandé : “Pouvons-nous créer des agents plus efficaces et flexibles qui peuvent utiliser le langage pour négocier, persuader et travailler avec les gens pour atteindre des objectifs stratégiques similaires à la façon dont les humains le font ?”

Selon Meta, la réponse est oui. Cicéron a appris ses compétences en jouant à une version en ligne de Diplomatie sur webDiplomacy.net. Au fil du temps, il est devenu un maître du jeu, atteignant “plus du double du score moyen” des joueurs humains et se classant parmi les 10% des personnes ayant joué plus d’un match.

Pour créer Cicero, Meta a rassemblé des modèles d’IA pour le raisonnement stratégique (similaire à AlphaGo) et le traitement du langage naturel (similaire à GPT-3) et les a regroupés en un seul agent. Au cours de chaque partie, Cicéron examine l’état du plateau de jeu et l’historique des conversations et prédit comment les autres joueurs agiront. Il élabore un plan qu’il exécute à travers un modèle de langage qui peut générer un dialogue de type humain, lui permettant de se coordonner avec d’autres joueurs.

Un schéma fonctionnel de Cicero, le bot jouant à la <em>diplomatie</em>, fourni par Meta.” src=”https://cdn.arstechnica.net/wp-content/uploads/2022/11/Visual_UnderTheHood-640×907.jpg” width=”640″ height=”907″ srcset=”https://cdn.arstechnica.net/wp-content/uploads/2022/11/Visual_UnderTheHood-1280×1813.jpg 2x”/><figcaption class=
Agrandir / Un schéma fonctionnel de Cicéron, le Diplomatie-bot de jeu, fourni par Meta.

Méta IA

Meta appelle les compétences en langage naturel de Cicéron un “modèle de dialogue contrôlable”, qui est au cœur de la personnalité de Cicéron. Comme GPT-3, Cicero puise dans un vaste corpus de texte Internet extrait du Web. “Pour construire un modèle de dialogue contrôlable, nous avons commencé avec un modèle de langage de type BART de 2,7 milliards de paramètres pré-formé sur du texte provenant d’Internet et affiné sur plus de 40 000 jeux humains sur webDiplomacy.net”, écrit Meta.

Le modèle résultant maîtrisait les subtilités d’un jeu complexe. “Cicéron peut en déduire, par exemple, que plus tard dans le jeu, il aura besoin du soutien d’un joueur en particulier”, explique Meta, “puis élaborer une stratégie pour gagner la faveur de cette personne et même reconnaître les risques et les opportunités que ce joueur voit. de leur point de vue particulier.”

Les recherches de Meta sur Cicero ont été publiées dans la revue Science sous le titre « Le jeu au niveau humain dans le jeu de la diplomatie en combinant des modèles linguistiques avec un raisonnement stratégique ».

En ce qui concerne les applications plus larges, Meta suggère que sa recherche sur Cicero pourrait “assouplir les barrières de communication” entre les humains et l’IA, comme le maintien d’une conversation à long terme pour enseigner à quelqu’un une nouvelle compétence. Ou cela pourrait alimenter un jeu vidéo où les PNJ peuvent parler comme des humains, comprendre les motivations du joueur et s’adapter en cours de route.

Dans le même temps, cette technologie pourrait être utilisée pour manipuler les humains en se faisant passer pour des personnes et en les trompant de manière potentiellement dangereuse, selon le contexte. Dans ce sens, Meta espère que d’autres chercheurs pourront s’appuyer sur son code “de manière responsable”, et affirme avoir pris des mesures pour détecter et supprimer “les messages toxiques dans ce nouveau domaine”, qui font probablement référence au dialogue que Cicéron a appris des textes Internet. il a ingéré – toujours un risque pour les grands modèles de langage.

Meta a fourni un site détaillé pour expliquer le fonctionnement de Cicero et a également ouvert le code de Cicero sur GitHub. En ligne Diplomatie les fans – et peut-être même le reste d’entre nous – devront peut-être faire attention.