Après avoir découvert qu'il y avait une ouverture surprise dans mon emploi du temps au Game Developers Conference 2024, j'ai jeté un œil à l'un des écrans numériques présentant les événements de la journée. Une conférence dans le Sommet sur l'Apprentissage Automatique a attiré mon attention : "Sommet sur l'Apprentissage Automatique : Synthèse de la Parole Fictionnelle pour Éviter les Risques dans les Contenus Génératifs".
"Synthèse de la Parole Fictionnelle ?" C'était intéressant. Tout fan de fantasy qui se respecte sait combien de travail a été investi dans des langues fictives comme l'elfique dans Le Seigneur des Anneaux et le Klingon dans Star Trek. C'est un projet passionné qui contribue à une grande construction de monde. Square Enix espérait-il utiliser la technologie pour employer efficacement cette technique linguistique dans ses nombreux jeux de fantasy ?
La réponse : c'est incertain. Le chercheur en IA Yusuke Mori n'a pas indiqué si ses recherches étaient utilisées dans une production de jeu active. La conférence était plus proche d'une présentation académique qui explorait la recherche et les méthodologies possibles pour utiliser la technologie, et non du développement actif.
Pourtant, capturer un morceau de son travail était intrigant. Ce qu'il a présenté ne semblait pas immédiatement utile pour quelqu'un souhaitant s'attaquer à Game of Thrones, mais cela ressemblait à une version plus raffinée du Simlish dans la franchise Les Sims ou des babillements des personnages dans la série Animal Crossing.
Connexe : Le SAG-AFTRA déclare que les termes de l'accord controversé sur la voix de l'IA influeront sur les futures négociations
Voici un bref résumé de ce que Mori a présenté.
L'outil d'IA de Square Enix prend en charge la génération de langage dynamique et statique
Mori a présenté une paire de démonstrations expliquant comment la technologie pourrait être utilisée dans des environnements numériques. La première montrait comment l'outil pouvait être utilisé pour traduire la première phrase de Moby Dick d'Herman Melville, la seconde montrait comment les joueurs pourraient rencontrer ces langues dans un espace 3D.
Dans la première, les mots "Appelez-moi Ishmael. Il y a quelques années, peu importe exactement combien de temps – n'importe combien de temps précisément – n'ayant que peu ou pas d'argent dans ma bourse, et rien en particulier pour m'intéresser à terre, je pensais que je ferais un petit tour en mer et verrais la partie aqueuse du monde" ont été prononcés à haute voix par l'outil de synthèse de texte en parole, mais le seul mot que vous pouviez distinguer était "Ishmael". Mori a invité l'audience à imaginer ce que Moby Dick sonnerait comme dans un monde fantasy, lu à voix haute par une personne parlant une langue non terrestre. Les noms propres seraient préservés, tandis que chaque autre mot s'harmoniserait naturellement avec le monde du jeu.
Il a montré trois itérations du texte fantasy, chacune affinant davantage les mots dans une syntaxe spécifique, pour s'assurer qu'ils ne semblaient pas "aléatoires".
Dans la démo suivante (rendue avec des actifs 3D très simples), un joueur approchait un personnage non joueur qui disait "Bienvenue dans le nouveau monde. Nous prévoyons maintenant de construire notre ville ici." Ensuite, ils approchaient deux autres PNJ, qui parlaient dans la même langue dans une conversation en va-et-vient (Mori n'a pas pu partager précisément ce qui était dit).
L'explication suivante de Mori était légèrement confuse. Il a laissé entendre que si les mots apparaissaient dans un schéma cohérent, les joueurs pourraient déduire leur signification et finalement traduire tout le langage du jeu. Il a plutôt proposé que les mots soient tellement aléatoires qu'il n'y ait "aucune bonne réponse", de sorte que l'interprétation de chaque joueur du texte serait valide.
Grâce à la technologie, les développeurs pourraient écrire du texte dans leur langue maternelle qui serait automatiquement converti en langue fantasy.
En réalité, ce n'est pas tout à fait exact. Mori a expliqué que certaines langues étaient plus faciles à incorporer dans ce système que d'autres. "Il est relativement facile de convertir des textes japonais car le texte comprend des kanji, des hiragana et des katakana", a-t-il déclaré. "Il y avait un problème avec les langues écrites dans un alphabet [occidental]," a-t-il dit.
Il semblait que le texte écrit en anglais fonctionnait bien, mais que le texte français et allemand ne s'harmonisait pas aussi bien avec le système. À l'oreille non formée, il n'était pas facile de distinguer quels étaient les problèmes décrits par Mori.
Mori a proposé une solution simple : il suffit de copier la langue d'une langue réelle à l'autre, puis de l'entrer dans l'outil.
Il était difficile d'expliquer comment l'outil fonctionnait, car il était basé sur les recherches antérieures de Mori sur les "tokens" dans la génération de texte basée sur l'apprentissage automatique.
Quels sont les risques de cette technologie ?
Mori a été très catégorique sur le fait de discuter des inconvénients liés à l'utilisation de cette technologie. "Les textes génériques peuvent contenir du contenu préjudiciable," a-t-il reconnu. Il n'a pas précisé si cela se référait à des messages haineux qui pourraient surgir de la bouche des PNJ, ou si la technologie pouvait cracher accidentellement des insultes si suffisamment de temps et de variables incontrôlées étaient données.
Il semblait préoccupé par le fait que bien que les langues fictives puissent être cohérentes, elles ne captureraient pas le système grammatical de l'évolution des langues naturelles. L'histoire d'une langue et le contexte culturel du monde ne pourraient pas être générés avec la même authenticité que de vraies langues.
Il y a aussi une possibilité que, alors que les joueurs essaient de déchiffrer la signification du langage, ils l'interprètent mal au point de faire des hypothèses incorrectes sur ce que les développeurs avaient l'intention dans le jeu.
"Comment l'utiliser est très important," a-t-il souligné.
Cette technologie de langage fictif généré par IA est-elle fiable ?
En décrivant la technologie avec d'autres participants autour du GDC, j'étais régulièrement confronté à des grognements concernant son application. L'un de mes pairs a fait remarquer que le processus élimine ce qui rend des langues comme l'elfique et le klingon si hypnotiques : les deux ont été créés par des experts linguistiques capables de simuler certaines des caractéristiques que la création de Mori manque.
Il y a un autre élément inconfortable qui témoigne de la lutte des acteurs de la voix pour se protéger contre d'être remplacés par des performances vocales générées artificiellement.
La présentation de Mori ne portait pas seulement sur la conversion du texte d'une langue parlée en une langue fictive, il s'agissait d'assembler des outils qui permettraient à un programme de synthèse de parole de créer des mots et des règles de prononciation à la volée.
Mais interpréter comment Square Enix utiliserait cette technologie exige un peu d'autocritique. Il s'agit fondamentalement d'un outil de traduction artificielle, et la traduction du japonais vers l'anglais a peut-être influencé la façon dont les participants du GDC ont perçu le discours de Mori. L'anglais n'est pas sa langue maternelle, et la subtilité quant à l'utilisation de la technologie a peut-être été perdue... eh bien, dans la traduction.
Les développeurs d'apprentissage automatique, les ingénieurs du son, et même des écrivains comme moi-même ont quelque chose à gagner en étudiant les progrès de Square Enix avec cette technologie. Si la génération procédurale ne peut pas surmonter les risques décrits par Mori, peut-être qu'une approche humaine traditionnelle de la génération de langage fictif permettra de créer une bien meilleure expérience.
Le développeur de jeux et le Game Developers Conference sont des organisations sœurs sous Informa Tech.