Microsoft travaille sur une IA qui transforme des photos en vidéos de "visages qui parlent"

Des chercheurs de Microsoft ont mis au point une technologie d’intelligence artificielle (IA) qui permettra de transformer une photo de visage et un échantillon de voix en une vidéo ultra réaliste d’un « visage en train de parler », selon un document publié par le géant informatique cette semaine.

« L’objectif n’est pas de créer un contenu destiné à induire en erreur ou à tromper », précise l’entreprise, mais elle reconnaît qu’à l’instar « d’autres techniques de génération de contenu, elle pourrait être utilisée à mauvais escient pour usurper l’identité d’un être humain ».

L’essor rapide de l’IA générative, qui permet de produire facilement toutes sortes de contenus (textes, images, sons…) de qualité bluffante, suscite en effet de nombreuses inquiétudes, notamment en termes d’exploitation à des fins de fraude et de désinformation.

« Notre recherche se concentre sur (…) des avatars virtuels, en vue d’applications positives », assure Microsoft. « Nous sommes opposés à tout comportement visant à créer des contenus trompeurs ou dommageables de personnes réelles ».

La firme informatique, principal investisseur d’OpenAI (ChatGPT), ne prévoit donc pas de rendre le nouvel outil disponible ou de donner des informations techniques « tant que nous ne sommes pas certains que la technologie sera utilisée de manière responsable et conformément aux réglementations en vigueur ».

Baptisé VASA-1, le programme informatique prend une simple photo de portrait et un fichier audio et les convertit en une vidéo où le visage s’anime et parle de façon hyperréaliste.

Sur les exemples mis en ligne – des aperçus réalisés à partir d’images de personnages virtuels – le mouvement des lèvres est synchronisé, les traits du visage convaincants et les mouvements de la tête, un peu saccadés mais quand même impressionnants.

D’autres entreprises travaillent sur cette technologie, comme Runway, une des spécialistes de l’IA générative pour la vidéo. Des chercheurs de Google ont aussi créé un modèle d’IA, Vlogger, qui peut générer des vidéos réalistes de têtes parlantes.

Selon Microsoft, les avantages à développer cette technologie « tels que le renforcement de l’équité en matière d’éducation, l’amélioration de l’accessibilité pour les personnes ayant des difficultés de communication, le soutien thérapeutique aux personnes qui en ont besoin, entre autres » justifient de mener ces recherches.

De nombreuses autorités réfléchissent à encadrer l’IA générative. L’Union européenne s’est entendue en décembre sur une législation inédite pour réguler l’IA, cherchant à favoriser l’innovation tout en limitant les possibles dérives.

juj/ktr