Donner vie à des portraits grâce à l'intelligence artificielle

Donner vie à des portraits grâce à l’intelligence artificielle

Des chercheurs du laboratoire d'intelligence artificielle de Samsung à Moscou ont montré qu'il était possible d'animer un portrait en 3D avec peu d'images de référence.

L’année dernière, en avril, une vidéo de Barack Obama avait fait le tour du web : l’homme politique y prononçait des propos qu’il n’avait jamais tenus en réalité. Un « fake » bien réalisé – même si en regardant précisément on peut y percevoir la tromperie – en utilisant de l’intelligence artificielle. Plus récemment, en février 2019, des ingénieurs de Nvidia publiait sur Arxiv leur système permettant de créer de nouveaux visages humains, en se basant sur des visages réels, grâce à l’intelligence artificielle .

En mai, des chercheurs en intelligence artificielle russes, rattachés au Samsung AI Center et à l’Institut de science et technologie de Skolkovo, sont allés plus loin en développant un système basé sur des algorithmes d’apprentissage non supervisé capable de transformer une simple photo d’individu (réel ou artistique) en animation réaliste à partir d’une seule image. Selon les chercheurs, le résultat est acceptable à partir d’une seule référence mais gagne en réalisme en augmentant le nombre, l’idéal étant de 32 images. Les travaux ont été publiés sur Arxiv.

Pour parvenir à ce résultat, trois réseaux de neurones ont été pré-entraînés avec un grand nombre de séquences vidéo de différentes personnes pour en extraire les points de repères du visage, des yeux, nez, etc. (formes du visage, nez, yeux). Une fois entraîné, le système est capable de transposer ses connaissances sur une photo inconnue.

Pour illustrer le propos, voici ci-dessous un exemple donné par les chercheurs russes sur les possibilités offertes par le système avec deux images source différentes : un footballeur et un personnage de peinture. La « source » est la photo que l’on souhaite animer, la « target » est la séquence vidéo, les « landmarks » sont les points de repères extraits de la séquence vidéo et le « result » est l’apposition des vecteurs sur l’image source.

Les deux exemples montrent qu’il est possible d’animer une photo ou une peinture soit à partir de séquence vidéo du même individu (pour le footballeur), soit à partir d’une séquence d’un inconnu (pour la peinture).

A travers une vidéo, les chercheurs du laboratoire de Samsung exposent différentes applications, comme le bon fonctionnement du framework à partir de 16 selfies, de photos de personnalités ainsi que des personnages peints. Pour cette dernière catégorie, l’équipe prend l’exemple de Mona Lisa afin d’illustrer les capacités de leur intelligence artificielle : à partir de trois séquences vidéo de différentes personnes, il est possible d’offrir à Mona Lisa trois personnalités bien distinctes.

Pour le moment, les chercheurs ont travaillé uniquement sur le visage avec un niveau de réalisme intéressant. D’autres travaux sont en cours sur le corps entier.

Au-delà de la prouesse technique, et lorsque celle-ci aura atteint un niveau de réalisme bien plus important, la technologie questionne sur son utilisation finale. Certes les chercheurs mettent en avant la possibilité de réaliser des avatars réalistes (Facebook a dévoilé son IA récemment) mais l’idée de manipulation de la réalité à des fins peu scrupuleuses, plus communément appelés « Deepfakes », est également possible.

Pour aller plus loin