Logo ETI Quitter la lecture facile

Interview

Deepfake : peut-on s’en prémunir?

Posté le par Frédéric Monflier dans Informatique et Numérique

Grâce à la puissance croissante des IA « apprenantes », les deepfakes gagnent en sophistication, obligeant les chercheurs à perfectionner leurs outils de détection. Vincent Claveau, chercheur à l’Irisa, explique les derniers développements en la matière.

Discours trafiqués, images ou vidéos truquées… Les deepfakes se propagent à toute vitesse sur les réseaux sociaux. Cette technique basée sur l’intelligence artificielle consiste à superposer des vidéos l’une sur l’autre, et permet notamment de remplacer les visages et réaliser ainsi des trucages. Parfois pour une noble cause – la fausse vidéo de Trump réalisée par Solidarité sida – ou pour faire sourire, plus souvent pour diffuser des informations erronées, discréditer telle personnalité ou manipuler l’opinion… La tendance ne devrait pas ralentir à l’approche des élections présidentielles américaines, en novembre prochain. Ce n’est pas un hasard si les plateformes de réseaux sociaux, de plus en plus pointées du doigt, ont présenté ces derniers mois leurs armes anti-deepfake : Facebook, en décembre dernier, avec son concours pour la mise au point de technologies de détection ; et Twitter, dont le label applicable aux médias « trompeurs » a été annoncé en février… Vincent Claveau, chercheur CNRS à l’Irisa (Institut de recherche en informatique et systèmes aléatoires) décrit la technologie au cœur du phénomène deepfake et les moyens possibles pour l’endiguer. Et la solution n’a pas forcément un caractère technique…

Techniques de l’Ingénieur : Plusieurs variantes composent la famille du deepfake. Quelles sont-elles ?

Vincent Claveau : Le lip-syncing, tout d’abord, consiste à synchroniser le mouvement des lèvres avec le discours d’une autre personne. L’attaque est pernicieuse, car seule une petite partie de la vidéo d’origine est modifiée. La deuxième technique revient à appliquer les expressions du visage d’un acteur, le marionnettiste, sur le visage de la cible, la marionnette. Le visage et les mouvements de la tête dans leur ensemble sont alors changés. Troisième type, qui s’éloigne un peu du deepfake : la production d’images entièrement artificielles, des visages inédits notamment.

Comment un deepfake est-il élaboré ?

« Deep » provient de deep learning, une méthode d’intelligence artificielle basée sur l’apprentissage : nourrie par des exemples, la machine apprend automatiquement à exécuter une tâche. Dans le cas typique du lip-syncing, l’IA s’entraîne, en traitant des discours audios, à faire bouger des lèvres de manière réaliste. Puis on demande à cette IA entraînée de réaliser ce travail en partant d’une nouvelle bande audio dont les images n’existent pas, lesquelles seront alors créées. Cette méthode demande beaucoup de données d’entraînement, c’est à dire de véritables vidéos où sont prononcés de vrais discours accompagnés des mouvements de lèvres correspondants. Le principe est analogue pour la technique de la marionnette, toute une palette d’expressions faciales constituant la base de départ.

Le développement des deepfakes suggère-t-il que la technologie s’est démocratisée ?

Les briques technologiques nécessaires ne sont plus aussi coûteuses, en effet, et sont à la disposition de tout le monde, que ce soit les frameworks [des boîtes à outils pour l’apprentissage des IA, ndlr], ou la vision par ordinateur, le détourage des lèvres ayant précédé de loin l’avènement du deep learning. En plus, ces briques sont parfois packagées au sein d’un même logiciel, par exemple une application de « face swapping » disponible sur smartphone. En soi, la production de fausses vidéos n’est pas nouvelle, les effets spéciaux dans le cinéma en sont l’illustration. La différence, c’est qu’aujourd’hui, un non-spécialiste, sans la moindre compétence de graphiste, est capable d’utiliser un tel logiciel.

Les méthodes de détection mises en place par les plateformes de réseaux sociaux vous semblent-elles fiables ?

Difficile pour nous, scientifiques, de nous prononcer sur leur qualité, car nous ne savons pas ce que Facebook, Twitter et les autres mettent en œuvre. S’il s’agit de décrire les techniques se développant en laboratoire, certaines exploitent également le deep learning et décèlent des incohérences dans l’image, parfois visibles à l’œil nu sur les premiers deepfakes : intérieur de la bouche inexistant, oreilles ou boucles d’oreille anormales… Sauf que le jeu du chat et de la souris s’instaure : les générateurs suivants de deepfakes intègrent ces techniques de détection pour gommer leurs défauts. Les détecteurs conçus il y a trois ou quatre ans sont donc obsolètes. C’est la raison pour laquelle des chercheurs refusent de communiquer leur façon de faire, de peur que ces connaissances soient assimilées par les prochains générateurs de deepfakes. D’autres détecteurs, plus pointus, vont analyser la concordance entre la rougeur du visage et l’afflux sanguin. On peut aussi chercher les traces laissées par les composants qui ont servi à capturer l’image (image forensics en anglais, ndlr). La vidéo officielle de Donald Trump, filmée par une caméra de NBC, doit comporter la signature correspondante. Hélas, les compressions/décompressions multiples de la vidéo peuvent atténuer ces indices. A priori, Twitter s’est orienté vers le « patch checking », pour analyser le cheminement de la vidéo et remonter jusqu’à la source, considérée plus ou moins suspecte. C’est un travail que seuls les concepteurs de ces réseaux sociaux peuvent accomplir. Nous n’en avons pas les moyens.

Pour une personne non-initiée, existe-t-il des astuces pour repérer un deepfake ?

Des logiciels, tels que des plug-ins pour les navigateurs web, sont conçus pour détecter la manipulation d’images et les photomontages, bien qu’ils soient plutôt destinés au traitement des fake news. En vérité, il faut admettre que nous sommes entrés dans une ère où l’on ne peut plus croire la preuve vidéo. C’est un changement de paradigme car maintenant, n’importe qui peut truquer une vidéo. La démarche la plus sûre se résume à la vérification des sources. Qui envoie cette vidéo, puis-je lui faire confiance… ? Ce sont les questions indispensables à se poser.

Propos recueillis par Frédéric Monflier

Pour aller plus loin

Posté le par Frédéric Monflier


Réagissez à cet article

Commentaire sans connexion

Pour déposer un commentaire en mode invité (sans créer de compte ou sans vous connecter), c’est ici.

Captcha

Connectez-vous

Vous avez déjà un compte ? Connectez-vous et retrouvez plus tard tous vos commentaires dans votre espace personnel.

INSCRIVEZ-VOUS
AUX NEWSLETTERS GRATUITES !