Google: DeepStereo transforme les photos en vidéos fluides

Google a développé un nouvel algorithme prédictif capable de créer des vidéos à partir d'une séquence de photos en recréant les images et perspectives manquantes. Explications.

Deepstereo, c’est le nom de ce nouvel algorithme étonnant. Dans un article, les chercheurs de Google expliquent comment leur algorithme peut créer une nouvelles vue de la façade d’une maison à partir de seulement deux images en entrée, montrant la façade de deux angles différents. Il permet aussi de transformer une série de simples photos en vidéo fluide, comblant les vides entre les photos en recréant les images manquantes.

L’algorithme analyse les pixels des différentes vues d’une scène et produit les pixels de la vue inconnue. « Notre système est en mesure de générer de manière plausible des pixels selon la couleur, la profondeur et les textures précédentes apprises automatiquement à partir des données d’entraînement », expliquent les auteurs. Pour ce faire, il crée un espace en 3D en se servant des images 2D existantes comme plan de référence. Il va ensuite combler les vides en se basant sur les couleurs et les profondeurs des photos d’origine. (DeepStereo peut travailler sur 96 plans de profondeur). Le rendu des objets ou sujets en mouvement est assez bon : il peut reconstituer des voitures, des piétons… Ils apparaissent néanmoins d’une manière floue qui évoque le flou lié au mouvement.

Les données d’entraînement découlent de l’apprentissage automatique de leur algorithme (deep learning). Pour ce faire, les ingénieurs ont nourri le système avec une large quantité de séquences d’images issues de Google Street View. En retirant une image de chacune des séquences, les techniciens ont pu entraîner Deepstereo à la reconstituer à partir de 5 autres images de la séquence. « Globalement, notre modèle produit des résultats convaincants, qui sont difficiles à distinguer immédiatement des images originales. Le modèle peut traiter une variété de surfaces traditionnellement difficiles, y compris les arbres et le verre », se félicitent les ingénieurs de Google. « Les principaux bénéfices de notre approche sont son universalité (nous exigeons seulement des ensembles d’images figées et nous pouvons facilement appliquer notre méthode à des domaines différents), et des résultats de haute qualité sur des scènes traditionnellement difficiles », préviennent-ils. Il est ainsi applicable aux collections d’images d’intérieur ou d’extérieur.

Les limites de l’algorithme Deepstereo

Le système n’est pourtant pas encore parfait. « Les objets visibles dans nos résultats comprennent une légère perte de résolution et la disparition des structures minces au premier plan. En plus, les objets partiellement cachés tendent à apparaître floutés dans l’image de sortie ». Cela provient du fait que DeepStereo ne peut pas traiter plus de cinq images de référence à la fois, limitant la précision et la résolution. Evidemment, le modèle est incapable de reconstituer des surfaces qui n’apparaissent dans aucune des images d’entrée.

Le travail de l’algorithme est extrêmement gourmand en ressources pour assurer sa puissance de calcul. Il faut environ 12 minutes sur une station de travail multicore pour rendre une image de 512 × 512 pixels. Pour le moment, les ressources demandées sont donc trop élevées pour en faire, par exemple, une application pour smartphone accessible à tous. Cependant, le système actuel n’exploite pas le modèle de façon optimale. Grâce à une meilleure implémentation, « ces temps pourraient certainement être réduits à queques minutes ou même quelques secondes », préviennent les ingénieurs. Dans cette optique, on peut imaginer que Google pourrait réfléchir à proposer une application grand public permettant de créer des photos ou vidéos à partir de photos d’archives.

Cet algorithme pourrait également avoir des applications en cinématographie, réalité virtuelle ou pour la stabilisation d’images. On songe aussi à une application évidente pour Google : l’algorithme pourrait permettre de se promener dans Google Street View en vidéo, comme si vous y étiez !