La colorisation des films est peut-être une forme d’art, mais c’est une forme à laquelle les modèles d’IA commencent à s’habituer lentement. Dans un article publié sur le serveur de prépresse Arxiv.org ( » Deep Exemplar-based Video Colorization « ), des scientifiques de Microsoft Research Asia, de la division AI Perception and Mixed Reality de Microsoft, de l’université Hamad Bin Khalifa et de l’Institute for Creative Technologies de l’USC expliquent en détail ce qui, à leurs yeux, est le premier système pour une colorisation vidéo autonome (c’est-à-dire dérivé d’une image de référence) basée sur le plan des examens. Ils disent que dans les expériences quantitatives et qualitatives, il atteint des résultats supérieurs à l’état de l’art.

« Le principal défi est d’atteindre une cohérence temporelle tout en restant fidèle au style de référence « , écrivent les co-auteurs. « Tous les composants [du modèle], appris de bout en bout, aident à produire des vidéos réalistes avec une bonne stabilité temporelle.« 

Les auteurs de l’article notent que cette capacité de convertir des clips monochromes en couleurs n’est pas nouvelle. En effet, les chercheurs de Nvidia en septembre dernier ont décrit un cadre qui déduit les couleurs d’une seule image vidéo colorisée et annotée, et Google AI a introduit en juin un algorithme qui colorise les vidéos en niveaux de gris sans supervision humaine manuelle. Mais la sortie de ces modèles et de la plupart des autres modèles contient des artefacts et des erreurs qui s’accumulent si la vidéo est longue.

Pour remédier à ces lacunes, les chercheurs utilise le résultat d’une image vidéo précédente en entrée (pour préserver la cohérence) et effectue la colorisation à l’aide d’une image de référence, permettant à cette image de guider la colorisation image par image et de réduire l’erreur d’accumulation. (Si la référence est une image colorisée dans la vidéo, elle aura la même fonction que la plupart des autres méthodes de propagation des couleurs, mais d’une manière plus « robuste »). Par conséquent, il est capable de prédire les couleurs « naturelles » à partir de la sémantique des images en niveaux de gris d’entrée, même lorsqu’aucune correspondance appropriée n’est disponible dans une image de référence donnée ou une image précédente.

Cela a nécessité l’architecture d’un réseau convolutionnel de bout en bout – un type de système d’IA couramment utilisé pour analyser l’imagerie visuelle – avec une structure récurrente qui conserve l’information historique. Chaque état comprend deux modules : un modèle de correspondance qui aligne l’image de référence sur une trame d’entrée basée sur des correspondances sémantiques denses, et un modèle de colorisation qui colore une trame guidée à la fois par le résultat colorisé de la trame précédente et la référence alignée.

L’équipe a compilé un ensemble de données à partir du corpus Videvo, qui contient principalement des animaux et des paysages. Ils l’ont complété par des vidéos de portraits provenant d’un corpus distinct (Hollywood 2) et ont filtré les vidéos trop sombres ou dont la couleur était trop pâle, laissant 768 vidéos au total. Et pour chaque vidéo, ils ont extrait 25 images et élargi la catégorie de données avec des photos d’ImageNet, qu’ils ont utilisées pour appliquer des distorsions géométriques aléatoires et des bruits de luminance pour générer des images. Le résultat final : 70 000 vidéos colorisées dans « diverses catégories ».

Dans les tests, les co-auteurs ont indiqué que leur système donnait la meilleure précision de classe Top-5 et Top-1 d’ImageNet, ce qui suggère qu’il produisait des résultats sémantiquement significatifs. De plus, il a obtenu le score le plus bas de la distance de démarrage de Frechet (FID) par rapport aux benchmarks, ce qui indique que son résultat était « très » réaliste.

« Dans l’ensemble, les résultats de notre méthode, même s’ils sont un peu moins éclatants, présentent des couleurs similaires à celles de la vérité de terrain. La comparaison qualitative indique également que notre méthode produit les résultats de colorisation les plus réalistes et les plus éclatants« , ont écrit les chercheurs. « Notre méthode présente des couleurs vives dans chaque image avec beaucoup moins d’artefacts que les autres méthodes. Pendant ce temps, les images colorisés successivement montrent une bonne cohérence temporelle. »