En ce moment

Compression vidéo : un réseau de neurones challenge la méthode classique


“On peut prédire que d’ici quelques années, les codeurs neuronaux seront capables de dépasser les normes vidéo les plus récentes.”


Le codeur neuronal bientôt au même niveau de performance que les normes d’encodage vidéo traditionnelles ? C’est la voie ouverte par Orange au challenge CLIC, défi de compression vidéo organisé dans le cadre de la “Conference on Computer Vision and Pattern Recognition” - un rendez-vous organisé chaque année par l’Institute of Electrical and Electronic Engineers (IEEE), dont l’édition 2021 s’est tenue en ligne fin juin.

Pour comparer les innovations de la communauté scientifique sur la base de critères communs, les règles du challenge de compression étaient précisément cadrées : une centaine de vidéos de quelques secondes, un débit de 1 Mb/s, un rendu de la meilleure qualité possible. Treize candidats ont mis leur codeur à l’épreuve, avec des acteurs issus du monde industriel et d’universités du monde entier et une équipe d’Orange. Cette dernière a remporté le défi global avec un codeur traditionnel, utilisant une optimisation de la toute dernière norme vidéo MPEG (H.266/VVC). Elle retient aussi l’attention avec une autre contribution : fondé exclusivement sur une approche neuronale, le codeur de Théo Ladune, en 3e année de doctorat chez Orange, a terminé premier sur les cinq codeurs neuronaux en lice, avec un score très proche de normes d’encodage récentes (H.265/HEVC).

Petite leçon de compression vidéo

Une vidéo, c’est une succession d’images qui se ressemblent beaucoup. Prenons l’exemple d’un match de foot : entre deux séquences, le terrain et le stade restent les mêmes, le public bouge un tout petit peu, et la vraie différence se fait dans le mouvement des joueurs et du ballon. Partant de ce constat, la compression vidéo se fait en deux étapes : une étape de prédiction, qui part d’une première image, et une étape de correction, où l’on transmet simplement la soustraction entre l’image de départ et sa prédiction. En se concentrant sur les petits changements d’une séquence à l’autre, on réduit la quantité de données. Dans l’encodage vidéo traditionnel, on détermine élément par élément la manière de bien restituer un signal vidéo. C’est cette manière de faire qui est décrite par les normes vidéo actuellement les plus courantes, comme MPEG.

Laisser la complexité aux machines

Découper le problème en sous-problèmes était la manière la plus simple de procéder, jusqu’à l’apparition des réseaux de neurones artificiels. Le principe de base reste le même : on apprend à un premier réseau de neurones à prédire l’image suivante, et à un second à identifier les erreurs de la prédiction et à envoyer sa correction sous une forme la plus compacte possible. La différence ? Peu importe que la manière de réaliser l’encodage soit complexe ou non, puisque c’est le réseau de neurones qui se charge de l’élaborer. Il suffit de lui signifier que l’on veut obtenir la meilleure image pour un débit de 1Mb/s, et il s’efforcera d’apprendre à le faire.

Faire confiance au réseau neuronal

Théo Ladune détaille ses choix techniques : “Quand j’ai conçu mon codeur, je me suis efforcé de lui mettre le moins de verrous possible. Pour un chercheur, la tentation est forte, même quand il travaille avec un réseau de neurones, d’orienter son architecture vers la méthode traditionnelle de la soustraction image – prédiction. Après tout, c’est une méthode qui a fait ces preuves. Mais j’ai décidé de donner au réseau l’image et sa prédiction non mélangées, et de laisser l’algorithme faire par lui-même pour développer sa propre méthode de compression. J’ai aussi choisi de lui faire apprendre des bouts de séquence, donc des groupes de plusieurs images, là où d’autres candidats ont préféré nourrir leur réseau image après image. Mon pari, c’était de faire confiance au réseau neuronal, de lui construire des architectures pour l’aider à apprendre, tout en lui laissant un maximum de liberté.”

La norme neuronale, c’est pour demain ?

Les standards vidéo existent depuis le début des années 1990, et suivent un cycle décennal. Les industriels du secteur veulent atteindre l’interopérabilité, qui garantit la chaîne technique depuis le diffuseur de contenu jusqu’au téléviseur de l’usager, en passant par le réseau sur lequel transitent les données. À chaque nouvelle norme ses nouveaux contenus (HD, 4K, et ainsi de suite), et ses nouvelles contraintes. Quelle place pour le codeur neuronal dans ce paradigme ? Comme l’explique Pierrick Philippe, encadrant de Théo Ladune chez Orange : “Il faut prendre conscience qu’avant 2017, un réseau de neurones n’était pas encore capable de faire de la compression d’image fixe. C’est un domaine très jeune ! Aujourd’hui, le codeur vidéo de Théo performe un petit peu en dessous de la norme MPEG HEVC publiée en 2013. À cette vitesse, on peut prédire que d’ici quelques années, les codeurs neuronaux seront capables de dépasser les normes les plus récentes. On est à une croisée des chemins et une chose est sûre, tous les acteurs s’intéressent au sujet. La prochaine norme sera-t-elle traditionnelle, neuronale, mixte ? Impossible de le dire aujourd’hui, et c’est pour ça que des travaux comme ceux de Théo marquent les esprits. ”

Mots-clés :

, , ,