Compression vidéo : un réseau de neurones challenge la méthode classique

Le codeur neuronal bientôt au même niveau de performance que les normes d’encodage vidéo traditionnelles ? C’est la voie ouverte par Orange au challenge CLIC, défi de compression vidéo organisé dans le cadre de la “Conference on Computer Vision and Pattern Recognition” - un rendez-vous organisé chaque année par l’Institute of Electrical and Electronic Engineers (IEEE), dont l’édition 2021 s’est tenue en ligne fin juin.

“On peut prédire que d’ici quelques années, les codeurs neuronaux seront capables de dépasser les normes vidéo les plus récentes.”

Pour comparer les innovations de la communauté scientifique sur la base de critères communs, les règles du challenge de compression étaient précisément cadrées : une centaine de vidéos de quelques secondes, un débit de 1 Mb/s, un rendu de la meilleure qualité possible. Treize candidats ont mis leur codeur à l’épreuve, avec des acteurs issus du monde industriel et d’universités du monde entier et une équipe d’Orange. Cette dernière a remporté le défi global avec un codeur traditionnel, utilisant une optimisation de la toute dernière norme vidéo MPEG (H.266/VVC). Elle retient aussi l’attention avec une autre contribution : fondé exclusivement sur une approche neuronale, le codeur de Théo Ladune, en 3e année de doctorat chez Orange, a terminé premier sur les cinq codeurs neuronaux en lice, avec un score très proche de normes d’encodage récentes (H.265/HEVC).

Petite leçon de compression vidéo

Une vidéo, c’est une succession d’images qui se ressemblent beaucoup. Prenons l’exemple d’un match de foot : entre deux séquences, le terrain et le stade restent les mêmes, le public bouge un tout petit peu, et la vraie différence se fait dans le mouvement des joueurs et du ballon. Partant de ce constat, la compression vidéo se fait en deux étapes : une étape de prédiction, qui part d’une première image, et une étape de correction, où l’on transmet simplement la soustraction entre l’image de départ et sa prédiction. En se concentrant sur les petits changements d’une séquence à l’autre, on réduit la quantité de données. Dans l’encodage vidéo traditionnel, on détermine élément par élément la manière de bien restituer un signal vidéo. C’est cette manière de faire qui est décrite par les normes vidéo actuellement les plus courantes, comme MPEG.

Laisser la complexité aux machines

Découper le problème en sous-problèmes était la manière la plus simple de procéder, jusqu’à l’apparition des réseaux de neurones artificiels. Le principe de base reste le même : on apprend à un premier réseau de neurones à prédire l’image suivante, et à un second à identifier les erreurs de la prédiction et à envoyer sa correction sous une forme la plus compacte possible. La différence ? Peu importe que la manière de réaliser l’encodage soit complexe ou non, puisque c’est le réseau de neurones qui se charge de l’élaborer. Il suffit de lui signifier que l’on veut obtenir la meilleure image pour un débit de 1Mb/s, et il s’efforcera d’apprendre à le faire.

Faire confiance au réseau neuronal

Théo Ladune détaille ses choix techniques : “Quand j’ai conçu mon codeur, je me suis efforcé de lui mettre le moins de verrous possible. Pour un chercheur, la tentation est forte, même quand il travaille avec un réseau de neurones, d’orienter son architecture vers la méthode traditionnelle de la soustraction image – prédiction. Après tout, c’est une méthode qui a fait ces preuves. Mais j’ai décidé de donner au réseau l’image et sa prédiction non mélangées, et de laisser l’algorithme faire par lui-même pour développer sa propre méthode de compression. J’ai aussi choisi de lui faire apprendre des bouts de séquence, donc des groupes de plusieurs images, là où d’autres candidats ont préféré nourrir leur réseau image après image. Mon pari, c’était de faire confiance au réseau neuronal, de lui construire des architectures pour l’aider à apprendre, tout en lui laissant un maximum de liberté.”

La norme neuronale, c’est pour demain ?

Les standards vidéo existent depuis le début des années 1990, et suivent un cycle décennal. Les industriels du secteur veulent atteindre l’interopérabilité, qui garantit la chaîne technique depuis le diffuseur de contenu jusqu’au téléviseur de l’usager, en passant par le réseau sur lequel transitent les données. À chaque nouvelle norme ses nouveaux contenus (HD, 4K, et ainsi de suite), et ses nouvelles contraintes. Quelle place pour le codeur neuronal dans ce paradigme ? Comme l’explique Pierrick Philippe, encadrant de Théo Ladune chez Orange : “Il faut prendre conscience qu’avant 2017, un réseau de neurones n’était pas encore capable de faire de la compression d’image fixe. C’est un domaine très jeune ! Aujourd’hui, le codeur vidéo de Théo performe un petit peu en dessous de la norme MPEG HEVC publiée en 2013. À cette vitesse, on peut prédire que d’ici quelques années, les codeurs neuronaux seront capables de dépasser les normes les plus récentes. On est à une croisée des chemins et une chose est sûre, tous les acteurs s’intéressent au sujet. La prochaine norme sera-t-elle traditionnelle, neuronale, mixte ? Impossible de le dire aujourd’hui, et c’est pour ça que des travaux comme ceux de Théo marquent les esprits. ”

A lire aussi sur Hello Future

Un homme en gilet de sécurité examine des documents devant une rangée de conteneurs de transport colorés dans un port.

Contrefaçon : un modèle d’IA capable de voir les anomalies dans les conteneurs

Découvrir
GettyImages - Photo of smart concentrated lady web designer write key words download media database upgrade modern device indoor room workstation.

Intelligence artificielle : comment la psychologie peut propulser l’AGI

Découvrir
Getty Images - A photo of three businesspeople working together in front of a laptop computer.

Comment rendre l’IA explicable ?

Découvrir
Getty Images - Thoughtful businessman with laptop sitting at desk in home office

Explicabilité des systèmes d’intelligence artificielle : quels besoins et quelles limites ?

Découvrir
Deux présentateurs expliquent des concepts liés à BrainBox AI devant un écran affichant des graphiques et des informations. Six visiteurs se tiennent debout, attentifs.

BrainBox AI : objectif, réduire jusqu’à 40% l’empreinte carbone des bâtiments

Découvrir
Un groupe de travailleurs en milieu minier écoute un collègue qui explique quelque chose. Ils portent des casques de sécurité jaunes et des masques. L'environnement est sombre, avec des murs rocheux visibles en arrière-plan. Le guide utilise une lampe frontale pour éclairer son chemin.

Capteurs dans les mines, caméras intelligentes dans les usines : comment l’IA prévient les accidents

Découvrir
GettyImages - article Factiverse

Factiverse : l’IA au service d’un fact-checking plus fiable et multilingue

Découvrir
Machine learning - intuition robots

Machine learning : vers des robots intuitifs et sensibles à leur environnement

Découvrir