Compression vidéo : un réseau de neurones challenge la méthode classique

Le codeur neuronal bientôt au même niveau de performance que les normes d’encodage vidéo traditionnelles ? C’est la voie ouverte par Orange au challenge CLIC, défi de compression vidéo organisé dans le cadre de la “Conference on Computer Vision and Pattern Recognition” - un rendez-vous organisé chaque année par l’Institute of Electrical and Electronic Engineers (IEEE), dont l’édition 2021 s’est tenue en ligne fin juin.

“On peut prédire que d’ici quelques années, les codeurs neuronaux seront capables de dépasser les normes vidéo les plus récentes.”

Pour comparer les innovations de la communauté scientifique sur la base de critères communs, les règles du challenge de compression étaient précisément cadrées : une centaine de vidéos de quelques secondes, un débit de 1 Mb/s, un rendu de la meilleure qualité possible. Treize candidats ont mis leur codeur à l’épreuve, avec des acteurs issus du monde industriel et d’universités du monde entier et une équipe d’Orange. Cette dernière a remporté le défi global avec un codeur traditionnel, utilisant une optimisation de la toute dernière norme vidéo MPEG (H.266/VVC). Elle retient aussi l’attention avec une autre contribution : fondé exclusivement sur une approche neuronale, le codeur de Théo Ladune, en 3e année de doctorat chez Orange, a terminé premier sur les cinq codeurs neuronaux en lice, avec un score très proche de normes d’encodage récentes (H.265/HEVC).

Petite leçon de compression vidéo

Une vidéo, c’est une succession d’images qui se ressemblent beaucoup. Prenons l’exemple d’un match de foot : entre deux séquences, le terrain et le stade restent les mêmes, le public bouge un tout petit peu, et la vraie différence se fait dans le mouvement des joueurs et du ballon. Partant de ce constat, la compression vidéo se fait en deux étapes : une étape de prédiction, qui part d’une première image, et une étape de correction, où l’on transmet simplement la soustraction entre l’image de départ et sa prédiction. En se concentrant sur les petits changements d’une séquence à l’autre, on réduit la quantité de données. Dans l’encodage vidéo traditionnel, on détermine élément par élément la manière de bien restituer un signal vidéo. C’est cette manière de faire qui est décrite par les normes vidéo actuellement les plus courantes, comme MPEG.

Laisser la complexité aux machines

Découper le problème en sous-problèmes était la manière la plus simple de procéder, jusqu’à l’apparition des réseaux de neurones artificiels. Le principe de base reste le même : on apprend à un premier réseau de neurones à prédire l’image suivante, et à un second à identifier les erreurs de la prédiction et à envoyer sa correction sous une forme la plus compacte possible. La différence ? Peu importe que la manière de réaliser l’encodage soit complexe ou non, puisque c’est le réseau de neurones qui se charge de l’élaborer. Il suffit de lui signifier que l’on veut obtenir la meilleure image pour un débit de 1Mb/s, et il s’efforcera d’apprendre à le faire.

Faire confiance au réseau neuronal

Théo Ladune détaille ses choix techniques : “Quand j’ai conçu mon codeur, je me suis efforcé de lui mettre le moins de verrous possible. Pour un chercheur, la tentation est forte, même quand il travaille avec un réseau de neurones, d’orienter son architecture vers la méthode traditionnelle de la soustraction image – prédiction. Après tout, c’est une méthode qui a fait ces preuves. Mais j’ai décidé de donner au réseau l’image et sa prédiction non mélangées, et de laisser l’algorithme faire par lui-même pour développer sa propre méthode de compression. J’ai aussi choisi de lui faire apprendre des bouts de séquence, donc des groupes de plusieurs images, là où d’autres candidats ont préféré nourrir leur réseau image après image. Mon pari, c’était de faire confiance au réseau neuronal, de lui construire des architectures pour l’aider à apprendre, tout en lui laissant un maximum de liberté.”

La norme neuronale, c’est pour demain ?

Les standards vidéo existent depuis le début des années 1990, et suivent un cycle décennal. Les industriels du secteur veulent atteindre l’interopérabilité, qui garantit la chaîne technique depuis le diffuseur de contenu jusqu’au téléviseur de l’usager, en passant par le réseau sur lequel transitent les données. À chaque nouvelle norme ses nouveaux contenus (HD, 4K, et ainsi de suite), et ses nouvelles contraintes. Quelle place pour le codeur neuronal dans ce paradigme ? Comme l’explique Pierrick Philippe, encadrant de Théo Ladune chez Orange : “Il faut prendre conscience qu’avant 2017, un réseau de neurones n’était pas encore capable de faire de la compression d’image fixe. C’est un domaine très jeune ! Aujourd’hui, le codeur vidéo de Théo performe un petit peu en dessous de la norme MPEG HEVC publiée en 2013. À cette vitesse, on peut prédire que d’ici quelques années, les codeurs neuronaux seront capables de dépasser les normes les plus récentes. On est à une croisée des chemins et une chose est sûre, tous les acteurs s’intéressent au sujet. La prochaine norme sera-t-elle traditionnelle, neuronale, mixte ? Impossible de le dire aujourd’hui, et c’est pour ça que des travaux comme ceux de Théo marquent les esprits. ”

A lire aussi sur Hello Future

Pranavesh Panakkal et Dr. Jamie Ellen Padgett expliquant le fonctionnement de leur modèle OpenSafe Fusion.

Inondations : comment le machine learning peut aider à sauver des vies

Découvrir
décryptage de la lettre de Charles Quint - Cécile Pierrot à la bibliothèque

L’IA ouvre de nouveaux outils à la recherche en histoire

Découvrir
Une personne en blouse de laboratoire et lunettes de protection tient un microprocesseur dans sa main gantée. L'environnement est lumineux et moderne, suggérant un laboratoire de recherche ou de développement technologique.

Biais algorithmiques : le hardware influence également les réseaux de neurones

Découvrir
Trois personnes collaborent autour d'un ordinateur portable dans un environnement de bureau moderne. L'une d'elles, debout, explique quelque chose aux deux autres assis, qui semblent attentifs. Sur la table, on peut voir un ordinateur de bureau, une tablette et des accessoires de bureau. Des plantes et des bureaux sont visibles en arrière-plan.

FairDeDup : un outil pour aider les modèles d’IA à se libérer des biais sociaux

Découvrir
Une femme se tient dans un train, tenant un téléphone. Elle porte un manteau beige et une écharpe bleue et marron. L'intérieur du train est lumineux, avec des sièges et des barres de soutien en métal.

Un modèle mathématique souhaite aider l’IA à anticiper les émotions humaines

Découvrir
Parlons Tech, le podcast d'Hello Future, le site de la Recherche et de l'Innovation d'Orange

Parlons Tech 14 : comment l’IA aide-t-elle à apprendre ?

Découvrir