Intelligence artificielle | Article | Approfondir

Plus efficaces, moins lourds… zoom sur les nouveaux modèles de computer vision

Gros plan sur le visage d’une femme en blouse blanche fixant attentivement à travers l’oculaire d’un microscope noir, avec son œil droit parfaitement aligné.

lundi 18 août 2025

Temps de lecture : 3 min

Ecouter le contenu de la page avec notre synthèse vocale

• Longtemps cantonnée à la reconnaissance faciale, la vision par ordinateur répond à de nouveaux besoins.
• Les récentes avancées scientifiques permettent d’espérer une informatique plus économe, fiable et adaptée aux contraintes du terrain.
• Des développements repensent le fonctionnement des réseaux de neurones convolutifs en s’inspirant de celui du cerveau humain.

Des robots peuvent-ils préparer des repas ? La start-up Posha en fait le pari. Les robots culinaires qu’elle produit utilisent la computer vision (vision par ordinateur). Le robot identifie des détails tels que les coupes de légumes et la cuisson de la viande, ce qui lui permet de prendre des décisions de préparation – ajouter les ingrédients au bon moment et adapter leur température de cuisson. Cette innovation qui peut sembler accessoire montre l’évolution des techniques de computer vision — qui permettent aux machines d’interpréter des images ou vidéos. Un des objectifs de recherche difficiles est de parvenir à en améliorer l’efficacité tout en réduisant la charge computationnelle nécessaire au traitement des images. Les modèles existants ne sont en effet pas toujours suffisamment légers et économes pour convenir à des usages en robotique ou edge computing. Des solutions plus efficaces, plus fiables et moins lourdes seraient utiles dans certains secteurs : agriculture, santé, automobile et robotique notamment.

Cette méthode s’est avérée également pertinente pour analyser des données corrompues, ce qui constitue un véritable challenge pour la computer vision.

S’inspirer du cerveau humain

Une équipe de chercheurs de l’Institute for Basic Science, de l’Université Yonsei et de l’Institut Max Planck a développé une approche baptisée Lp-Convolution qui améliore la précision de systèmes de computer vision, tout en réduisant la puissance de calcul nécessaire, et ce en s’inspirant du cerveau humain. Ils ont pris exemple sur la manière dont le cortex visuel traite les informations de manière sélective pour rendre les réseaux neuronaux convolutifs traditionnels plus efficaces. Dans les réseaux de neurones convolutifs, on trouve des filtres (ou noyaux de convolution), qui sont des petits blocs de poids qui « scannent » les images pour en extraire des caractéristiques visuelles importantes. Ces filtres sont le plus souvent carrés et fixes. La méthode développée par les chercheurs suppose de les étirer horizontalement ou verticalement, en fonction de la tâche demandée, de la même manière que le cerveau va se concentrer de manière sélective sur des détails spécifiques. Lors de tests, cette méthode s’est avérée également pertinente pour analyser des données corrompues, ce qui constitue un véritable challenge pour la computer vision.

Agriculture et biodiversité

Dans l’agriculture, la computer vision est de plus en plus utilisée, en télédétection ou dans des projets de reforestation comme ceux sur lesquels travaille la startup Morfo. Ces techniques peuvent faciliter le diagnostic des plantes et l’évaluation de leur état de santé. La start-up israélienne Fermata utilise la vision par ordinateur et l’intelligence artificielle pour surveiller et diagnostiquer les maladies et les ravageurs dans les cultures sous serre. Objectif : permettre aux agriculteurs de passer moins de temps à analyser leurs plans, et éviter les pertes. La computer vision est largement utilisée dans l’étude de la biodiversité et dans l’agriculture, mais l’entraînement des modèles est fastidieux et nécessite des ressources importantes. Pour résoudre ces problèmes, des chercheurs de l’Université de l’Illinois ont développé un outil d’apprentissage automatique capable d’autoapprendre avec un minimum d’aide humaine, ce afin de distinguer les images aériennes d’herbes en fleur et d’herbes qui ne sont pas en fleur. La différenciation précise des caractéristiques des cultures dans des conditions variées à différents moments du cycle de leur croissance est une tâche difficile. Ce système repose sur une architecture appelée ESGAN (Efficiently Supervised Generative and Adversarial Network), qui utilise des réseaux antagonistes génératifs pour s’entraîner avec un minimum de données annotées. Elle permet de réduire le besoin en données étiquetées, rendant l’IA plus adaptable. Une approche qui pourrait être étendue à d’autres cultures, voire à d’autres applications.