● Derrière les choix techniques des modalités d’entraînement se joue une question de souveraineté : qui contrôle les données physiques et les infrastructures de simulation contrôlera les robots de demain.
● La stratégie pro-simulation de Nvidia n’a pas encore fait ses preuves et des acteurs comme Physical Intelligence misent au contraire sur la collecte massive de données réelles.
L’IA générative a été entraînée pour écrire des textes, produire des images, des sons ou des vidéos. La prochaine vague nécessite de savoir comment enseigner aux machines à agir dans le monde réel. Derrière le terme « Physical AI » ou IA physique, qui a lui-même été imposé par Nvidia qui vend aussi les GPU pour l’entraîner, différentes approches cherchent à s’imposer. Robots industriels, véhicules autonomes, espaces de travail intelligents : les potentialités sont tout aussi nombreuses que les défis techniques. Au cœur du débat, une question divise chercheurs et ingénieurs : faut-il entraîner ces systèmes essentiellement à partir de données d’action réelles, ou construire d’abord une représentation interne du monde (un world model) pour que la machine comprenne avant d’agir ?
Non seulement les données d’interaction physique manquent, mais celles qui existent sont difficiles à acquérir efficacement.
Qu’est-ce que l’IA physique et qu’est-ce qui la distingue de l’automatisation ?
Un bras automatisé d’usine qui répète les mêmes gestes à la milliseconde n’est pas de l’IA physique mais de l’automatisation programmée. De son côté, un système d’IA physique ne suit pas un script : il perçoit, raisonne, et s’adapte à ce qu’il trouve. Posez un obstacle inattendu devant un robot classique : il s’arrête ou le percute. Posez-le devant un système d’IA physique : il le contourne, ou demande (voire se demande) ce qu’il doit faire. Un article de référence de 2025 résume cette logique en six briques : un corps, des capteurs, la capacité d’agir, d’apprendre, de décider seul, et de lire le contexte. Mais derrière cette liste subsiste l’idée que l’intelligence n’est pas dans le code. Elle émerge de l’interaction entre le corps de la machine, l’environnement, et l’histoire de ce qu’elle a déjà vécu. L’IA physique se situe donc quelque part à mi-chemin entre les neurosciences et la robotique.
IA physique : le problème des données d’entraînement
En Chine, l’IA physique n’est plus un sujet prospectif : AGIBOT a dépassé les 10.000 robots déployés et publié un dataset open source collecté en conditions industrielles réelles. C’est là tout le sujet : si, pour entraîner un grand modèle de langage, on dispose d’une ressource quasi illimitée de données, entraîner un robot à saisir des objets, détecter des obstacles ou s’orienter dans un couloir supposent également des données. Or l’article Generative Artificial Intelligence in Robotic Manipulation est formel : non seulement les données d’interaction physique manquent, mais celles qui existent sont difficiles à acquérir efficacement. Filmer un robot rater mille fois la même action, c’est long, coûteux, et potentiellement destructeur pour le matériel ou l’environnement. Enfin, la question de la planification de tâches longues, c’est-à-dire comment enchaîner des dizaines d’actions successives sans perdre le fil de l’objectif, se pose. Un robot qui ne sait que voir reste borgne : il lui faut aussi entendre, toucher, et comprendre ce qu’on lui dit pour prendre une décision cohérente dans un environnement changeant. C’est pourquoi l’approche multimodale doit être redéfinie.
World models vs modèles d’action : deux stratégies pour entraîner les robots
Les chercheurs envisagent deux approches pour entraîner les IA physiques : celle des modèles d’action, qui suppose d’apprendre en faisant, ou celle des world models, qui suppose que l’IA a compris son environnement avant d’agir.
| Critère | Modèles d’action | World models |
| Logique | Apprendre en faisant, sur des trajectoires réelles ou simulées.
Le robot répète des milliers de fois le geste de casser un œuf jusqu’à maîtriser la force exacte. |
Simuler les conséquences avant d’agir.
Avant de saisir l’œuf, le robot simule plusieurs prises et prédit laquelle évite la casse. |
| Outils | Diffusion, GANs, reinforcement learning, imitation learning.
Un chef cuisine avec des capteurs : ses gestes deviennent les données d’entraînement du robot. |
Simulation haute-fidélité, jumeaux numériques, données synthétiques.
Une cuisine virtuelle génère des millions de scénarios : casseroles glissantes, flamme trop forte, ingrédients déplacés. |
| Force | Robuste sur les tâches connues. Déployable rapidement.
Le robot réussit une omelette parfaite à condition que la poêle soit toujours au même endroit. |
Généralise des scénarios inédits. Raisonne hors distribution.
La recette change de dernière minute ? Il adapte les étapes en raisonnant sur ce qu’il a déjà en cuisson. |
| Limite | Échoue hors de sa distribution d’entraînement.
On déplace le sel de 10 cm : le robot cherche, hésite, rate l’assaisonnement. |
Le fossé simulation/réel est important et le coût computationnel est élevé.
La vapeur, la texture réelle du beurre : la simulation ne les reproduit jamais parfaitement. |
| Usage type | Manipulation d’objets, navigation en environnement connu.
Restauration rapide : même recette, même poste, mille fois par jour. |
Véhicules autonomes, robotique généraliste…
Cuisine gastronomique : improviser selon les arrivages, gérer plusieurs plats en parallèle. |
En d’autres termes, les world models fournissent le cadre de raisonnement et les modèles d’action en sont l’expression motrice. Toutefois, l’intégration des deux reste un problème ouvert, et le champ s’est industrialisé avant que ce problème soit résolu. La stratégie dominante qui suppose de remplacer les données réelles par du compute et de la simulation est rationnelle pour les acteurs qui vendent la puissance de calcul, comme Nvidia. Toutefois, elle est contestée par des acteurs comme Physical Intelligence, la startup de Chelsea Finn (Stanford) et Sergey Levine (Berkeley) qui mise au contraire sur la collecte massive de données réelles. Leurs résultats suggèrent finalement que la simulation ne résout pas encore le sujet des données tactiles et des délais de déploiement.
Les données physiques, nouvel or noir de l’IA
Ce dilemme rappelle celui qui a structuré la montée en puissance des LLM : vaut-il mieux plus de données ou plus de puissance de calcul ? Les deux. Reste que pour l’IA physique, le débat recommence à zéro, mais cette fois, les données ne sont pas sur Internet mais dans les usines, les entrepôts, les cuisines, etc. Celui qui les collectera le premier aura peut-être la même avance qu’OpenAI sur ses concurrents en 2020 avec GPT-3. Ainsi, pour les entreprises européennes qui veulent intégrer ces systèmes, la question qui se pose n’est pas uniquement celle du choix du hardware mais de savoir de quel paradigme d’entraînement voulons-nous dépendre, ce qui engage à la fois la stratégie industrielle et la souveraineté numérique.
En tout cas, l’IA physique est partout à VivaTech, constate Philippe Lucas, Executive Vice President Partnerships Content and Devices chez Orange : « Nous voyons ici beaucoup de robots, en particulier des humanoïdes, car ils sont très visibles. Cependant, nous commençons également à voir beaucoup de petits robots qui pourraient être utilisés pour aider les personnes âgées vivant seules, afin de leur permettre de continuer à vivre dans leur maison. Nous en sommes encore au tout début, comme il y a près de vingt ans lorsque les premières applications sont apparues sur les téléphones mobiles. Toutes n’étaient pas très utiles à l’époque, mais aujourd’hui, il est difficile d’imaginer la vie sans votre téléphone mobile. » Les robots spécialisés seront utiles dans le contexte B2B et Orange entend bien jouer un rôle à cet égard : « Orange ne construit pas de robots, mais nous prévoyons de transformer ces produits en services. C’est là où Orange peut apporter de la valeur dans ce secteur. »
Philippe Lucas







