● En se concentrant sur les points de surface des objets, cette méthode permet un contrôle complet sur la forme et l’apparence des objets 3D générés.
● Cette avancée permet la création d’avatars 3D personnels ou encore la reconstruction de sites en 3D à partir de simples photographies.
Créer une modélisation 3D d’un objet à partir de photos 2D est un casse-tête informatique, mais l’IA est sur le point de rendre cela aussi simple qu’un jeu d’enfant. Une équipe de recherche de l’Université Simon Fraser a développé une technologie qui permet, à partir de photos prises sous différents angles, de reconstituer un objet en 3D et surtout, de le modifier et d’interagir avec eux tout en transférant leur texture et en laissant la possibilité de contrôler leur exposition. Dans un article intitulé PAPR: Proximity Attention Point Rendering, les chercheurs expliquent comment ils ont pu dépasser les limites actuelles de la photogrammétrie, une méthode répandue qui consiste à effectuer des mesures dans une scène, en utilisant la parallaxe obtenue entre des images acquises selon des points de vue différents.
La méthode développée suppose d’enregistrer uniquement les points à la surface d’un objet, ce qui fait que, si un nombre suffisant de points est collecté, on peut déduire la forme d’une surface.
Dépasser les limites de la photogrammétrie traditionnelle
« La photogrammétrie ne permet pas de reconstituer une texture ou une forme exacte d’un objet, car la géométrie fournie n’est pas correcte, et ne permet pas de reconstituer une vue d’ensemble d’une scène en 3D », indique Ke Li professeur adjoint d’informatique à l’université Simon Fraser (SFU), à la tête de l’APEX lab, un laboratoire spécialisé en IA, et notamment en computer vision. « D’autres approches, comme celles des , permettent de faire des choses similaires, mais il n’est pas possible ensuite d’éditer les objets en 3D, car cette technologie est une boîte noire. » En somme, si on photographie une statue avec cette technique pour ensuite la modéliser en 3D, « on ne pourrait pas faire bouger sa tête ». Cela supposerait que l’utilisateur renseigne une description de ce qui arrive à chaque coordonnée en continu, une tâche très laborieuse.
Des rendus plus précis et plus rapides qu’un LiDAR
La méthode développée par l’équipe scientifique, baptisée Proximity Attention Point Rendering, suppose d’enregistrer uniquement les points à la surface d’un objet, ce qui fait que, si un nombre suffisant de points est collecté, on peut déduire la forme d’une surface. Et si un point est déplacé, la forme de la surface s’adapte automatiquement. « La différence avec une modélisation réalisée avec un LiDAR, c’est qu’un LiDAR construit un nuage de point à partir de ce qu’il voit, et non ce qui est caché. Dans notre approche, on peut reconstituer l’objet en 3D à partir de tous les angles. Par ailleurs, cette méthode est plus rapide qu’un LiDAR. » Le modèle d’IA développé permet en effet d’interpoler les différents points pour « deviner » s’il y a une surface ou non à modéliser. Cette approche offre l’avantage aux utilisateurs de contrôler l’objet, d’en modifier la forme et l’apparence et de le visualiser sous n’importe quel angle, pour, par exemple, le retransformer en photo 2D, et faire comme si cette dernière avait été originalement prise sous un angle différent.
Une opportunité pour les usages particuliers ou professionnels
Il est possible d’envisager de nombreux cas d’usage. Côté grand public : à partir de photos prises sur smartphone, il serait possible de créer un avatar 3D de sa propre personne ou de ses proches pour ensuite les animer. « On peut également imaginer, en reprenant l’exemple de cette statue, que cette dernière soit animée, ou que les arbres dans le parc se mettent à bouger », note Ke Li. Dans l’industrie : par exemple, dans la construction, il serait possible de dépasser les limites imposées par le LiDAR pour reconstruire des sites en 3D à partir de photographies. Pour l’heure, les calculs permettant de reconstituer des objets en 3D avec cette technologie ne peuvent s’exécuter que dans le cloud, mais l’équipe de recherche entend améliorer les réseaux de neurones de cette IA pour offrir la possibilité, à l’avenir, d’exécuter les opérations directement sur un smartphone.
Vidéo : https://zvict.github.io/papr/static/videos/Ignatius-shake.mp4
Sources :
Un champ de radiance neuronal (NeRF) est un réseau neuronal entièrement capable de générer de nouvelles vues de scènes 3D complexes, sur la base d’un ensemble partiel d’images 2D. Il est entraîné à utiliser une perte de rendu pour reproduire les vues d’entrée d’une scène et fonctionne en prenant des images d’entrée représentant une scène et en interpolant entre elles pour restituer une scène complète.