À l’occasion de l’ICRA, Nvidia dévoile une série de recherches destinées à rapprocher les robots du monde réel. Simulation, vision et prise de décision : plusieurs projets s’attaquent aux obstacles qui ralentissent l’entraînement des machines.
Début juin se déroule l’ICRA (International Conference on Robotics and Automation). Nvidia sera présente, étant donné que la firme est devenue un acteur majeur en matière de robotique. En plus de construire les puces utilisées pour l’entraînement de l’intelligence artificielle, Nvidia a déjà présenté son modèle Isaac GR00T N1, un cerveau pour robots humanoïdes
.Elle profite de la conférence pour montrer ses avancées en matière de robotique, avec notamment huit articles présentant ses travaux concernant le fossé qui sépare les entraînements dans des simulations et leur mise en pratique dans le monde réel (sim-to-real).
Ce fossé est un des obstacles majeurs qui ralentissent l’évolution de la robotique, et notamment des robots humanoïdes. Les robots n’apprennent que très lentement dans le monde réel. Dans une simulation, ils peuvent effectuer des milliers d’heures d’entraînement en une fraction du temps.
Toutefois, les connaissances acquises ainsi ne fonctionnent pas toujours dans la réalité. Les robots peuvent avoir une forme différente, et même les signaux des capteurs pour un même robot peuvent varier légèrement.
Corriger la différence entre la simulation et le monde physique
Le premier projet, baptisé Compass, entraîne des robots dans des simulations avec Nvidia Isaac Lab, d’abord par imitation, puis avec un apprentissage par renforcement pour pouvoir s’adapter à différents robots.
Dans une vingtaine de tâches de navigation dans le monde réel, les robots ont atteint leur objectif dans 80 % des cas. C’est 4,5 fois plus qu’avec un simple apprentissage par imitation. Un autre projet, baptisé Grasp-MPC, corrige le mouvement du robot en temps réel, plutôt que de tout calculer à l’avance. Le modèle a été entraîné dans une simulation avec 8 000 objets différents. En pratique, le robot a réussi à attraper 75 % des objets, contre seulement 41 % pour un entraînement standard.
Les apprentissages en simulation doivent pouvoir fonctionner dans un monde imparfait. Pour cela, Nvidia a créé un système appelé Sparr, qui combine un modèle entraîné dans une simulation, et une seconde couche pour corriger les erreurs dues aux différences avec l’environnement physique. Cette méthode augmenterait le taux de réussite de 38 % par rapport à un système classique sim-to-real sans apprentissage supplémentaire.
Annoter la vision pour augmenter la fiabilité
Nvidia a aussi travaillé sur la vision des robots, notamment pour leur permettre de distinguer les éléments importants dans l’image obtenue par caméra de leur environnement désordonné. Le projet Peek ajoute un modèle vision-langage qui annote la scène, déterminant un chemin et mettant en évidence les objets importants. Le robot va ensuite agir par rapport à la scène annotée, plutôt que l’image brute. Les résultats sont impressionnants : les chercheurs notent une précision multipliée par 41 !

Le dernier projet s’attaque à un problème récurrent et est le fruit d’une collaboration avec des chercheurs de l’université Carnegie Mellon, ainsi que les universités d’Utah et de Sydney. Lorsque l’IA décompose un objectif en ses différentes étapes, le résultat n’est pas toujours celui escompté. Avec Seal, le robot va générer plusieurs séquences d’action, va simuler leur exécution, puis choisir celle qui mène au résultat attendu. Nvidia note une précision augmentée de 15 %, ainsi qu’une meilleure robustesse face aux instructions reformulées, aux changements d’objets, au désordre ambiant et aux variations d’angle de la caméra.
De plus amples informations et des liens vers les différents projets sont disponibles sur le blog de Nvidia. Futura










