LatentVLA : modèles de raisonnement latent pour la conduite autonome

nous avons discuté d’AlpamayoR1 (AR1), un modèle de conduite autonome intégrant un VLM pour servir d’épine dorsale de raisonnement. Il s’appuie sur un ensemble de données soigneusement collectées sur la chaîne de causalité. La formation sur cet ensemble de données permet à AR1 de « raisonner » en langage naturel pour résoudre des situations de conduite difficiles.

Mais que se passe-t-il si le langage naturel n’est pas le meilleur support de raisonnement dans les scénarios de conduite ? Après tout, lorsqu’ils sont confrontés à une situation de conduite qui nécessite une réaction immédiate, les conducteurs humains agissent généralement par réflexe plutôt que de « raisonner en langage étape par étape ». Quelle est l’alternative pour les modèles roulants ?

Dans cet article, nous décomposons l’architecture LatentVLA, une approche convaincante contre les approches basées sur le langage qui nécessite aucun ensemble de données en langage naturel, effectue un raisonnement dans l’espace latent et utilise distillation des connaissances pour répondre aux contraintes de temps réel.