
LatentVLA : modèles de raisonnement latent pour la conduite autonome
nous avons discuté d’AlpamayoR1 (AR1), un modèle de conduite autonome intégrant un VLM pour servir d’épine dorsale de raisonnement. Il s’appuie sur un ensemble de données soigneusement collectées sur la chaîne de causalité. La formation sur cet ensemble de données permet à AR1 de « raisonner » en langage naturel pour résoudre des situations de conduite difficiles.
Mais que se passe-t-il si le langage naturel n’est pas le meilleur support de raisonnement dans les scénarios de conduite ? Après tout, lorsqu’ils sont confrontés à une situation de conduite qui nécessite une réaction immédiate, les conducteurs humains agissent généralement par réflexe plutôt que de « raisonner en langage étape par étape ». Quelle est l’alternative pour les modèles roulants ?
Dans cet article, nous décomposons l’architecture LatentVLA, une approche convaincante contre les approches basées sur le langage qui nécessite aucun ensemble de données en langage naturel, effectue un raisonnement dans l’espace latent et utilise distillation des connaissances pour répondre aux contraintes de temps réel.
Apprentissage par action latente
Une grande partie du succès d’AR1 réside dans l’ensemble de données sur la chaîne de causalité, dont la collecte a nécessité des efforts à l’échelle industrielle, un pipeline d’étiquetage soigneusement élaboré et une validation approfondie.
En revanche, LatentVLA prend une direction complètement opposée : les auteurs soutiennent que les données brutes de conduite contiennent déjà la structure requise pour entraîner un grand modèle et que le langage naturel est intrinsèquement biaisé et difficile à aligner sur les actions. De plus, générer des chaînes de raisonnement en langage naturel est inefficace puisque certains jetons ne contribuent pas de manière significative au processus de raisonnement (par exemple les mots vides).
Par conséquent, ils introduisent un cadre auto-supervisé utilisé pour prédire actions latentes égocentriques dans un petit espace latent. En d’autres termes, le modèle utilise des données de conduite non étiquetées pour prédire quelle action le conducteur a dû entreprendre pour générer ces données. Ces actions latentes serviront de base au raisonnement en espace latent.
Apprentissage de la représentation
Pour prédire les actions latentes à partir de données non étiquetées, les auteurs utilisent une méthode qui rappelle le LAPO (apprendre à agir sans actions) [2]. Cette approche repose sur une configuration codeur-décodeur dans laquelle l’encodeur (également appelé « modèle de dynamique inverse », IDM) utilise deux images suivantes pour prédire un vecteur d’action continu et le décodeur (appelé « modèle de dynamique avant », FDM) utilise l’image actuelle et le vecteur d’action prédit pour reconstruire l’image suivante.
Cette configuration intelligente force la représentation de l’action apprise à décrire ce que des mesures doivent avoir été prises pour observer les transitions d’état dans notre ensemble de données. Cependant, cette représentation d’action continue est encore incompatible avec les VLM que nous envisageons d’utiliser. Pour le discrétiser, les auteurs utilisent un VQ-VAE (Vector-Quantised Variational Auto-Encoder), qui mappe les vecteurs continus aux vecteurs discrets les plus proches dans un modèle appris. livre de codes (c’est-à-dire un dictionnaire d’actions discrètes) de manière différentiable. C’est l’action qui sera utilisée par le FDM pour décoder la trame suivante.
En optimisant l’erreur de reconstruction de l’image suivante, nous avons formé conjointement l’IDM et le FDM pour coder une représentation prédictive d’action discrète.

Distinguer les actions du moi du bruit ambiant
Maintenant, vous pourriez penser : « Les actions du conducteur ne sont pas le seul facteur qui influence l’image suivante lors de la conduite, que se passe-t-il si un oiseau vole devant la caméra ? Est-ce que cela pollue la représentation de l’action ? ». A cela, les auteurs répondent oui et non, il doit y avoir un mécanisme qui démêle l’impact des actions du conducteur sur l’avenir de dynamique environnementale.
La solution élégante à ce problème consiste à utiliser une configuration codeur-décodeur à deux étages :
- Conditionné par la trajectoire de la vérité terrain, l’état du moi et la trame précédente, l’encodeur prédit une action latente. Puisque cette action est conditionnée à la dynamique du véhicule à travers la trajectoire et l’état du moi, il lui suffit de modéliser dynamique environnementale pour permettre au décodeur de reconstruire la trame suivante. Ce « action environnementale » est ensuite quantifié et le livre de codes utilisé à cette fin est figé pour l’étape suivante.
- Conditionné sur le cadre précédent et le action environnementalel’encodeur code une autre action latente. De même, puisque la dynamique environnementale est connue et fait partie du conditionnement, cette seconde action latente est forcée de coder dynamique égocentrique. À l’aide d’un nouveau livre de codes, cette action est quantifiée en un action de l’ego.
Enfin, nous transmettons les deux actions au décodeur pour reconstruire la trame suivante. Cette configuration garantit une séparation claire des actions de l’ego et de la dynamique environnementale.
Formation VLM
S’appuyant sur la représentation des actions apprises, les auteurs entraînent un modèle Qwen2.5-VL pour prédire les mêmes actions latentes que le modèle codeur-décodeur. Ceci est obtenu en demandant à l’encodeur de prédire une trajectoire de 12 actions latentes pour une trame d’entrée donnée et en demandant au VLM d’optimiser sa probabilité log négative :
Une différence frappante avec d’autres approches utilisant des manuels de codes d’action est le nombre de jetons d’action utilisés par LatentVLA. Là où d’autres modèles comme AutoVLA utilisent un livre de codes d’action de 2048 jetons spéciaux, LatentVLA n’en utilise que 16.
Cela se traduit par :
- Une tâche d’apprentissage plus simple : dans un livre de codes de 2 048 dimensions, les actions représentent probablement des décisions de conduite très précises comme « tourner à gauche selon un angle de 16 degrés ». Avec seulement 16 jetons, le modèle adopte probablement des directives de niveau supérieur comme « accélérer légèrement », « prendre un virage étroit à droite », qui nécessitent moins de démonstrations pour apprendre.
- Préserver les connaissances pré-formation du VLM : il n’est pas nécessaire d’apprendre plus de 2000 « nouveaux mots ».
Distillation des connaissances
Là où AlpamayoR1 s’est appuyé sur une tokenisation efficace et une diffusion adaptée aux flux pour maintenir les performances en temps réel, LatentVLA opte pour une approche complètement différente : la distillation des connaissances. A cette fin, les auteurs introduisent une module de fusion au sein des architectures E2E existantes (iPad [4] et transfuseur [5]). Ce module de fusion est alimenté en intégrations visuelles et d’actions par le VLM et génère des fonctionnalités dans l’espace Bird’s-Eye-View (BEV). Ces intégrations servent de clés et de valeurs en attention croisée avec les requêtes BEV produites par le modèle E2E. Cela permet au modèle E2E d’intégrer les informations du VLM.

Cependant, le VLM reste trop volumineux pour être utilisé efficacement au moment des tests. Par conséquent, un petit Paramètre 50M transformateur de décision est formé pour imiter le grand 3.8B Qwen2.5-VL VLM. Ceci est obtenu en minimisant la divergence KL entre les répartitions des enseignants et des étudiants :
Ce framework permet à LatentVLA de fonctionner avec un squelette de raisonnement très compact et fournit une approche générale pour intégrer les connaissances VLM dans les architectures E2E traditionnelles à moindre coût.

Évaluation
LatentVLA est formé et évalué sur NavSim [6]un ensemble de données composé de plus de 100 000 images collectées dans des simulations de conduite réelles. NavSim comprend également un non réactif simulateur pour évaluer la planification en boucle ouverte.
En d’autres termes, le modèle prédit une trajectoire au cours des prochaines secondes à partir des images d’entrée. Ensuite, cette trajectoire est exécutée dans une simulation BEV fonctionnant en supposant que les actions du moi-véhicule n’affecte pas les actions d’autres agents (donc « non réactifs »). Cela permet de mesurer facilement des mesures liées à la planification telles que le Predictive Driver Model Score (PDMS) : une mesure composite qui quantifie la sécurité de conduite, les performances et les risques en intégrant les résultats de simulation.
Cependant, ce type d’évaluation présente certaines lacunes importantes, comme nous le verrons plus tard.

Sur ce benchmark, LatentVLA obtient des résultats de pointe, améliorant les architectures standard basées sur E2E et LLM. Cependant, l’augmentation des performances obtenue en intégrant les connaissances VLM dans iPad et Transfuser semble limitée. En nous concentrant sur le PDMS, nous observons que la baseline de l’iPad obtient un score de 91,7 %. L’alternative distillée LatentVLA augmente le score à 92,1 (+0,4%) et la version non distillée atteint 92,4 (encore +0,3%).
Cette petite amélioration soulève la question de savoir si un raisonnement de niveau supérieur et une connaissance du monde sont réellement essentiels à la conduite automobile.
À mon avis, ils ont le potentiel d’atteindre un nouveau niveau de performances de conduite, mais cela est mal mesuré par les simulateurs de planification non interactifs.

Les limites de la planification open source
Ces dernières années, il est devenu largement admis que seule l’évaluation des modèles de conduite sur la base d’une planification en boucle ouverte donne une image incomplète de leurs capacités de conduite réelles. En effet, la planification en boucle ouverte est fondamentalement différente de la conduite automobile et sans doute plus facile. La raison principale étant que la planification en boucle ouverte n’implique pas d’interactions avec l’environnement (le simulateur est au mieux non réactif) et se réduit à imiter la trajectoire d’un expert. Cela crée plusieurs problèmes dans des scénarios réels :
- De petits écarts par rapport aux trajectoires apprises conduisent à des erreurs en cascade : Sans interactions dynamiques avec l’environnement et d’autres agents, les modèles en boucle ouverte ont du mal à rectifier les trajectoires légèrement mal alignées avec celles qu’ils ont apprises.
- Les trajectoires sont par nature multimodales : pour chaque situation de conduite, il existe plusieurs trajectoires et modèles d’accélération conduisant à des résultats de conduite sûrs. Cependant, l’apprentissage par imitation sur une seule trajectoire experte effondre cette multimodalité, limitant les capacités de généralisation du modèle.
Pour ces raisons, il est important d’évaluer minutieusement les modèles de conduite dans des simulateurs en boucle fermée (c’est-à-dire réactifs) et justifie l’utilisation des méthodes de post-formation RL comme indiqué dans l’article AR1.
Je parierais que l’écart entre LatentVLA et ses lignes de base non VLM est plus important dans ces scénarios, car le raisonnement pourrait aider à atténuer les limites de la formation en boucle ouverte.
Conclusion
Dans cet article, nous avons discuté de LatentVLA, une approche visant à intégrer les connaissances VLM dans des modèles E2E standards sans s’appuyer sur le langage naturel. Cette approche est innovante dans le sens où elle permet d’apprendre des représentations utiles à partir de données non étiquetées, alors que des travaux concurrents comme AR1 s’appuient sur des ensembles de données à grande échelle soigneusement annotés pour contourner l’ambiguïté du langage naturel.
Cependant, LatentVLA bénéficierait d’une évaluation plus approfondie, en particulier dans des contextes en boucle fermée.
Merci d’avoir lu jusqu’ici !
Si vous avez trouvé cet article utile, veuillez considérer le partager; cela aide véritablement à soutenir le temps et les efforts nécessaires à la production de ce travail. Comme toujours, n’hésitez pas à contactez-moi si vous avez des questions, des réflexions ou des idées de suivi. Si vous souhaitez soutenir mes recherches et mes écrits indépendants, n’hésitez pas à achète-moi un café 😉
Jusqu’à la prochaine fois ! 👋



