
AlpamayoR1 : grands modèles de raisonnement causal pour la conduite autonome
a pris d’assaut le monde de la conduite autonome avec sa nouvelle architecture AlpamayoR1 intégrant un grand modèle Vision-Langage comme épine dorsale de raisonnement causal. Cette version, accompagnée d’un nouvel ensemble de données à grande échelle et d’un simulateur de conduite photoréaliste, positionne déjà l’entreprise comme l’un des principaux acteurs du domaine en 2026.
Dans cet article, nous détaillerons l’architecture AlpamayoR1, le raisonnement en chaîne de causalité, ainsi que la procédure de formation élaborée utilisée pour former le modèle.
L’état actuel de la conduite autonome
La sortie d’AlpamayoR1 (AR1) s’inscrit dans le paradigme actuel des architectures de bout en bout (E2E). Les modèles E2E visent à mapper les entrées sensorielles brutes (caméras, LiDAR, radar, …) aux trajectoires dans une architecture entièrement différenciable optimisant un objectif unifié.
Une tendance émergente dans l’E2E consiste à tirer parti de la connaissance mondiale approfondie des grands modèles Vision-Langage (VLM) pour aborder des situations de conduite complexes. Cela implique généralement d’utiliser les VLM comme base de raisonnement pour éclairer les trajectoires futures ou comme enseignants experts pour fournir un signal de supervision à des modèles d’étudiants plus petits.
L’architecture AR1
AR1 est un excellent exemple de l’approche du raisonnement VLM comme épine dorsale. Malgré sa taille massive, l’architecture est optimisée pour un déploiement réel et exécute une latence de 99 ms ou 10Hz sur un seul GPU BlackWell, considéré comme une cible générale pour des raisons de sécurité. Dans cette section, nous détaillerons l’architecture et ses nombreuses innovations.

Encodeur de vision
AR1 utilise à la fois des entrées visuelles et textuelles sous la forme de flux de caméra tokenisés et d’instructions en langage naturel. Pour des raisons de performances, il est crucial que l’encodeur de vision produise le moins de jetons possible.
À cette fin, les auteurs ont utilisé un Vision Transformer (ViT)[2] pour la tokenisation d’une seule image. ViTs partitionne les images dans une séquence de jetons codés par un transformateur ordinaire. A noter que l’intégration d’algorithmes plus efficaces comme Flex [3] pour la tokenisation multi-vidéo est laissé pour des travaux futurs.
![Architecture du transformateur Vision, source : [2]](https://contributor.insightmediagroup.io/wp-content/uploads/2026/02/image-59-1024x572.png)
Colonne vertébrale du raisonnement
L’architecture AR1 est construite autour de Cosmos-Reason, l’un des VLM de Nvidia spécialement conçus pour le raisonnement incarné dans les cas d’utilisation de l’IA physique. Son ensemble de formation habituel comprend 3,7 millions d’échantillons généraux de questions-réponses visuelles (VQA) pour améliorer également l’ensemble physique commun du modèle, complétés par 24,7 000 échantillons de conduite. Il s’agit notamment d’une vidéo VQA annotée avec des traces de raisonnement DeepSeek-R1 pour prédire la prochaine action.
Cosmos-Reason traite les jetons visuels et textuels ainsi que l’histoire récente de l’ego (positions xy passées et angle du véhicule de l’ego) pour produire chaîne de causalité des traces de raisonnement pour éclairer les trajectoires futures.
Chaîne de causalité
Une limitation cruciale des modèles de langage réside dans l’ambiguïté inhérente aux étiquettes de texte dans les ensembles de données visuelles. Cela inclut des descriptions vagues dépourvues de structure causale. Les modèles formés sur de telles données présentent une faible corrélation entre leurs traces de raisonnement et les actions prédites ainsi qu’une confusion causale.

Pour un agent incarné comme une voiture autonome, de fortes capacités de raisonnement causal sont essentielles. Pour contourner ces problèmes, l’équipe Nvidia a déployé des efforts importants pour créer un ensemble de données de conduite avec des annotations causalement cohérentes.
Plus précisément, l’ensemble de données contient des clips de 20 secondes extraits d’enregistrements de conduite réels dans divers environnements et pays. Chaque clip contient 2 secondes de contexte menant à une décision de conduite (par exemple dépasser, céder, franchir une intersection, …) et ses conséquences. La structure causale de ces scénarios est exposée par des annotations textuelles cohérentes suivant un modèle strict.

Les premiers 10 % de l’ensemble de données sont annotés par des humains, tandis que le reste est annoté par des VLM de pointe comme GPT5 pour faire évoluer le processus d’étiquetage. Une fois de plus, des efforts importants sont déployés pour garantir la cohérence, la qualité et l’exactitude de ces annotations humaines et IA.

Décodeur de trajectoire
La dernière étape de la passe avant consiste à décoder les traces de raisonnement en une trajectoire de 64 points. Alors que les trajectoires sont généralement décodées comme une séquence de points de cheminement (coordonnées xy), l’équipe de Nvidia a découvert que l’utilisation de la dynamique du monocycle (c’est-à-dire la génération d’une séquence de valeurs d’accélération et d’angles de braquage) produisait des résultats plus cohérents. En particulier, cela facilite la tâche d’apprentissage en empêchant le modèle de prédire des trajectoires physiquement impossibles (par exemple le point t étant trop éloigné du point t+1).
Il est intéressant de noter que les auteurs adoptent une double représentation de la trajectoire dans laquelle le modèle génère de manière auto-régressive des jetons discrets pendant la formation et utilise la correspondance de flux pour générer une trajectoire continue au moment de l’inférence. Les principales raisons derrière cette conception sont les suivantes :
- Espace de jetons de raisonnement-action conjointe : L’utilisation de jetons d’action discrets permet un couplage plus étroit entre les traces de raisonnement et les actions. Lorsque le modèle génère une trace de raisonnement, les jetons suivants de la séquence (accélération et courbures) sont mathématiquement liés à cette explication, évitant ainsi les hallucinations.
- Faciliter l’optimisation du RL : Restreindre l’ensemble des jetons d’action possibles à un ensemble discret facilite considérablement l’optimisation RL. En effet, échantillonner le jeton correct à partir d’un vocabulaire discret (par exemple
ACCEL_NEG_2) est nettement plus simple que de fournir un dégradé pour une valeur continue comme-2.145 m/s^2. Comme nous le verrons dans la section suivante, cela permet le post-entraînement RL, ce qui est crucial pour améliorer la sécurité et la cohérence du modèle. - Signal de surveillance plus fort : L’utilisation d’une perte d’entropie croisée sur des jetons discrets agit comme une tâche de classification et capture mieux les multimodalité (par exemple la probabilité distincte de tourner à gauche ou à droite) qu’une perte MSE sur les coordonnées.
- Correspondance de flux pour l’inférence : Bien que les jetons discrets soient parfaits pour l’apprentissage, ils entraînent généralement des trajectoires saccadées. De plus, générer une séquence de 128 jetons de manière auto-régressive est trop lent pour une inférence en temps réel. Pour remédier à ces limitations, les auteurs présentent un expert en action : une variante plus petite de l’architecture principale utilisant le cache KV (qui contient des jetons visuels, des mouvements historiques et des traces de raisonnement) pour décoder une trajectoire continue en un seul passage à l’aide d’une diffusion adaptée aux flux. C’est l’une des principales raisons pour lesquelles AR1 peut fonctionner avec une latence aussi faible.

Mise au point supervisée et post-formation RL

Afin de transformer le backbone VLM en une politique de conduite performante, il subit un réglage fin supervisé (SFT) sur l’ensemble de données de la chaîne de causalité. Plus précisément, il apprend à reproduire les traces de raisonnement et les actions de vérité terrain associées en maximisant la log-vraisemblance de la séquence action-raisonnement :
Cependant, le SFT à lui seul ne suffit pas. Les VLM souffrent notoirement de divergences entre leur raisonnement et les actions prévues. La nature statique des ensembles de données en boucle ouverte permet au modèle d’imiter les traces du raisonnement, mais le manque de rétroaction environnementale les empêche de véritablement internaliser les réactions causales.
Heureusement, la post-formation RL permet d’atténuer ces limitations en fournissant des commentaires d’inférence sur les déploiements du modèle. Dans cet article, les auteurs utilisent RL à trois fins principales :
- Améliorer la qualité du raisonnement : un grand modèle de raisonnement (par exemple DeepSeek-R1) évalue les traces de raisonnement d’AR1 pour s’assurer qu’il n’y a pas d’incohérences ou d’hallucinations et attribue une récompense discrète sur une échelle de 0 à 5 en conséquence. Même si DeepSeek ne devrait pas être capable de générer des traces de raisonnement de haute qualité pour la conduite, il est beaucoup plus facile d’évaluer le raisonnement d’AR1, c’est ce qu’on appelle le écart génération-vérification.
- Faire respecter la cohérence raisonnement-action : les auteurs extraient méta-actions (accélérer, diriger, aller tout droit, …) à partir de l’ensemble de données CoC à l’aide de systèmes basés sur des règles. Si ces méta-actions correspondent à celles mentionnées dans les traces de raisonnement, le modèle reçoit une récompense supplémentaire de 1, sinon de 0.
- Qualité de la trajectoire : une récompense de trajectoire mesure la distance L2 entre la trajectoire prédite et experte, pénalise les trajectoires conduisant à des collisions et à des secousses de forte ampleur.
Pendant la post-formation, AR1 génère plusieurs déploiements parallèles et collecte des récompenses r_i sur la base des trois signaux de récompense ci-dessus. Ces récompenses sont ensuite utilisées pour calculer la perte GRPO [4]. GRPO calcule l’avantage de chaque déploiement par rapport à la moyenne du groupe. Cette approche sans base de référence (contrairement à d’autres algorithmes RL comme PPO) stabilise l’entraînement en récompensant les chemins de raisonnement qui surpassent leurs homologues pour la même entrée, plutôt que de s’appuyer sur un score absolu arbitraire.
Tout ce qu’il faut comprendre de cet objectif, c’est qu’il vise à maximiser la probabilité de trajectoires (le terme log) avec un avantage élevé (le terme softmax) par rapport aux autres. Pour éviter de perdre les a priori vision-langage du VLM et les connaissances de conduite obtenues lors du SFT, l’objectif est régularisé par une divergence KL entre la politique actuelle et la référence (la politique obtenue à la fin du SFT).
Évaluation
Le protocole d’évaluation comprend 4 sections : prédiction de trajectoire en boucle ouverte, simulation en boucle fermée, études d’ablation et essais routiers sur véhicule. Même si le fait que AR1 ait été déployé dans des scénarios réels est impressionnant, les résultats en boucle ouverte et fermée sont quelque peu opaques. à mon avis; la raison principale étant qu’ils ont été obtenus sur des jeux de données Nvidia (boucle fermée : jeu de données PhysicalAI-AV, boucle fermée : AlpaSim) publiés en même temps que le modèle. Cela implique un manque de références pour contextualiser les performances d’AR1.
Par exemple, les résultats en boucle fermée ne comportent que AR1 et une base de référence non raisonnée sur 75 scénarios. Bien que l’AR1 surpasse la référence sur tous les paramètres mesurés, il le fait souvent d’un seul pour cent en moyenne et avec un écart beaucoup plus important que la référence.

Pour cette raison, je conseillerais de prendre ces résultats avec des pincettes avant que d’autres architectures frontières ne soient évaluées dans AlpaSim.
Conclusion
Malgré le manque de résultats contextualisés, AR1 et les ensembles de données qui l’accompagnent restent une réussite technique impressionnante et une bonne indication de la direction que prend la conduite autonome : des modèles de bout en bout héritant des connaissances mondiales de VLM massifs formés sur des tâches incarnées.
Cependant, la collecte d’ensembles de données causales nécessaires pour permettre la chaîne de causalité nécessite des investissements et des efforts d’étiquetage importants, ce qui limite la reproductibilité. jusqu’à ce que ces ensembles de données soient rendus publics. Dans mon prochain article, je comparerai l’approche AR1 avec un autre modèle de pointe qui élimine entièrement les étiquettes textuelles et entraîne à la place les VLM à agir et à raisonner dans un espace latent.
Merci d’avoir lu jusqu’ici !
Si vous avez trouvé cet article utile, veuillez considérer le partager; cela aide véritablement à soutenir le temps et les efforts nécessaires à la production de ce travail. Comme toujours, n’hésitez pas à contactez-moi si vous avez des questions, des réflexions ou des idées de suivi. Si vous souhaitez soutenir mes recherches et mes écrits indépendants, n’hésitez pas à achète-moi un café 😉
Jusqu’à la prochaine fois ! 👋



