
Les hallucinations dans les LLM ne sont pas un bug dans les données
n’est pas un problème de qualité des données. Ce n’est pas un problème de formation. Ce n’est pas un problème que vous pouvez résoudre avec plus RLHFun meilleur filtrage ou une fenêtre contextuelle plus grande. Il s’agit d’une propriété structurelle de ce pour quoi ces systèmes sont optimisés.
J’occupe ce poste depuis des mois, et la réaction est prévisible : les chercheurs travaillant sur l’augmentation de la récupération, le réglage fin des pipelines et les techniques d’alignement préféreraient un cadre plus optimiste. Je comprends pourquoi.
Ce qui manque dans cet argument, c’est la géométrie. L’intuition des objectifs et de l’architecture est nécessaire mais pas suffisante. Nous devons ouvrir le modèle et examiner ce qui se passe réellement à l’intérieur lorsqu’un système produit une mauvaise réponse sûre. Pas aux logits. Pas aux schémas d’attention. Au parcours interne de la représentation elle-même, couche par couche, de l’entrée à la sortie. C’est ce qu’a fait le travail que je présente ici.
Ce que sait le flux résiduel avant que le modèle ne mente
La configuration est très simple. Nous prenons une invite factuelle – du genre où un transformateur doit récupérer une association stockée – et nous l’exécutons dans deux conditions : une où le modèle produit la bonne réponse, une où il produit une mauvaise réponse sûre (hallucination). Ensuite, nous suivons la trajectoire du flux résiduel – le vecteur de représentation interne – couche par couche à travers le réseau. La question est : ces deux trajectoires divergent-elles parce que le modèle manque simplement de l’association pertinente ? Ou est-ce qu’il se passe quelque chose de plus spécifique ?
Pour comprendre ce que cela signifie, considérez l’état interne du modèle à chaque couche comme un point dans l’espace – un espace de grande dimension. À mesure que le modèle traite une invite, ce point se déplace. Il trace un chemin. Ce que mesure l’expérience, c’est si le chemin parcouru lors d’une réponse correcte et le chemin parcouru lors d’une hallucination divergent parce qu’un chemin est plus court – le modèle manque d’informations – ou parce qu’ils vont dans des directions différentes tout en parcourant la même distance.
La réponse est la deuxième. Les chemins sont de même longueur. Ils indiquent des endroits différents. C’est ce que montre la Figure 1 : deux trajectoires partant de la même origine, parcourant la même distance, arrivant à des extrémités différentes de l’espace. Un vers la bonne réponse. Un loin de là.

Le ratio d’engagement : là où la répression devient visible
L’article introduit une métrique appelée taux d’engagement κ — essentiellement, quelle part de la masse de probabilité du modèle est activement dirigée vers ou loin du bon jeton à chaque couche.
Lors d’un traitement correct, κ augmente de manière monotone à travers le réseau (Figure 2 — courbes rouge, bleue et gris foncé). Le modèle renforce progressivement l’engagement envers la bonne réponse. C’est ce que vous attendez d’un système récupérant une association apprise.
Dans l’hallucination, quelque chose de différent se produit. κ ne reste pas simplement plat, ce qui indiquerait un échec de récupération – l’absence du modèle statistique pertinent. Au lieu de cela, κ s’effondre (courbes pointillées sur la figure 2). Dans tous les modèles testés, κ atteint un minimum nettement inférieur à sa valeur de départ avant de se redresser légèrement dans les couches finales. Dans LLaMA-2 13B et Mistral 7B, elle descend à κ_min = 0,08. Les valeurs p sont inférieures à 10⁻¹⁰⁰. Il ne s’agit pas d’un effet « subtil ».

Ce qui se passe? Le modèle ne manque pas de trouver la bonne réponse. Il éloigne activement la masse de probabilité du jeton correct au niveau des mêmes couches où il déplacerait la masse de probabilité vers lui dans les conditions correctes. L’échec est fondamentalement un dépassement.
Le modèle a codé la bonne réponse. C’est ce qui rend l’effondrement de κ significatif. Si le modèle manquait simplement de l’association pertinente – si « Paris » n’était jamais statistiquement lié à « capitale de la France » dans les pondérations – nous verrions une trajectoire plate ou bruyante. Rien à supprimer. La géométrie ne serait pas informative.
Ce que nous voyons à la place est une trajectoire qui commence dans la bonne direction (toutes les courbes de la figure 2 commencent essentiellement au même point) mais qui tourne ensuite. Le jeton correct accumule la probabilité dans les premières couches, comme le fait la course correcte, puis la perd dans les couches intermédiaires, exactement à la profondeur où il devrait monter dans les bonnes conditions (courbes rouge, bleue et gris foncé sur la figure 1). Pourquoi? La réponse honnête est que le document établit le quoi avec précision et laisse ouvert le pourquoi. Mais l’interprétation la plus plausible est celle de la concurrence. Ces modèles ne récupèrent pas de faits isolés. Ils prédisent le prochain jeton dans un contexte, et le contexte génère sa propre pression. Une phrase qui va dans une direction particulière – stylistiquement, thématiquement, syntaxiquement – crée un préalable solide sur la façon dont elle doit continuer. Lorsque la réponse factuellement correcte entre en conflit avec cet attracteur contextuel, le modèle ne lance pas une pièce de monnaie. Le signal contextuel, qui est dense et continu tout au long de la séquence, peut l’emporter sur le signal factuel, qui peut être rare dans les données d’entraînement.
Le signal d’entraînement n’a jamais dit explicitement au modèle de préférer la cohérence à la précision. Il a demandé au modèle de prédire le prochain jeton. La cohérence et l’exactitude s’alignent généralement. Dans le cas contraire, nous obtenons la ligne grise en pointillés de la figure 2.
Le modèle ne ment pas. Il fait exactement ce pour quoi il a été optimisé. Que est la partie inconfortable.
Trois régimes
L’une des découvertes empiriques les plus claires est que les sept modèles ne se répartissent pas continuellement le long d’un axe de comportement hallucinatoire. Ils se répartissent en trois groupes distincts :
| Modèles à 1B les paramètres montrent un début de réallocation de l’attention – une certaine séparation géométrique – mais une suppression incomplète. | Modèles à 1,6B-3B montrent une suppression intermédiaire. L’effondrement κ est présent mais moins profond. StableLM-2 1,6B atteint κ_min = 0,32 au lieu de 0,08. | Ensuite, il y a Gemma 2 2B, qui correspond à la profondeur de suppression de LLaMA-2. 13B et Mistral 7B malgré une fraction de leurs paramètres (κ_min = 0,08, p < 10⁻⁹¹). |
Il se passe quelque chose de réel sur le plan architectural, et pas seulement en fonction de l’échelle. Les choix architecturaux (mécanismes d’attention, normalisation, conception des couches) déterminent le plafond de la profondeur de suppression indépendamment du nombre de paramètres. Il s’agit d’une structure de phases.
Détecter les hallucinations
Nous avons cartographié, avec une précision géométrique, comment une classe spécifique de système échoue. La question causale – quels circuits spécifiques mettent en œuvre la suppression et pourquoi – reste ouverte. C’est le prochain problème. Ce que la géométrie établit, c’est que la suppression n’est pas accidentelle. Il ne s’agit pas d’une erreur d’étalonnage que vous pouvez corriger avec de meilleures invites ou un taux d’apprentissage différent. Il s’agit d’une propriété émergente des systèmes optimisés pour la prédiction du prochain jeton. La cohérence contextuelle et l’exactitude factuelle sont des objectifs différents. Lorsqu’ils sont en conflit, le signal d’entraînement ne tranche pas entre eux. Le dépassement est à quoi ressemble ce conflit de l’intérieur.
L’implication pratique est directe. Vous pouvez utiliser cette signature géométrique pour construire des détecteurs d’hallucinations, des sondes qui identifient les événements de suppression avant qu’ils n’atteignent la sortie. Ils fonctionnent bien. Mais ils sont locaux. Une sonde entraînée à la récupération factuelle ne se transfère pas proprement vers des tâches de raisonnement ou vers différents domaines de connaissances. La géométrie se déplace suffisamment pour que la détection se dégrade. Ce n’est pas un défaut dans l’approche. C’est de l’information. Il vous indique que la surveillance doit être spécifique au domaine, calibrée en fonction du contexte de déploiement, et non installée une seule fois et oubliée.
Pour quiconque construit des systèmes de production à grande échelle, telle est la conclusion opérationnelle : un moniteur par domaine, formé sur des données représentatives de ce domaine. L’alternative – un détecteur universel unique – n’est étayée par aucune preuve.
Ce que la géométrie ne peut pas réparer
Le mécanisme de remplacement documenté par ce travail n’est pas un « bug en attente d’être corrigé ». C’est une conséquence directe de la fonction objectif utilisée pour la formation des LLM. La prédiction du jeton suivant sur des séquences discrètes ne donne à un modèle aucun mécanisme permettant de privilégier l’exactitude factuelle à la cohérence contextuelle. Le signal d’entraînement ne peut pas les différencier. Le modèle apprend à parler couramment, ce qui est tout à fait remarquable. Le problème est que la fluidité et la précision coïncident généralement. Dans le cas contraire, la maîtrise l’emporte. C’est un résolution de conflits mécanisme produire un mauvais résultat. La géométrie vous montre le moment où cette décision se produit.
Pour répondre à la question causale – quels circuits spécifiques implémentent la suppression et s’ils peuvent être modifiés – nous avons besoin de correctifs d’activation à grande échelle, d’une analyse au niveau du circuit et, idéalement, d’expériences d’intervention causale qui vont au-delà des preuves corrélationnelles fournies par cet article. C’est la prochaine étape. Plusieurs groupes y travaillent.
Que la réponse à cette question causale nous permette d’inscrire l’hallucination dans le paradigme architectural actuel est une autre affaire. À mon avis, ce ne serait pas le cas – pas fondamentalement. Nous pouvons supprimer la suppression. Nous pouvons ajouter une couche de surveillance qui détecte l’effondrement κ avant qu’il n’atteigne la sortie. Nous pouvons affiner les domaines dans lesquels le conflit est le plus aigu. Ce sont de réelles améliorations. Mais la tension sous-jacente entre prédiction contextuelle et fondement factuel ne disparaît pas tant que le modèle n’a pas de représentations du monde qui ne sont pas dérivées d’une cooccurrence symbolique. Cela nécessite une architecture différente.
Pourquoi ce travail est important de toute façon
Une infrastructure qui caractérise avec précision les modes de défaillance des LLM actuels est une étape nécessaire pour la transition vers de meilleurs. Nous ne pouvons pas concevoir une architecture successeur sans comprendre en détail ce que le prédécesseur fait réellement à l’intérieur. Ce travail nous dit quelque chose de précis :
- Dans les LLM autorégressifs (architecture des transformateurs), la géométrie du traitement factuel correct et incorrect diverge en rotation et non en grandeur ;
- la divergence est active plutôt que passive ;
- la profondeur de la suppression est fonction de l’architecture et non d’une simple fonction d’échelle ;
- la signature géométrique se transfère à travers les domaines avec une dégradation systématique mais limitée.
La géométrie ne ment pas. Ce que nous choisissons d’en faire est une autre question.
Code, data, and related papers will be available at cert-framework.com soon.
Lecture recommandée
- Chris Olah, Nick Cammarata, Ludwig Schubert, Gabriel Goh, Michael Petrov et Shan Carter. 2020. Zoom avant : Une introduction aux circuits. Distiller, 5(3):e00024–001.
- Nelson Elhage, Neel Nanda, Catherine Olsson, Tom Henighan, Nicholas Joseph, Ben Mann, Amanda Askell, Yuntao Bai, Anna Chen, Tom Conerly, Nova DasSarma, Dawn Drain, Deep Ganguli, Zac Hatfield-Dodds, Danny Hernandez, Andy Jones, Jackson Kernion, Liane Lovitt, Kamal Ndousse, Dario Amodei, Tom Brown, Jack Clark, Jared Kaplan, Sam McCandlish et Chris Olah. 2021. Un cadre mathématique pour les circuits de transformateur. Fil de circuits de transformateur. https://transformercircuits.pub/2021/framework/index.html
- Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever et Dario Amodei. 2020. Les modèles linguistiques sont rares pour les apprenants. Dans Advances in Neural Information Processing Systems 33 : Conférence annuelle sur les systèmes de traitement de l’information neuronale 2020, NeurIPS 2020, du 6 au 12 décembre 2020, virtuel.
- Bereska, L. et Gavves, E. (2024). Interprétabilité mécaniste pour la sécurité de l’IA – une revue. préimpression arXiv arXiv:2404.14082.
- Guillaume Alain et Yoshua Bengio. Comprendre les couches intermédiaires à l’aide de sondes classificatrices linéaires. ICLR, 2016.



