
Des modèles d’IA possibles aux modèles probables
Depuis des années, j’ai participé à de nombreuses conversations sur l’IA générative (et vous l’avez probablement fait aussi !). Ces conversations variaient en termes d’orientation, allant de celles avec le grand public sur l’utilisation de l’IA à celles avec des personnes plus techniques sur la précision des modèles. Peu importe avec qui je discute, les gens sont souvent fascinés et curieux de savoir ce que les modèles peuvent faire.
Un LLM peut-il écrire un pilote de noyau fonctionnel ? Ça peut. Peut-il écrire une chanson sur combien vous aimez votre chat ? jeje ne peux certainement pas. Un modèle de diffusion peut-il générer une image photoréaliste d’un astronaute médiéval ? Ça peut.
Mais est-ce que « peut » ça veut dire que ce sera bien ? Il s’avère que c’est quoi « possible » pour la plupart des modèles, la barre peut être étonnamment basse.
En tant que personne ayant étudié les probabilités ou les statistiques, vous savez probablement que dans un espace échantillon suffisamment grand, presque tout devient possible. Le défi n’est pas de déterminer si un résultat peut se produire ; il s’agit de comprendre quelle est la probabilité de ce résultat et si nous pouvons y compter à plusieurs reprises.
C’est vrai, il y a quelque chose que beaucoup confondent à propos de la théorie des probabilités : si elle est liée à l’IA générative. Cette distinction est importante car la création d’un système d’IA de production est très différente de la création d’une démo. Les démos prospèrent sur des cas extrêmes intéressants. Les systèmes de production dépendent de la cohérence.
Alors que les systèmes d’IA jouent un rôle de plus en plus important dans les flux de travail et la prise de décision, il convient de revoir les idées fondamentales de la théorie des probabilités et d’examiner où les hypothèses courantes sur la fiabilité de l’IA commencent à s’effondrer.
1. Dimensionnalité et espace des possibles
Pour être honnête, parler de systèmes fiables est bien plus facile que de les construire. Pour comprendre pourquoi la fiabilité reste très difficile, il est utile de prendre du recul et de réfléchir aux espaces d’échantillonnage. Commençons par le cas le plus simple, un tirage au sort. Pour un tirage au sort : . Les résultats possibles sont faciles à visualiser car il existe un petit espace de possibilités.
Considérons maintenant un modèle de langage générant une séquence de 512 jetons avec un vocabulaire de 50 000 jetons possibles, ce qui donne un échantillon d’espace de taille . La taille de cet espace échantillon est presque impossible à comprendre, et encore moins à visualiser (dans votre tête ou dans la pratique).
Dans de tels cas, où l’espace est vaste, la région correspondant à des résultats utiles, cohérents et factuellement corrects peut devenir étonnamment petite par rapport au nombre d’alternatives plausibles. En d’autres termes, la mer des résultats possibles, ce qui est probable est un étang…
Lorsque le modèle renvoie une réponse indiquant que c’est possible, mais non probable, nous appelons cela une hallucination. Et une hallucination n’est donc pas nécessairement un bug logiciel. Au lieu de cela, cela se produit parce que le modèle échantillonne des régions de la distribution avec une probabilité non nulle mais peu de valeur pratique.
À première vue, vous pourriez penser :
« Si nous collectons simplement plus de données, les hallucinations disparaîtront. »
Mais le défi est que les hallucinations surviennent naturellement dans les systèmes probabilistes. L’échantillonnage à partir d’une distribution introduit toujours la possibilité d’atterrir dans des régions à faible probabilité.

2. Mesures fréquentistes vs attentes bayésiennes
Lors de l’évaluation des systèmes d’IA, il existe souvent deux approches très différentes. Le premier est plus ou moins un fréquentiste perspective : vous exécutez 1000 tâches de benchmark et mesurez les performances. Si un modèle résout correctement 850, nous appelons cela un système précis à 85 %.
La seconde est une Bayésien perspective, où vous commencez par des attentes sur la façon dont un système intelligent devrait se comporter et mettez à jour ces croyances lorsque des pannes inattendues se produisent.
Cette différence devient importante car les invites sont rarement des événements indépendants. Supposons qu’un modèle réponde correctement à neuf questions mathématiques. Sur cette base, nous pouvons supposer que la probabilité de répondre correctement à la question dix est son exactitude rapportée.
Mais les modèles linguistiques ne sont pas une collection d’essais isolés de Bernoulli. Leurs résultats dépendent du contexte précédent, des représentations cachées et de la densité des exemples associés au sein de la distribution de formation.
Ce qui signifie que leurs performances sont souvent conditionnel plutôt que statique.
3. La confiance n’est pas la même chose que la probabilité
L’une des fonctions les plus couramment utilisées en apprentissage automatique est la fonction Softmax. Nous interprétons souvent les résultats de Softmax comme des scores de confiance : «Si le modèle donne 0,90 pour cat, c’est sûr à 90 %. Mais cette interprétation peut être trompeuse.
Bon, prenons du recul une seconde : la fonction Softmax indique qu’en raison du terme exponentiel, de petites différences entre les logits peuvent être amplifiées.
Ainsi, un modèle peut paraître très confiant non pas parce qu’il «sait » quelque chose, mais parce qu’un logit s’est avéré être légèrement plus grand que les autres et que l’opération exponentielle a amplifié la différence.
Ainsi, lorsque ChatGPT prédit le mot suivant, il répond essentiellement :
« De tous les jetons possibles, après Softmax, lequel est le plus probable ? »
Cela crée ce que je considère comme le «imbécile confiant » problème : un système affirmant avec confiance quelque chose d’incorrect parce qu’il n’a pas appris à exprimer l’incertitude.

4. La loi des grands nombres et pourquoi plus de données ne signifie pas automatiquement plus de vérité
La loi des grands nombres stipule qu’à mesure que la taille des échantillons augmente, les moyennes observées se rapprochent de leurs valeurs attendues. Cette idée motive souvent l’utilisation d’ensembles de données extrêmement volumineux pour entraîner nos modèles. Après tout, si un modèle voit suffisamment d’exemples, il finira par apprendre la vérité, n’est-ce pas ?
À première vue, cela semble raisonnable, principalement parce que c’est ainsi qu’on apprend ! Mais la loi des grands nombres cache une hypothèse importante : la distribution sous-jacente doit rester relativement stable.
La connaissance humaine et le langage ne sont pas des distributions stables. Ils changent continuellement et contiennent des contradictions, des préjugés et des inexactitudes. La langue parlée varie d’une région à l’autre. Même au sein d’une même ville, les gens utiliseraient différemment la même langue, les mêmes expressions et les mêmes mots.
Le modèle ne converge donc pas nécessairement vers « vérité. » Au lieu de cela, il converge vers des modèles dominants. Ainsi, si une idée fausse apparaît assez fréquemment dans les données, le modèle peut l’apprendre car, statistiquement, elle devient la continuation la plus probable.
5. La stochasticité n’est pas nécessairement synonyme de créativité
Beaucoup décrivent souvent les systèmes d’IA comme « créatifs » lorsqu’ils produisent des résultats surprenants. Cependant, d’un point de vue probabiliste, quelque chose d’autre pourrait se produire.
L’échantillonnage de la température modifie la probabilité que le modèle sélectionne des jetons moins probables. Les échantillons à basse température sont prévisibles et sûrs ! Les personnes ayant une température élevée ont tendance à être plus diversifiées et plus surprenantes, ce qui entraîne souvent un plus grand risque d’hallucinations.
Ainsi, l’augmentation de l’échantillonnage de la température aplatit effectivement la distribution de probabilité. Ce qui signifie que les résultats à faible probabilité seront échantillonnés plus fréquemment. Ce que nous interprétons parfois comme de la créativité peut plutôt être l’exploration par modèle de régions moins probables de la distribution.

6. Passer du possible au fiable
Si notre objectif est de créer des systèmes d’IA qui fonctionnent de manière cohérente dans des environnements réels, nous devons aller au-delà de la question de savoir si quelque chose est possible et nous concentrer sur la fiabilité. Encore une fois, c’est plus facile à dire qu’à faire. Mais voici quelques approches utiles pour y parvenir :
1- Utiliser des techniques telles que l’échelle de Platt et la régression isotonique pour aider à aligner les scores de confiance sur les performances observées.
2- Utiliser des méthodes telles que les réseaux de neurones bayésiens ou Monte Carlo Dropout pour aider à quantifier ce qu’un modèle ne sait pas.
3- Utiliser des méthodes de validation externes pour appliquer la structure et les exigences de sortie, plutôt que de supposer que le modèle suivra naturellement les règles.
Pensées finales
Il y a quelques années, tout le monde était impressionné par les systèmes d’IA qui prédisaient simplement le mot suivant. Nous découvrons désormais que prédire le mot suivant n’est qu’une partie du problème.
Le défi le plus difficile consiste à prédire le mot juste de manière répétée et fiable. Surtout avec de nouveaux modèles qui apparaissent chaque jour. Avec des modèles impressionnants et de nombreuses promesses de grandes performances. Ainsi, la prochaine fois que vous verrez une démo d’IA impressionnante, je vous encourage à demander (à vous-même ou à la personne présentant le modèle) :
« Est-ce ce que fait habituellement le modèle, ou s’agit-il d’un échantillon particulièrement chanceux ? »
Dans un monde aux possibilités presque infinies, presque tout peut arriver. Cependant, l’ingénierie s’intéresse rarement à ce qui peut arriver. Il s’agit de ce à quoi vous pouvez faire confiance pour que cela se reproduise.



