
Les LLM peuvent-ils remplacer les répondants à l’enquête ?
vous demandez à un LLM de simuler 6 000 ménages américains répondant à des questions sur l’inflation ? Des articles récents révèlent que les grands modèles linguistiques peuvent reproduire les réponses moyennes des principales enquêtes auprès des ménages à un point de pourcentage près (Zarifhonarvar, 2026). En 2020, l’Enquête sur les attentes des consommateurs (SCE) a fait état d’un taux d’inflation médian sur un an d’environ 3 %. La médiane produite par un LLM motivé avec des personnages réalistes et une instruction de seuil de connaissances : également environ 3 %. Assez proche pour que les LLM aient été présentés comme un complément peu coûteux et à haute fréquence aux enquêtes SCE, Michigan et Survey of Professional Forecasters.
Dans un article récent, Les LLM peuvent-ils imiter les enquêtes auprès des ménages ?co-écrit avec Ami Dalloul de l’Université de Duisburg-Essen, nous examinons le deuxième moment, la partie d’une distribution de probabilité qui vous indique si le modèle représente une opinion ou mille. C’est ici que disparaît le succès apparent des enquêtes basées sur le LLM. Le même modèle Llama-3 qui atteint la médiane SCE à un point de pourcentage près place 95 % de ses répondants simulés dans une fenêtre de deux points de pourcentage. Les réponses réelles du SCE pour 2020 vont d’environ moins 25 à plus 27 pour cent. Bref, la moyenne est bonne, mais la population derrière elle n’existe pas. Ainsi, exécuter une simulation avec plusieurs milliers de personnages LLM se résume à un seul agent représentatif.
Figure 1: Dispersion des populations réelles et synthétiques des enquêtes

Note: Le panneau de gauche représente la dispersion des répondants individuels du SCE 2020 autour de leur moyenne. Le rayonnement diffus reflète des croyances hétérogènes parmi les répondants. Le panneau du milieu applique la même construction aux réponses synthétiques d’un modèle Llama-3.1-8B-Instruct invité avec des personnages correspondant à la distribution démographique SCE. La dispersion s’effondre jusqu’à un point proche. Le modèle récupère la moyenne et élimine tout le reste. Le panneau de droite utilise le même modèle de lama non appris avec ascension en pente (GA). Le modèle non appris permet d’obtenir une dispersion plus réaliste et ne s’effondre pas autour du mode.
Réduire le mode
Nous avons comparé cinq LLM (Llama-3-8B, Llama-3-70B, Claude-3.7-Sonnet, DeepSeek-V3, GPT-4o) par rapport au SCE, au Michigan Survey et au Survey of Professional Forecasters. Dans les enquêtes humaines, 44 à 70 % des répondants donnent des réponses à plus de 3 points de pourcentage de la réponse modale ; dans les échantillons LLM, cette part est essentiellement nulle.
Les remèdes classiques issus de la littérature sur les enquêtes et simulations n’améliorent pas ce problème. Des personnalités dérivées du recensement avec des caractéristiques complexes et variables, des instructions de coupure de connaissances nulles (« vous ne connaissez pas les événements après juin 2018 ») et des invites explicites « ne pas rechercher de statistiques » sont toutes par défaut sur la même distribution étroite. La cause probable est que les LLM voient les tableaux de l’IPC, la couverture médiatique des publications de l’enquête FRBNY et les réplications académiques dans leurs corpus de formation. Lorsqu’on lui demande l’espérance d’inflation médiane pour 2020, le modèle effectue une récupération par rapport aux données mémorisées. Le poids de ces données d’entraînement l’emporte sur tout ce que les instructions rapides lui demandent de faire.
Désapprendre les LLM
Si les statistiques mémorisées constituent le problème, une solution potentielle consiste à les supprimer des poids plutôt que de demander au modèle de détourner le regard. Nous avons appliqué deux méthodes de désapprentissage à Llama-3.1-8B-Instruct, un modèle open source qui nous permet de modifier ses poids :
- Ascension du gradient (GA) maximise la perte de prédiction sur un ensemble oublié de séries de l’IPC et d’agrégats d’enquête, avec une perte de rétention sur le raisonnement des micro-enquêtes afin que la capacité générale survive.
- Optimisation des préférences négatives (NPO) traite l’ensemble d’oublis comme des complétions dépréciées et minimise une perte de préférence limitée par rapport à un modèle de référence.
Les données que nous demandons au modèle d’oublier sont le record officiel d’inflation lui-même : les séries mensuelles de l’IPC et les attentes d’inflation moyennes publiées à partir des enquêtes FRBNY SCE et Michigan. L’effet de désapprentissage sur la distribution des réponses est présenté dans le tableau 1.
Tableau 1 Précision de la queue avec différentes stratégies de désapprentissage

Note: Désapprendre les stratégies pour atténuer l’effondrement du mode. L’ascension de gradient (GA) est une méthode de désapprentissage ciblée dans laquelle le modèle est affiné pour maximiser la perte sur un ensemble de données de statistiques officielles de l’IPC tout en minimisant la perte, ou la rétention (RT), sur un ensemble de données de micro-enquête. L’optimisation des préférences négatives (NPO) traite les statistiques officielles comme des échantillons négatifs pour pénaliser leur génération tout en traitant les échantillons de rétention (RT) comme positifs. Réponses à l’enquête synthétique sur les anticipations d’inflation sous forme d’écarts en pourcentage par rapport au mode et à la moyenne (entre parenthèses) dans les catégories de correspondances exactes, écarts de ± 1 et > 3 %. Queue Acc. mesure la proximité avec le point de référence de dispersion de queue FRBNY (> ± 3,0 = 44,38).
La ligne de base Llama-3 (qui inclut un désapprentissage basé sur des invites) produit une correspondance de mode exacte sur 92 % des réponses et aucune réponse à plus de 3 pp. La précision de la queue par rapport à la référence SCE de 44 % est donc nulle. Après l’AG, les correspondances exactes chutent à 24 % et 43 % des réponses dépassent ±3 pp ; la précision de la queue atteint 97 %. NPO est comparable à 37 % et 43 %, avec une précision de queue de 98 %. En d’autres termes, les deux méthodes de désapprentissage semblent retrouver une distribution plus réaliste.
Figure 2 Dispersion des LLM et modèles de désapprentissage

Note: Le côté gauche représente les estimations de densité du noyau des attentes d’inflation pour 2020 à partir du FRBNY SCE et de deux variantes de Llama-3 entraînées avec des méthodes de désapprentissage, une ascension de gradient (GA) et une optimisation des préférences négatives (NPO). Les deux variantes de désapprentissage couvrent la plage dans laquelle FRBNY SCE place la masse de probabilité, bien qu’elles restent toujours plus concentrées que la référence humaine et légèrement biaisées vers des moyennes plus élevées. Le côté droit compare les KDE des attentes générées par LLM (GPT-4o, Llama-3, etc.) à FRBNY SCE en 2020. Les courbes LLM (axe de gauche) sont étroitement regroupées autour d’une région étroite, tandis que la courbe FRBNY SCE reste beaucoup plus large. Les LLM peuvent correspondre à une tendance centrale mais ne parviennent pas à reproduire la diffusion transversale des microdonnées d’enquête. Bande passante = 0,5 pour tous les KDE.
Les densités du noyau (Figure 2) montrent que les modèles disponibles dans le commerce regroupent la masse de probabilité en un mince pic proche de la moyenne. Les variantes non apprises se sont répandues en masse dans la zone où les personnes interrogées du SCE les ont placées.
Simulation d’un essai contrôlé randomisé
Une diffusion plus large est nécessaire mais pas suffisante pour l’application qui a motivé notre article : répliquer des ECR d’enquête avec des versions synthétiques. Les ECR coûtent cher. Une fois la collecte de données terminée, un chercheur ne peut pas revenir en arrière pour tester une théorie apparue plus tard ou modifier un traitement. Les agents synthétiques nous permettraient de faire exactement cela, si leur comportement correspond à celui produit par les véritables répondants.
Pour tester cela, nous reproduisons un ECR du monde réel réalisé par Coibion, Gorodnichenko et Weber (2022). Les répondants sont répartis au hasard dans l’un des différents groupes : un groupe témoin ne voit aucune information, plusieurs groupes de traitement reçoivent chacun une information économique différente (le taux d’inflation passé réel, l’objectif de 2 % de la Fed, etc.), et un groupe placebo voit un contenu sans rapport avec l’inflation. Tous les répondants signalent d’abord une anticipation d’inflation antérieure, puis voient ce qui leur est attribué, puis signalent une nouvelle anticipation a posteriori. La différence entre postérieur et antérieur est la révision du répondant.
Un traitement fonctionne si ses révisions diffèrent visiblement de celles du groupe témoin et si la direction du changement correspond à ce que prévoit la théorie économique : révisions à la baisse suite à la communication du FOMC, révisions à la hausse suite à l’annonce d’une hausse des prix de l’essence. La vérification de nos agents synthétiques est de savoir si leurs révisions se séparent de la même manière que les répondants humains.
Nous avons construit 30 000 personnages synthétiques à partir des données démographiques dérivées du recensement et avons estimé l’effet moyen du traitement sur chacun des trois LLM, y compris nos non appris. La première vérification porte sur les a priori eux-mêmes : les agents des anticipations d’inflation font rapport avant de voir la moindre information. La figure 3 représente la moyenne et l’écart type de ces priorités pour l’ensemble des sous-groupes démographiques pour le critère de référence humain et les trois LLM. Un modèle de désapprentissage (Llama-GA) se rapproche de l’agrégat humain en termes de niveau et de dispersion. Alors qu’une méthode de désapprentissage a fonctionné (GA), l’autre n’a pas fonctionné (NPO). Le désapprentissage n’est donc peut-être pas une solution universelle.
Figure 3 Estimations modèles de l’inflation perçue

Note: Chaque panneau est représenté par sous-groupe démographique pour le repère humain (Coibion et al., 2022), le lama-3 de référence et ses deux variantes non apprises (GA, NPO). La ligne pointillée marque la valeur humaine « Tous ». Côté gauche : Llama-3 et Llama-NPO sont essentiellement stables selon leurs caractéristiques démographiques ; Llama-GA suit le niveau humain en moyenne mais ne reproduit pas l’ordre démographique (par exemple, en prédisant la moyenne la plus élevée pour « université ou plus » et « Inc T3 », contrairement au modèle humain). Côté droit : le modèle GA non appris récupère l’essentiel de la dispersion réduite par le modèle de base.
La vérification suivante porte sur la manière dont les priorités sont mises à jour après le traitement des informations. Dans les modèles de base Llama-3 et Llama-NPO, les révisions sont essentiellement identiques pour chaque traitement et les modèles n’enregistrent aucun effet du traitement. Llama-GA est le seul où les traitements se séparent, et au sein de son plus grand sous-groupe d’agents (80 % de l’échantillon), les quatre traitements de politique monétaire (inflation passée, objectif de la Fed, prévision du FOMC, déclaration du FOMC) produisent des révisions négatives et significatives du même signe et de la même ampleur que les personnes interrogées dans Coibion et al.
Que retenir de cela
Pour les chercheurs et les praticiens qui décident d’utiliser ou non les LLM pour mener des enquêtes, le résumé est le suivant :
- Les LLM sont incapables d’imiter différents personnages. La simulation d’enquêtes revient à un agent répondant à la même question des milliers de fois, atteignant à chaque fois quelque chose de très proche de la moyenne, parfois jusqu’à quatre décimales.
- Le désapprentissage ciblé récupère l’essentiel de la dispersion et une part respectable des effets du traitement dans un ECR auprès de répondants humains. Cependant, les méthodes de désapprentissage atteignent différents niveaux de réussite.
- L’écart entre l’exactitude moyenne et l’exactitude distributionnelle est suffisamment grand pour que tout article utilisant des répondants synthétiques doive rapporter la seconde.
Les travaux futurs devraient traiter l’exactitude de la répartition et les fuites de données comme des contraintes conjointes plutôt que comme des préoccupations secondaires. Les progrès dépendront de méthodes qui tiennent compte à la fois de ce que savent les modèles et de la manière dont leurs résultats sont évalués, en accordant une plus grande attention à la dispersion, aux queues et à la mise à jour des croyances plutôt qu’aux seules moyennes.
Références
Coibion, O., Y. Gorodnichenko et M. Weber (2022). Les communications de politique monétaire et leurs effets sur les anticipations d’inflation des ménages. Journal d’économie politique 130(6), 1537-1584.
Dalloul, A., Pfeifer, M. (2026). Les LLM peuvent-ils imiter les enquêtes auprès des ménages ? : Des agents représentatifs aux répartitions de la population. SSRN préimpression. Lien vers le document de travail
Zarifhonarvar, A. (2026). Générer des attentes d’inflation avec de grands modèles de langage. J.journal d’économie monétaire 157103859
Données de réplication
Dalloul, A., Pfeifer, M. (2026). Données de réplication pour : « Les LLM peuvent-ils imiter les enquêtes auprès des ménages ? : Des agents représentatifs aux distributions de population », https://doi.org/10.7910/DVN/CRIRVJHarvard Dataverse, V1.



