L’apprentissage automatique rencontre les données de panel : ce que les praticiens doivent savoir

Auteurs: Augusto Cerqua, Marco Letta, Gabriele Pinto

L’apprentissage (ML) a acquis un rôle central dans la prise de décision en économie, en sciences sociales et en entreprise. Dans le secteur public, le ML est de plus en plus utilisé pour les problèmes de politique dits de prédiction : des contextes dans lesquels les décideurs politiques visent à identifier les unités les plus exposées au risque d’un résultat négatif et à intervenir de manière proactive ; par exemple, cibler les subventions publiques, prédire les récessions locales ou anticiper les schémas migratoires. Dans le secteur privé, des tâches prédictives similaires surviennent lorsque les entreprises cherchent à prévoir le taux de désabonnement des clients ou à optimiser l’évaluation du risque de crédit. Dans les deux domaines, de meilleures prévisions se traduisent par une allocation plus efficace des ressources et des interventions plus efficaces.

Pour atteindre ces objectifs, les algorithmes ML sont de plus en plus appliqués aux données de panel, caractérisées par des observations répétées des mêmes unités sur plusieurs périodes. Cependant, les modèles ML n’ont pas été conçus à l’origine pour être utilisés avec des données de panel, qui présentent des dimensions transversales et longitudinales distinctes. Lorsque le ML est appliqué aux données de panel, il existe un risque élevé de problème subtil mais sérieux : la fuite de données. Cela se produit lorsque des informations non disponibles au moment de la prédiction entrent accidentellement dans le processus de formation du modèle, gonflant ainsi les performances prédictives. Dans notre article «Sur la mauvaise (utilisation) de l’apprentissage automatique avec les données de panel» (Cerqua, Letta et Pinto, 2025), récemment publié dans le Bulletin d’économie et de statistiques d’Oxfordnous fournissons la première évaluation systématique des fuites de données dans le ML avec des données de panel, proposons des lignes directrices claires pour les praticiens et illustrons les conséquences grâce à une application empirique avec des données de comtés américains accessibles au public.

Le problème des fuites

Les données de panel combinent deux structures : une dimension temporelle (unités observées au fil du temps) et une dimension transversale (plusieurs unités, telles que des régions ou des entreprises). La pratique standard du ML, qui divise l’échantillon de manière aléatoire en ensembles d’entraînement et de test, suppose implicitement des données indépendantes et distribuées de manière identique (iid). Cette hypothèse n’est pas respectée lorsque des procédures ML par défaut (telles qu’une répartition aléatoire) sont appliquées aux données du panel, créant deux principaux types de fuite :

Fuite temporelle : des informations futures s’infiltrent dans le modèle pendant la phase de formation, ce qui rend les prévisions irréalistes. De plus, des informations passées peuvent se retrouver dans l’ensemble de tests, rendant ainsi les « prévisions » rétrospectives.
Fuite transversale : des unités identiques ou très similaires apparaissent dans les ensembles d’entraînement et de test, ce qui signifie que le modèle a déjà « vu » la majeure partie de la dimension transversale des données.

La figure 1 montre comment différentes stratégies de division affectent le risque de fuite. Une répartition aléatoire au niveau de l’unité de temps (panneau A) est la plus problématique, car elle introduit des fuites à la fois temporelles et transversales. Des alternatives telles que la division par unités (panneau B), par groupes (panneau C) ou par temps (panneau D) atténuent un type de fuite mais pas l’autre. En conséquence, aucune stratégie n’élimine complètement le problème : le choix approprié dépend de la tâche à accomplir (voir ci-dessous), puisque dans certains cas, une forme de fuite peut ne pas constituer un véritable problème.

Figure 1 | Ensembles de formation et de test selon différentes règles de fractionnement

Remarques : Dans cet exemple, les données de panel sont structurées avec les années comme variable de temps, les comtés comme variable d’unité et les États comme variable de groupe. Image réalisée par les auteurs.

Deux types de problèmes de politique de prévision

Un élément clé de l’étude est que les chercheurs doivent définir clairement leur objectif de prédiction ex ante. Nous distinguons deux grandes classes de problèmes de politique de prédiction :

1. Prédiction transversale : la tâche consiste à cartographier les résultats entre les unités au cours de la même période. Par exemple, imputer les données manquantes sur le PIB par habitant dans toutes les régions alors que seules certaines régions disposent de mesures fiables. La meilleure répartition ici se situe au niveau de l’unité : différentes unités sont affectées aux ensembles de formation et de test, tandis que toutes les périodes sont conservées. Cela élimine les fuites transversales, même si les fuites temporelles subsistent. Mais comme le but n’est pas de faire des prévisions, ce n’est pas un véritable problème.

2. Prévisions séquentielles : l’objectif est de prédire les résultats futurs sur la base de données historiques, par exemple en prédisant la baisse des revenus au niveau du comté un an à l’avance pour déclencher des interventions précoces. Ici, la répartition correcte se fait par temps : périodes antérieures pour la formation, périodes ultérieures pour les tests. Cela évite les fuites temporelles mais pas les fuites transversales, ce qui ne constitue pas un véritable problème puisque les mêmes unités sont prévues dans le temps.

La mauvaise approche dans les deux cas est la répartition aléatoire par unité de temps (panneau A de la figure 1), qui contamine les résultats avec les deux types de fuites et produit des mesures de performances trompeuses.

Lignes directrices pratiques

Pour aider les praticiens, nous résumons un ensemble de choses à faire et à ne pas faire pour appliquer le ML aux données de panel :

Choisissez la répartition de l’échantillon en fonction de la question de recherche : basée sur l’unité pour les problèmes transversaux, basée sur le temps pour les prévisions.
Les fuites temporelles peuvent se produire non seulement à travers les observations, mais également à travers les prédicteurs. Pour les prévisions, utilisez uniquement des prédicteurs décalés ou invariants dans le temps. L’utilisation de variables contemporaines (par exemple, utiliser le chômage en 2014 pour prédire le revenu en 2014) est conceptuellement erronée et crée une fuite de données temporelles.
Adaptez la validation croisée aux données du panel. Les CV aléatoires pliés en K que l’on trouve dans la plupart des logiciels prêts à l’emploi sont inappropriés, car ils mélangent des informations futures et passées. Utilisez plutôt des fenêtres glissantes ou extensibles pour la prévision, ou un CV stratifié par unités/groupes pour la prévision transversale.
Assurez-vous que les performances hors échantillon sont testées sur des données véritablement invisibles, et non sur des données déjà rencontrées pendant la formation.

Application empirique

Pour illustrer ces problématiques, nous analysons un panel équilibré de 3 058 comtés américains de 2000 à 2019, en nous concentrant exclusivement sur les prévisions séquentielles. Nous considérons deux tâches : un problème de régression (prévoir le revenu par habitant) et un problème de classification (prédire si le revenu diminuera au cours de l’année suivante).

Nous exécutons des centaines de modèles, différentes stratégies de répartition, utilisation de prédicteurs contemporains, inclusion de résultats décalés et d’algorithmes (Random Forest, XGBoost, Logit et OLS). Cette conception complète nous permet de quantifier la manière dont les fuites gonflent les performances. La figure 2 ci-dessous présente nos principales conclusions.

Le panneau A de la figure 2 montre les performances de prévision pour les tâches de classification. Les divisions aléatoires donnent une très grande précision, mais c’est illusoire : le modèle a déjà vu des données similaires lors de l’entraînement.

Le panneau B montre les performances de prévision pour les tâches de régression. Une fois de plus, les divisions aléatoires donnent aux modèles une apparence bien meilleure qu’ils ne le sont réellement, tandis que les divisions temporelles correctes montrent une précision beaucoup plus faible, mais réaliste.

Figure 2 | Fuite temporelle dans le problème de prévision

Panel A – Tâche de classification

Panel B – Tâche de régression

Dans cet article, nous montrons également que la surestimation de la précision du modèle devient significativement plus prononcée au cours des années marquées par des changements de distribution et des ruptures structurelles, comme la Grande Récession, ce qui rend les résultats particulièrement trompeurs à des fins politiques.

Pourquoi c’est important

La fuite de données est plus qu’un écueil technique ; cela a des conséquences réelles. Dans les applications politiques, un modèle qui semble très précis lors de la validation peut s’effondrer une fois déployé, entraînant une mauvaise allocation des ressources, des crises manquées ou un ciblage erroné. En entreprise, le même problème peut se traduire par de mauvaises décisions d’investissement, un ciblage client inefficace ou une fausse confiance dans l’évaluation des risques. Le danger est particulièrement aigu lorsque les modèles d’apprentissage automatique sont destinés à servir de systèmes d’alerte précoce, où une confiance mal placée dans des performances exagérées peut entraîner des échecs coûteux.

En revanche, des modèles bien conçus, même s’ils sont moins précis sur papier, fournissent des prévisions honnêtes et fiables qui peuvent éclairer de manière significative la prise de décision.

Emporter

Le ML a le potentiel de transformer la prise de décision tant politique que commerciale, mais seulement s’il est appliqué correctement. Les données de panel offrent de riches opportunités, mais sont particulièrement vulnérables aux fuites de données. Pour générer des informations fiables, les praticiens doivent aligner leur flux de travail de ML sur l’objectif de prédiction, tenir compte des structures temporelles et transversales et utiliser des stratégies de validation qui évitent les évaluations trop optimistes et une illusion de grande précision. Lorsque ces principes sont suivis, les modèles évitent le piège des performances gonflées et fournissent plutôt des orientations qui aident véritablement les décideurs politiques à allouer les ressources et les entreprises à faire des choix stratégiques judicieux. Compte tenu de l’adoption rapide du ML avec des données de panel dans les domaines public et privé, remédier à ces écueils est désormais une priorité urgente pour la recherche appliquée.

Références

A. Cerqua, M. Letta et G. Pinto, « Sur la (mauvaise) utilisation de l’apprentissage automatique avec les données de panel », Bulletin d’économie et de statistiques d’Oxford (2025) : 1-13, https://doi.org/10.1111/obes.70019.

Blog

L’apprentissage automatique rencontre les données de panel : ce que les praticiens doivent savoir

Le problème des fuites

Deux types de problèmes de politique de prévision

Lignes directrices pratiques

Application empirique

Pourquoi c’est important

Emporter

Références

La méthode statistique mcRigor améliore la rigueur du partitionnement des métacellules dans l'analyse des données monocellulaires

Comment classer le sous-type de cancer du poumon à partir des numéros de copies d'ADN à l'aide de PyTorch

Leave A Reply Annuler la réponse

Subscribe our Newsletter

Company

Links

Blog

Le problème des fuites

Deux types de problèmes de politique de prévision

Lignes directrices pratiques

Application empirique

Pourquoi c’est important

Emporter

Références

La méthode statistique mcRigor améliore la rigueur du partitionnement des métacellules dans l'analyse des données monocellulaires

Comment classer le sous-type de cancer du poumon à partir des numéros de copies d'ADN à l'aide de PyTorch

You may also like

Pourquoi les ingénieurs en IA vont au-delà de LangChain vers des architectures d’agents natifs

Ensembles d’ensembles d’ensembles : un guide de l’empilement

4 fichiers YAML au lieu de PySpark : comment nous laissons les analystes créer des pipelines de données sans ingénieurs

Leave A Reply Annuler la réponse

Subscribe our Newsletter

Company

Links​

Login with your site account

Register a new account

Links