Ensembles d’ensembles d’ensembles : un guide de l’empilement

l’apprentissage automatique est un jeu hypercompétitif d’ingénierie d’ensemble. La différence d’une légère amélioration du temps au tour ou des scores de défaite peut être mesurée en millions de dollars qu’une équipe rapporte lorsqu’elle fait ce qu’il faut pour être la meilleure. Non seulement chaque composant du système doit être parfait, mais la manière dont tout cela est réuni doit également l’être.

L’état de l’art

Les modèles améliorés par gradient ont toujours été les modèles les plus compétitifs pour les problèmes de prédiction tabulaire et de séries chronologiques. Il s’agit de méthodes d’ensemble car elles combinent les résultats de plusieurs estimateurs de base pour aboutir à une réponse finale meilleure que n’importe quelle prédiction individuelle seule. Mais l’état de la technique commence à changer. Les modèles pré-entraînés tels que TabPFN pour les données tabulaires et Chronos pour les séries chronologiques commencent à égaler ou à dépasser les modèles améliorés par gradient sur certains repères. D’une certaine manière, ce sont aussi des méthodes d’ensemble, sauf qu’au lieu de regrouper de nombreuses prédictions, elles constituent un ensemble de données dont elles tirent des enseignements. L’intuition derrière cela est largement applicable et peut être poussée plus loin.

Il existe désormais une situation dans laquelle deux approches complètement différentes se battent pour la première place dans les classements ML, et sont suivies de près par des dizaines d’autres architectures qui ont leurs propres forces et faiblesses. Étant donné qu’ils apprennent tous de différentes manières et qu’ils apprennent également à partir de données différentes, ils peuvent tous être utilisés ensemble dans un ensemble supplémentaire qui conserve la majorité des points forts, tout en éliminant la majorité des faiblesses. Si cela est fait correctement, cela conduit presque toujours à de meilleures performances et à un modèle plus robuste.

Affirmations et hypothèses

Les mêmes stratégies qui peuvent être utilisées pour déterminer quelles données sont importantes pour effectuer une prédiction donnée peuvent également être utilisées pour déterminer quels modèles sont importants pour effectuer une prédiction donnée. Tout comme une combinaison d’estimations de base dans des modèles améliorés par gradient est meilleure qu’une seule estimation, une combinaison de modèles vaut mieux qu’une.

Pour le reste de cette discussion, on part du principe que toutes les données correctes sont utilisées dans le processus de modélisation. En d’autres termes, toutes les informations pertinentes sont connues au temps t (ou lors de l’inférence). En science des données, il ne s’agit pas d’une hypothèse triviale, et une fausse hypothèse invaliderait largement les affirmations faites ici. Il s’avère que la plupart des travaux en science des données tentent simplement de satisfaire cette hypothèse avec des données au format correct. Notez également que les covariables/caractéristiques exposées aux modèles ne sont pas fixes, car différentes architectures fonctionnent mieux avec différentes données et peuvent ne pas être du tout capables de gérer certains types de données (ce sera un point particulièrement pertinent pour les hybrides langage/modèle numérique pré-entraînés, qui en sont encore aux premiers stades de développement).

Empilage multicouche

Une approche généralisée qui peut être modifiée pour les problèmes de séries chronologiques ou de régression/classification tabulaire

Couche 1

Il existe de nombreuses façons de créer des méthodes d’ensemble, et il est plus logique d’organiser ces étapes en couches. La première couche est la collection de modèles de base (par exemple CatBoost, MLP, TabPFN, etc.).

Pour les problèmes tabulaires, ceux-ci peuvent être formés avec une agrégation bootstrap, où de nouveaux ensembles de formation sont créés par échantillonnage à partir de l’ensemble de formation de base avec remplacement. Les modèles individuels sont ensuite entraînés sur chaque nouvel ensemble et leurs prédictions sont moyennées. L’optimisation des hyperparamètres peut également être effectuée pour chacun de ces modèles, bien que cela soit beaucoup plus coûteux en termes de calcul, car chaque modèle pour chaque échantillon (ou « sac ») est réentraîné plusieurs fois. Pour réduire le temps de formation, un planificateur d’optimisation d’hyperparamètres comme Optuna peut être utilisé afin que les exécutions de modèles qui ne fonctionnent pas bien soient écourtées et qu’un minimum local puisse être ciblé plus rapidement en utilisant quelques astuces d’optimisation statistique. Alternativement, plusieurs préréglages d’hyperparamètres peuvent être utilisés pour chaque modèle en fonction de ce qui a tendance à bien fonctionner pour ce modèle particulier sur des ensembles de données similaires. Les différents modèles avec différents préréglages peuvent soit être moyennés pour « représenter » un modèle, soit être enregistrés comme différentes versions du modèle et utilisés dans la couche suivante.

Pour la prévision de séries chronologiques, le bootstrapping traditionnel devient un problème. Puisque la dimension temporelle doit être respectée, un processus ne peut pas diviser aléatoirement ces données et les rééchantillonner pour créer de nouveaux ensembles d’apprentissage. Au lieu de cela, la validation croisée doit être effectuée avec une fenêtre glissante dans le temps. Pour ce processus, un nouveau modèle est créé pour prédire sur une fenêtre de validation avec des horodatages strictement après ceux présents dans l’ensemble d’apprentissage. Après la formation et l’évaluation, cette fenêtre de validation est ajoutée à l’ensemble de formation et le processus est répété pour la tranche de temps suivante (la fenêtre de validation suivante). Cela donne une bonne idée des performances du modèle au fil du temps, mais les modèles ne sont généralement pas regroupés à cette étape. Étant donné que les données de séries chronologiques récentes sont souvent les plus informatives, seul le modèle formé à la dernière étape est utilisé pour l’inférence. Cependant, les prédictions hors-pli des fenêtres précédentes peuvent toujours être utilisées dans la couche suivante.

Couche 2

Après la formation des modèles de base, les métriques d’évaluation sur l’ensemble de formation et l’ensemble de validation sont disponibles. Pour toutes les étapes intermédiaires, l’ensemble de test doit être complètement ignoré. Dans la couche 2, de nouvelles stratégies peuvent être utilisées puisque les performances du modèle sont connues et que des prédictions solides ont (espérons-le) déjà été faites.

Pour les problèmes tabulaires, une deuxième série de modèles groupés peut être formée dans laquelle les prédictions des modèles de couche 1 sont ajoutées en tant que fonctionnalités. Dans le cas où un modèle de base fonctionne mal lors de la validation, il peut être supprimé de cette étape.

Dans les séries chronologiques, la même stratégie ne peut pas être appliquée puisque les modèles de couche 1 n’ont jamais fait de prédictions pour l’ensemble de l’ensemble d’entraînement. Cela n’est pas possible car il n’y aurait pas de données sur lesquelles s’entraîner pour obtenir des prédictions pour le début de l’ensemble d’entraînement, et un modèle qui a été formé sur quoi que ce soit par la suite ne peut pas être utilisé pour obtenir les prédictions nécessaires à utiliser comme fonctionnalités dans le modèle. Une mise en garde à ce sujet est que si l’architecture du modèle de couche 2 peut gérer les valeurs manquantes, ou si seul un sous-ensemble de l’ensemble d’entraînement contenant des prédictions est utilisé, alors un réentraînement complet (sur les données d’entraînement et les prédictions du modèle de couche 1) peut être effectué au niveau de cette couche. Bien que cela soit possible, et peut-être utile, il existe des approches plus élégantes.

Puisque les performances du modèle sont connues et que des prédictions ont été faites, une combinaison de prédictions du modèle de base peut être utilisée comme nouveaux prédicteurs. Il existe plusieurs façons de procéder :

Faites simplement la moyenne de tous
Pondérer chaque prédiction définie par ses performances de validation et faire la moyenne
Prenez une combinaison linéaire de toutes les prédictions qui minimisent les pertes avec les moindres carrés ordinaires
Créez un ensemble gourmand qui commence avec le modèle le plus performant et ajoute lentement du poids aux autres modèles jusqu’à ce que les performances cessent de s’améliorer.
Si cela ne suffit pas, un modèle entier peut être formé uniquement sur les prédictions des modèles de base (cela n’est vraiment utile que s’il existe un nombre suffisamment grand de prédictions hors plage)

Notez que les fenêtres de validation de la couche 1 deviennent l’ensemble d’entraînement de la couche 2, donc seul le dernier ensemble de validation de la couche 1 est utilisé comme ensemble de validation de la couche 2. Au lieu d’essayer de déterminer quelle approche est la meilleure, la couche 2 devrait les essayer toutes car ces étapes sont efficaces sur le plan informatique.

Couche 3

Il est temps d’empiler plus de couches… L’approche tabulaire a produit des prédictions à partir d’une autre série de modèles en sac, et l’approche de séries chronologiques a produit les prédictions de différentes stratégies d’assemblage. La couche 3 utilisera simplement l’une des stratégies d’assemblage mentionnées dans les ensembles de séries chronologiques de la couche 2 pour créer le méta-modèle final. C’est le modèle qui doit être utilisé pour évaluer l’ensemble de test, même si c’est une bonne idée de vérifier qu’il surpasse réellement les modèles de base. Le modèle final devrait presque toujours gagner et sera moins sensible aux mauvaises prédictions d’un seul modèle, car les mauvaises prédictions peuvent être sous-pondérées et avoir tendance à être moyennées. À l’inverse, si un modèle détecte un modèle que les autres ne détectent pas, la pile multicouche peut apprendre à amplifier ces prédictions. Les seuls cas où cela est inefficace sont si un modèle est toujours meilleur dans tous les domaines, ce qui est assez rare, ou si un ou plusieurs modèles de base sont assez mauvais, auquel cas ils doivent être entièrement supprimés.

Est-ce que tout cela en valait la peine ?

Probablement. L’inconvénient est que cela nécessite la formation de plusieurs modèles au lieu d’un seul. Si les jeux de données sont suffisamment volumineux, les temps de formation et d’inférence peuvent rapidement devenir une contrainte pour certaines applications. Le contre-argument est que le processus est hautement parallélisable et que des algorithmes efficaces peuvent être utilisés à la place de l’apprentissage en profondeur si nécessaire. LightGBM est un ordre de grandeur plus rapide que l’apprentissage profond et reste souvent compétitif.

Cette philosophie d’assemblage d’ensembles dans l’apprentissage automatique a été popularisée et pleinement adoptée par AutoGluon. En fait, il s’agit du standard de facto pour leur offre AutoML, et leur équipe a beaucoup contribué à la fois à la communauté open source et à la recherche de pointe dans le domaine. Étant donné que la frontière de la pré-formation pour les transformateurs tabulaires/séries chronologiques n’a pas encore été pleinement explorée, attendez-vous à ce que la diversité supplémentaire des modèles à venir renforce encore cette stratégie.

Il y a de bonnes raisons de croire que cette philosophie continuera à s’imposer, comme elle l’a fait dans de nombreux autres domaines :

La démocratie est un ensemble d’élus, et les élus représentent l’ensemble de leurs constituants (du moins en théorie). Même s’il n’est pas parfait, il reste le meilleur système à ce jour.
Le diagnostic médical s’améliore avec des avis multiples. La combinaison des évaluations de plusieurs radiologues, pathologistes ou spécialistes réduit systématiquement les taux d’erreurs de diagnostic. Chaque médecin peut déceler différents modèles ou cas extrêmes, et leur jugement combiné est plus fiable que n’importe quelle évaluation individuelle.
Même les marchés boursiers sont un ensemble de croyances sur l’avenir. Alors qu’historiquement, les informations contenues dans les mouvements de ces marchés n’étaient pas directement pertinentes pour la plupart des gens, les marchés de prédiction et les plateformes de prévision changent la donne.
Dans la récente version de Claude Code (février 2026), Anthropic a introduit des « équipes d’agents » collaboratives dans lesquelles plusieurs instances Claude travaillent ensemble sur des tâches, en se coordonnant via des listes de tâches partagées et une communication peer-to-peer. xAI utilise une approche multi-agent similaire avec Grok 4 Heavy/Grok 4.20, où des agents indépendants travaillent en parallèle et « valident mutuellement » les solutions de chacun avant de converger vers une réponse finale.

Il s’avère que le travail d’équipe est la voie à suivre. Des ensembles d’ensembles d’ensembles apparaissent à plusieurs reprises dans les meilleurs systèmes créés par l’homme, et le domaine de l’apprentissage automatique ne fait pas exception. À l’ère de l’intelligence, la mise à l’échelle de cette idée ne sera pas facultative.

Blog

Ensembles d’ensembles d’ensembles : un guide de l’empilement

L’état de l’art

Affirmations et hypothèses