
Surajustement ou sous-ajustement : donner un sens au compromis biais-variance
les modèles, c’est un peu comme la cuisine : trop peu d’assaisonnement et le plat est fade, trop et c’est accablant. Le but ? Cet équilibre parfait : juste assez de complexité pour capturer la saveur des données, mais pas au point de devenir écrasante.
Dans cet article, nous aborderons deux des pièges les plus courants dans le développement de modèles : surapprentissage et sous-ajustement. Que vous entraîniez votre premier modèle ou ajustiez votre centième, il est essentiel de garder ces concepts sous contrôle pour créer des modèles qui fonctionnent réellement dans le monde réel.
Surapprentissage
Qu’est-ce que le surapprentissage ?
Le surajustement est un problème courant avec les modèles de science des données. Cela se produit lorsque le modèle apprend trop bien des données entraînées, ce qui signifie qu’il apprend des modèles spécifiques aux données entraînées et au bruit. Par conséquent, il n’est pas en mesure de bien prédire sur la base de données invisibles.
Pourquoi le surapprentissage est-il un problème ?
- Mauvaises performances : le modèle n’est pas capable de bien généraliser. Les modèles détectés lors de la formation ne sont pas applicables au reste des données. Vous avez l’impression que le modèle fonctionne très bien sur la base d’erreurs de formation, alors qu’en fait les tests ou les erreurs du monde réel ne sont pas si optimistes.
- Prédictions à forte variance : les performances du modèle sont instables et les prédictions ne sont pas fiables. De petits ajustements aux données entraînent une grande variance dans les prédictions faites.
- Formation d’un modèle complexe et coûteux : La formation et la construction d’un modèle complexe en production sont un travail coûteux et exigeant en ressources. Si un modèle plus simple fonctionne tout aussi bien, il est plus efficace de l’utiliser à la place.
- Risque de perte de confiance des entreprises : les data scientists trop optimistes lorsqu’ils expérimentent de nouveaux modèles peuvent surpromettre des résultats aux parties prenantes de l’entreprise. Si le surajustement est découvert seulement après la présentation du modèle, cela peut nuire considérablement à la crédibilité et rendre difficile la restauration de la confiance dans la fiabilité du modèle.
Comment identifier le surapprentissage
- Validation croisée : lors de la validation croisée, les données d’entrée sont divisées en plusieurs volets (ensembles de données de formation et de test). Différents replis des données d’entrée devraient donner des résultats d’erreur de test similaires. Un écart important de performances entre les plis peut indiquer une instabilité du modèle ou une fuite de données, qui peuvent toutes deux être des symptômes de surajustement.
- Gardez une trace des erreurs de formation, de test et de généralisation. L’erreur lors du déploiement du modèle (erreur de généralisation) ne doit pas s’écarter largement des erreurs que vous connaissez déjà. Si vous souhaitez aller plus loin, envisagez de mettre en œuvre une alerte de surveillance si les performances du modèle déployé s’écartent considérablement de l’erreur de l’ensemble de validation.
Comment atténuer/prévenir le surapprentissage
- Supprimer des fonctionnalités : trop de fonctionnalités pourraient trop « guider » le modèle, ce qui entraînerait un modèle qui n’est pas capable de bien généraliser.
- Augmenter les données de formation : en fournissant plus d’exemples à partir desquels apprendre, le modèle apprend à mieux généraliser et il est moins sensible aux valeurs aberrantes et au bruit.
- Augmenter la régularisation : les techniques de régularisation aident en pénalisant les coefficients déjà gonflés. Cela empêche le modèle de s’adapter trop étroitement aux données.
- Ajuster les hyper-paramètres : certains hyper-paramètres trop ajustés peuvent donner lieu à un modèle qui n’est pas capable de bien généraliser.
Sous-ajustement
Qu’est-ce que le sous-apprentissage ?
Le sous-ajustement se produit lorsque la nature du modèle ou les fonctionnalités sont trop simplistes pour bien capturer les données sous-jacentes. Cela entraîne également de mauvaises prédictions sur des données invisibles.
Pourquoi le sous-apprentissage est-il problématique ?
- Mauvaises performances : le modèle fonctionne mal sur les données d’entraînement, donc également sur les données de test et du monde réel.
- Prédictions avec un biais élevé : le modèle est incapable de faire des prédictions fiables.
Comment identifier le sous-apprentissage
- Les erreurs de formation et de test seront médiocres.
- L’erreur de généralisation sera élevée et peut-être proche de l’erreur de formation.
Comment réparer le sous-ajustement
- Améliorer les fonctionnalités : introduisez de nouvelles fonctionnalités ou ajoutez des fonctionnalités plus sophistiquées (par exemple : ajoutez des effets d’interaction/des termes polynomiaux/des termes de saisonnalité) qui captureront des modèles plus complexes dans les données sous-jacentes.
- Augmenter les données de formation : en fournissant plus d’exemples à partir desquels apprendre, le modèle apprend à mieux généraliser et il est moins sensible aux valeurs aberrantes et au bruit.
- Réduire la puissance de régularisation : lors de l’application d’une technique de régularisation trop puissante, les fonctionnalités deviennent trop uniformes et le modèle ne donne la priorité à aucune fonctionnalité, l’empêchant d’apprendre des modèles importants.
- Ajuster les hyper-paramètres : un modèle intrinsèquement complexe avec des hyper-paramètres médiocres peut ne pas être en mesure de capturer toute la complexité. Accorder plus d’attention à leur ajustement peut s’avérer utile (par exemple, ajouter plus d’arbres à une forêt aléatoire).
- Si toutes les autres options ne résolvent pas le problème sous-jacent, il peut être intéressant d’abandonner le modèle et de le remplacer par un modèle capable de capturer des modèles de données plus complexes.
Résumé
L’apprentissage automatique n’est pas magique, c’est un exercice d’équilibre entre trop et pas assez. Surajustez votre modèle et il devient un perfectionniste qui ne peut pas gérer de nouvelles situations. Sous-équipé, et cela passe complètement à côté de l’essentiel.
Les meilleurs modèles vivent au sweet spot : bien généraliser, apprendre suffisamment, mais pas trop. En comprenant et en gérant le surapprentissage et le sous-apprentissage, vous n’améliorez pas seulement les mesures, vous renforcez la confiance, réduisez les risques et créez des solutions qui durent au-delà de l’ensemble de formation.
Ressources
[1] https://medium.com/@SyedAbbasT/what-is-overfitting-underfitting-regularization-371b0afa1a2c



