
Que faire lorsque votre modèle de risque de crédit fonctionne aujourd’hui, mais s’effondre six mois plus tard
a un secret délicat. Les organisations déploient des modèles qui atteignent une précision de 98 % lors de la validation, puis les regardent se dégrader discrètement en production. L’équipe appelle cela une « dérive conceptuelle » et passe à autre chose. Mais que se passe-t-il s’il ne s’agit pas d’un phénomène mystérieux ? Et s’il s’agit d’une conséquence prévisible de la façon dont nous optimisons ?
J’ai commencé à poser cette question après avoir vu un autre modèle de production échouer. La réponse nous a conduit à un endroit inattendu : la géométrie que nous utilisons pour l’optimisation détermine si les modèles restent stables à mesure que les distributions changent. Pas les données. Pas les hyperparamètres. L’espace lui-même.
J’ai réalisé que le risque de crédit est fondamentalement un problème de classementpas un problème de classification. Vous n’avez pas besoin de prédire « par défaut » ou « aucun défaut » avec une précision de 98 %. Vous devez classer les emprunteurs par risque : l’emprunteur A est-il plus risqué que l’emprunteur B ? Si l’économie se détériore, qui fera défaut en premier ?
Les approches standard manquent complètement cela. Voici quels arbres améliorés par le dégradé (XGBoostl’outil favori du domaine) réalisent effectivement sur le Ensemble de données Freddie Mac au niveau des prêts unifamiliaux (692 640 prêts s’étendant de 1999 à 2023) :
- Précision: 98,7 % ← semble impressionnant
- AUC (capacité de classement) : 60,7% ← à peine mieux que aléatoire
- 12 mois plus tard : Précision de 96,6 %, mais le classement se dégrade
- 36 mois plus tard : Précision de 93,2 %, AUC de 66,7 % (essentiellement inutile)
XGBoost réalise un précision impressionnante mais échoue dans la tâche réelle : ordonner le risque. Et ça se dégrade de manière prévisible.
Comparez maintenant cela à ce que j’ai développé (présenté dans un article accepté dans IEEE DSA2025) :
- AUC initiale : 80,3%
- 12 mois plus tard : 76,4%
- 36 mois plus tard : 69,7%
- 60 mois plus tard : 69,7%
La différence : XGBoost perd 32 points AUC sur 60 mois. Notre approche ? Seulement 10,6 points d’AUC — (Zone sous la courbe) est ce qui nous dira comment notre algorithme entraîné prédit le risque sur des données invisibles.
Pourquoi cela arrive-t-il ? Cela se résume à quelque chose d’inattendu : la géométrie de l’optimisation elle-même.
Pourquoi c’est important (même si vous n’êtes pas dans la finance)
Il ne s’agit pas seulement de cotes de crédit. Tout système où le classement compte plus que les prédictions exactes est confronté à ce problème :
- Stratification du risque médical — Qui a besoin de soins urgents en premier ?
- Prédiction du taux de désabonnement des clients — Sur quels clients devrions-nous concentrer nos efforts de fidélisation ?
- Recommandation de contenu — Que devrions-nous montrer ensuite ?
- Détection de fraude — Quelles transactions méritent un examen humain ?
- Priorisation de la chaîne d’approvisionnement — À quelles perturbations remédier en premier ?
Lorsque votre contexte change progressivement – et qui ne change pas ? – les mesures de précision vous mentent. Un modèle peut maintenir une précision de 95 % tout en brouillant complètement l’ordre des personnes présentant réellement le risque le plus élevé.
Ce n’est pas un problème de dégradation du modèle. C’est un problème d’optimisation.
Ce que la physique nous apprend sur la stabilité
Pensez à la navigation GPS. Si vous optimisez uniquement pour « l’itinéraire actuel le plus court », vous pourriez guider quelqu’un sur une route sur le point de fermer. Mais si vous préservez la structure de la circulation (les relations entre les itinéraires), vous pouvez maintenir un bon guidage même lorsque les conditions changent. C’est ce dont nous avons besoin pour les modèles de crédit. Mais comment préserver la structure ?
La NASA est confrontée à ce problème précis depuis des années. Lors de la simulation des orbites planétaires sur des millions d’années, les méthodes informatiques standard font dériver lentement les planètes – non pas à cause de la physique, mais à cause des erreurs numériques accumulées. Mercure s’enroule progressivement vers le Soleil. Jupiter dérive vers l’extérieur. Ils ont résolu ça avec intégrateurs symplectiques: algorithmes qui préservent la structure géométrique du système. Les orbites restent stables car la méthode respecte ce que les physiciens appellent le « volume de l’espace des phases » : elle maintient les relations entre les positions et les vitesses.
Voici maintenant ce qui est surprenant : le risque de crédit a une structure similaire.
La géométrie des classements
La descente de gradient standard s’optimise dans l’espace euclidien. Il trouve les minimums locaux pour votre répartition de formation. Mais la géométrie euclidienne ne préserve pas ordres relatifs lorsque les distributions changent.
Qu’est-ce que ça fait ?
Variétés symplectiques.
Dans Mécanique hamiltonienne (un formalisme utilisé en physique), les systèmes conservateurs (pas de perte d’énergie) évoluent sur des variétés symplectiques — des espaces avec une structure à 2 formes qui préserve le volume de l’espace des phases (Théorème de Liouville).

Dans cet espace des phases, les transformations symplectiques préservent les distances relatives. Pas des positions absolues, mais des ordres. Exactement ce dont nous avons besoin pour le classement sous changement de distribution. Lorsque vous simulez un pendule sans friction à l’aide de méthodes d’intégration standard, l’énergie dérive. Le pendule de la figure 1 accélère ou ralentit lentement – non pas à cause de la physique, mais à cause d’une approximation numérique. Les intégrateurs symplectiques n’ont pas ce problème car ils préservent exactement la structure hamiltonienne. Le même principe peut être appliqué à l’optimisation des réseaux neuronaux.

Les simulations de repliement de protéines sont confrontées au même problème. Vous modélisez des milliers d’atomes interagissant entre microsecondes et millisecondes, soit des milliards d’étapes d’intégration. Les intégrateurs standards accumulent de l’énergie : les molécules s’échauffent artificiellement, des liaisons qui ne devraient pas se rompre, la simulation explose.

La mise en œuvre : optimisation en préservant la structure
Voici ce que j’ai fait réellement :
Cadre hamiltonien pour les réseaux de neurones
J’ai reformulé la formation des réseaux neuronaux en système hamiltonien :

Dans les systèmes mécaniques, T(p) est le terme d’énergie cinétique et V(q) est « l’énergie potentielle ». Dans cette analogie, T(p) représente le coût de modification des paramètres du modèle et V(q) représente la fonction de perte de l’état actuel du modèle.
Optimiseur symplectique d’Euler (pas Adam/SGD) :
Au lieu d’Adam ou SGD pour l’optimisation, j’utilise une intégration symplectique :

J’ai utilisé la méthode symplectique d’Euler pour un système hamiltonien de position q et d’impulsion p
Où:
- H est l’hamiltonien (fonction énergétique dérivée de la perte)
- Δt est le pas de temps (analogue au taux d’apprentissage)
- q sont les poids du réseau (coordonnées de position), et
- p sont des variables de quantité de mouvement (coordonnées de vitesse)
Notez que p_{t+1} apparaît dans les deux mises à jour. Ce couplage est important : c’est ce qui préserve la structure symplectique. Il ne s’agit pas seulement d’un élan ; c’est une intégration qui préserve la structure.
Perte contrainte par l’hamiltonien
De plus, j’ai créé une perte basée sur le formalisme hamiltonien :

Où:
- L_base (θ) est une perte d’entropie croisée binaire
- R(θ) est un terme de régularisation (pénalité L2 sur les poids), et
- λ est le coefficient de régularisation
Le terme de régularisation pénalise les écarts par rapport à la conservation de l’énergie, limitant l’optimisation aux variétés de faible dimension dans l’espace des paramètres.
Comment ça marche
Le mécanisme comporte trois éléments :
- Structure symplectique → préservation du volume → exploration des paramètres limités
- Contrainte hamiltonienne → conservation de l’énergie → dynamique stable à long terme
- Mises à jour couplées → préserve la structure géométrique pertinente pour le classement
Cette structure est représentée dans l’algorithme suivant

Les résultats : 3 fois meilleure stabilité temporelle
Comme expliqué, j’ai testé ce framework en utilisant Ensemble de données Freddie Mac au niveau des prêts unifamiliaux — le seul ensemble de données sur le crédit à long terme avec des répartitions temporelles appropriées couvrant les cycles économiques.

La logique nous dit que la précision doit diminuer sur les trois ensembles de données (de 12 à 60 mois). Les prévisions à long terme sont généralement moins précises que celles à court terme. Mais ce que nous voyons, c’est que XGBoost ne suit pas ce modèle (valeurs d’AUC de 0,61 à 0,67 — c’est la signature d’une optimisation dans le mauvais espace). Notre optimiseur symplectique, bien qu’il montre moins de précision, le fait (les valeurs d’AUC diminuent de 0,84 à 0,70). Par exemple, qu’est-ce qui vous garantit qu’une prédiction pour 36 sera plus réaliste ? La précision de 0,97 de XGBoost ou la valeur d’AUC de 0,77 de l’approche d’inspiration hamiltonienne ? XGBoost a depuis 36 mois une AUC de 0,63 (très proche d’une prédiction aléatoire).
Ce que chaque composant apporte
Dans notre étude sur l’ablation, tous les composants contribuent, l’élan dans l’espace symplectique fournissant des gains plus importants. Cela correspond au contexte théorique : la forme symplectique 2 est préservée grâce à des mises à jour couplées position-impulsion.

Quand utiliser cette approche
Utilisez l’optimisation symplectique comme alternative aux optimiseurs de descente de gradient lorsque :
- Le classement compte plus que l’exactitude de la classification
- Le changement de distribution est progressif et prévisible (cycles économiques, pas cygnes noirs)
- La stabilité temporelle est critique (risque financier, pronostic médical dans le temps)
- La reconversion coûte cher (validation réglementaire, frais généraux d’approbation)
- Vous pouvez vous permettre de multiplier par 2 à 3 le temps de formation pour assurer la stabilité de la production
- Vous disposez de <10 000 fonctionnalités (fonctionne bien jusqu'à ~ 10 000 dimensions)
Ne pas utiliser quand :
- Le changement de distribution est brusque/imprévisible (krachs boursiers, changements de régime)
- Vous avez besoin d’interprétabilité pour la conformité (cela n’aide pas à l’explicabilité)
- Vous êtes dans l’ultra-haute dimension (>10K fonctionnalités, le coût devient prohibitif)
- Contraintes d’entraînement en temps réel (2 à 3 fois plus lentes qu’Adam)
Ce que cela signifie réellement pour les systèmes de production
Pour les organisations déployant des modèles de crédit ou des défis similaires :
Problème: Vous vous recyclez tous les trimestres. À chaque fois, vous validez les données retenues, constatez une précision de plus de 97 %, déployez et observez la dégradation de l’AUC sur 12 à 18 mois. Vous blâmez les « conditions du marché » et vous vous recyclez à nouveau.
Solution: Utilisez l’optimisation symplectique. Acceptez une précision de crête légèrement inférieure (80 % contre 98 %) en échange d’une stabilité temporelle 3 fois meilleure. Votre modèle reste fiable plus longtemps. Vous vous recyclez moins souvent. Les explications réglementaires sont plus simples : « Notre modèle maintient la stabilité du classement en cas de changement de distribution. »
Coût: Temps d’entraînement 2 à 3 fois plus long. Pour une reconversion mensuelle ou trimestrielle, cela est acceptable : vous échangez des heures de calcul contre des mois de stabilité.
C’est de l’ingénierie, pas de la magie. Nous optimisons dans un espace qui préserve ce qui compte réellement pour le problème commercial.
Vue d’ensemble
La dégradation du modèle n’est pas inévitable. C’est une conséquence d’une optimisation dans le mauvais espace. La descente de gradient standard trouve des solutions qui fonctionnent pour votre distribution actuelle. L’optimisation symplectique trouve des solutions qui préservent la structure – les relations entre les exemples qui déterminent les classements. L’approche que nous proposons ne résoudra pas tous les problèmes du ML. Mais pour le praticien qui observe le déclin de son modèle de production – pour l’organisation confrontée à des questions réglementaires sur la stabilité de son modèle – c’est une solution qui fonctionne aujourd’hui.
Prochaines étapes
Le code est disponible : [link]
Le document complet : Sera bientôt disponible. Contactez-moi si vous êtes intéressé à le recevoir ([email protected])
Questions ou collaboration : Si vous travaillez sur des problèmes de classement avec des exigences de stabilité temporelle, je serais intéressé de connaître votre cas d’utilisation.
Merci d’avoir lu — et partagé !
Besoin d’aide pour mettre en œuvre ce type de systèmes ?
Javier Marín
Consultant en IA appliquée | Systèmes d’IA de production + conformité réglementaire
[email protected]



