
Comment définir la portée de modélisation d’un modèle de risque de crédit interne
traverse une profonde transformation portée par le progrès technologique. Ces changements touchent tous les secteurs, notamment le secteur bancaire. Les professionnels des données doivent s’adapter rapidement pour devenir plus efficaces, productifs et compétitifs.
Pour les professionnels expérimentés possédant de solides bases en mathématiques, en statistiques et en pratique opérationnelle, cette transition peut être naturelle. Cependant, cela peut être plus difficile pour les débutants qui ne maîtrisent pas encore complètement ces compétences fondamentales.
Dans le domaine du risque de crédit, développer ces compétences nécessite une compréhension claire des expositions bancaires et des mécanismes utilisés pour gérer les risques associés.
Mes prochains articles porteront principalement sur la gestion du risque de crédit dans un cadre réglementaire. La Banque centrale européenne (BCE) autorise les banques à utiliser des modèles internes pour évaluer le risque de crédit de leurs différentes expositions. Ces expositions peuvent inclure des prêts accordés aux entreprises pour financer des projets à long terme ou des prêts accordés aux ménages pour financer des projets immobiliers.
Ces modèles visent à estimer plusieurs paramètres clés :
- PD (Probabilité de Défaut) : la probabilité qu’un emprunteur ne soit pas en mesure de faire face à son obligation de paiement.
- EAD (Exposition en cas de défaut) : le montant de l’exposition au moment du défaut.
- LGD (perte en cas de défaut) : est la gravité de la perte en cas de défaut.
On peut donc distinguer les modèles PD, les modèles EAD et les modèles LGD. Dans cette série, je me concentrerai principalement sur les modèles PD. Ces modèles sont utilisés pour attribuer des notations aux emprunteurs et contribuer au calcul des exigences de fonds propres réglementaires, qui protègent les banques contre des pertes inattendues.
Dans ce premier article, je me concentrerai sur la définition et la construction du périmètre de modélisation.
Définition du défaut
La construction d’une modélisation des données nécessite une compréhension claire de l’objectif de la modélisation et une définition précise des défauts. Évaluer la probabilité de défaut d’une contrepartie consiste à observer le passage d’un état sain à un état de défaut sur un horizon h donné. Dans ce qui suit, nous supposerons que cet horizon est fixé à un an (h = 1).
La définition du défaut a été harmonisée et placée sous surveillance réglementaire à la suite de la crise financière de 2008. L’objectif était d’établir une définition standardisée applicable à tous les établissements bancaires.
Cette définition repose sur plusieurs critères, parmi lesquels :
- une détérioration significative de la situation financière de la contrepartie,
- l’existence de sommes en souffrance,
- situations d’abstention,
- effets de contagion au sein d’un groupe d’expositions.
Historiquement, il existait une ancienne définition du défaut (ODOD), qui a progressivement évolué vers la nouvelle définition du défaut (NDOD) actuellement en vigueur.
Par exemple, une contrepartie est considérée dans défaut lorsque le débiteur a des arriérés de paiement de plus de 90 jours sur une obligation de crédit importante.
Une fois la définition du défaut clairement établie, l’institution peut l’appliquer à l’ensemble de ses clients. Elle peut alors être confrontée à un portefeuille potentiellement hétérogène composé de grandes entreprises, de petites et moyennes entreprises (PME), de clients particuliers et d’entités souveraines.
Pour mieux gérer les risques, il est essentiel d’identifier ces différentes catégories et de créer des sous-portefeuilles homogènes. Cette segmentation permet alors de modéliser chaque portefeuille de manière plus pertinente et plus précise.
Définition des filtres
La définition de filtres permet de déterminer le périmètre de modélisation et de ne retenir pour analyse que les contreparties homogènes. Les filtres sont des variables utilisées pour délimiter cette portée.
Ces variables peuvent être identifiées grâce à des méthodes statistiques, telles que des techniques de regroupement, ou définies par des experts en la matière sur la base de connaissances commerciales.
Par exemple, lorsqu’on se concentre sur les grandes entreprises, les revenus peuvent servir de variable de taille pertinente pour établir un seuil. On peut choisir de n’inclure que les contreparties dont le chiffre d’affaires annuel est supérieur à 30 millions d’euros.
Des variables supplémentaires peuvent ensuite être utilisées pour caractériser davantage ce segment, telles que le secteur industriel, la région géographique, les ratios financiers ou les indicateurs ESG.
Un autre périmètre de modélisation peut se concentrer exclusivement sur les clients particuliers ayant contracté des emprunts pour financer des projets personnels. Dans ce cas, le revenu peut être utilisé comme variable de filtrage, tandis que d’autres caractéristiques pertinentes peuvent inclure la situation professionnelle, le type de garantie et le type de prêt.
Une fois l’objectif clairement défini, la définition par défaut bien spécifiée et la portée correctement structurée grâce à des filtres appropriés, la construction de l’ensemble de données de modélisation devient une prochaine étape naturelle.
Construction de l’ensemble de données de modélisation
L’objectif étant de prédire la probabilité de défaut sur un horizon d’un an, pour chaque année (N), il faut retenir toutes les contreparties saines, c’est à dire celles qui n’ont fait défaut à aucun moment de l’année (N) (du 01/01/N au 31/12/N).
Au 31 décembre N, les caractéristiques de ces contreparties saines sont observées et enregistrées. Par exemple, si nous nous concentrons sur les personnes morales, alors à partir du 31/12/N, les valeurs des variables suivantes pour chaque contrepartie sont collectées : chiffre d’affaires, secteur d’activité et ratios financiers.
Pour construire la variable par défaut pour chacune de ces contreparties, on regarde ensuite l’année (N+1). La variable prend la valeur 1 si la contrepartie fait défaut au moins une fois dans l’année (N+1), et 0 sinon.
Cette variable, notée Y ou défest la variable cible du modèle. Le tableau ci-dessous illustre le processus décrit ci-dessus.

En résumé, pour chaque année fixe (N), nous obtenons un jeu de données rectangulaire où :
- Chaque ligne correspond à une contrepartie saine au 31/12/N,
- Les colonnes comprennent toutes les variables explicatives mesurées à cette date, notées (Xje) pour la contrepartie (i),
- La dernière colonne correspond à la variable cible (Yje), qui indique si la contrepartie (i) fait défaut au moins une fois au cours de l’année (N+1) (1) ou non (0).
Par exemple, si (N = 2015), les variables explicatives sont mesurées au 31/12/2015, et la variable cible est observée sur l’année 2016.
Le régulateur exige que les ensembles de données de modélisation soient construits en utilisant au moins cinq années de données historiques afin de capturer différents cycles économiques. Étant donné que les modèles sont calibrés sur plusieurs périodes, le régulateur exige également que les modèles réglementaires soient à travers le cycle (TTC), ce qui signifie qu’ils doivent être relativement insensibles aux fluctuations macroéconomiques à court terme.
Supposons que nous disposions de données clients couvrant six années, du 01/01/2015 au 31/12/2020. En appliquant la procédure décrite ci-dessus pour chaque année (N) entre 2015 et 2019, cinq jeux de données successifs peuvent être construits.
Le premier jeu de données, correspondant à l’année 2015, inclut toutes les contreparties restées performantes du 01/01/2015 au 31/12/2015. Leurs variables explicatives ( Xje…, Xk ) sont mesurés au 31/12/2015, tandis que la variable de défaut ( Y ) est observée sur l’année 2016. Elle prend la valeur 1 si la contrepartie fait défaut au moins une fois au cours de l’année 2016, et 0 sinon.
Le même processus est répété pour les années suivantes jusqu’à l’ensemble de données 2019. Cet ensemble de données final comprend toutes les contreparties qui sont restées performantes du 01/01/2019 au 31/12/2019. Leurs variables explicatives (X1…, Xk) sont mesurés au 31/12/2019, et la variable de défaut (Y) est observée en 2020. Elle prend la valeur 1 si la contrepartie fait défaut à un moment donné au cours de l’année 2020, et 0 sinon.
Le périmètre final de modélisation correspond à la concaténation verticale de tous les jeux de données construits au 31/12/N. Dans notre exemple, N va de 2015 à 2019. L’ensemble de données résultant peut être illustré par le tableau rectangulaire ci-dessous.

Chaque observation statistique est identifiée par un couple composé de l’identifiant de la contrepartie et de l’année (ID x année) au cours de laquelle les variables explicatives sont mesurées (au 31/12/N). Et le nombre de lignes indique le nombre d’observations.
Par exemple, la contrepartie avec identifiant (ID = 1) peut apparaître à la fois en 2015 et en 2018. Celles-ci correspondent à deux observations distinctes et indépendantes dans le jeu de données, identifiées respectivement par les couples (1 x 2015) et (1 x 2018).
Cette approche offre plusieurs avantages. En particulier, cela évite le chevauchement temporel entre les débiteurs et réduit l’autocorrélation implicite entre les observations, puisque chaque enregistrement est identifié de manière unique par la paire (id x année).
De plus, cela augmente la probabilité de créer un ensemble de données plus robuste et plus représentatif. En regroupant les observations sur plusieurs années, le nombre d’événements par défaut devient suffisamment important pour permettre une estimation fiable du modèle. Ceci est particulièrement important lors de l’analyse des portefeuilles de grandes entreprises, où les événements de défaut sont souvent relativement rares.
Enfin, l’institution financière doit mettre en œuvre des mesures organisationnelles appropriées pour assurer une gestion efficace et la sécurité des données tout au long de leur cycle de vie. À cette fin, la BCE exige que les entités financières se conforment à des normes réglementaires communes, telles que le Digital Operational Resilience Act (DORA).
Les établissements devraient établir un cadre stratégique complet pour la gestion de la sécurité de l’information, ainsi qu’un cadre dédié à la sécurité des données couvrant spécifiquement les données utilisées dans les modèles internes.
De plus, la surveillance humaine doit rester au cœur de ces processus. Les procédures doivent donc être soigneusement documentées et des lignes directrices claires doivent être établies pour expliquer comment et quand le jugement humain doit être appliqué.
Conclusion
Définir le développement du modèle et le champ d’application, ainsi que les documenter correctement, sont des étapes essentielles pour réduire les risques liés aux modèles, non seulement au stade de la conception, mais tout au long du cycle de vie du modèle.
L’objectif clé est de garantir que le périmètre de développement est représentatif du portefeuille prévu et, si nécessaire, d’identifier clairement les extensions, restrictions ou approximations apportées lors de l’application du modèle par rapport à sa conception originale.
La préparation d’un document standardisé définissant clairement les variables utilisées pour établir le champ d’application est considérée comme une bonne pratique. Au minimum, les informations suivantes doivent être facilement identifiables : le nom technique de la variable, son format et sa source.
Dans mon prochain article, j’utiliserai un ensemble de données sur le risque de crédit pour illustrer comment prédire la probabilité de défaut de différentes contreparties. J’expliquerai les étapes nécessaires pour bien comprendre l’ensemble de données disponible et, si possible, je décrirai comment gérer et traiter les différentes variables.
Références
Banque centrale européenne. (2025). Guide de surveillance : Guide du processus de contrôle et d’évaluation du MSU (SREP). Banque centrale européenne. https://www.bankingsupervision.europa.eu/ecb/pub/pdf/ssm.supervisory_guide202507.en.pdf
Crédits images
Toutes les images et visualisations de cet article ont été créées par l’auteur à l’aide de Python (pandas, matplotlib, seaborn et plotly) et Excel, sauf indication contraire.
Clause de non-responsabilité
J’écris pour apprendre, donc les erreurs sont la norme, même si je fais de mon mieux. S’il vous plaît laissez-moi savoir si vous en remarquez. Je suis également ouvert à toute suggestion de nouveaux sujets !



