Le scoring pour le risque crédit devient un levier majeur d’innovation pour les institutions financières. En effet, avec l’essor des technologies et des données, ce domaine connaît une transformation significative.
De plus, le Big Data, due à la croissance accrue des multiples sources de données (Structurées ou non) devient le principal moteur de l’innovation dans le secteur bancaire – et c’est en train de le devenir.
Ainsi, les investissements dans l’analyse de grandes masse données dans le secteur bancaire ont totalisé 20,8 milliards de dollars en 2016 . Cela fait du domaine l’un des principaux consommateurs de services Big Data et un marché de plus en plus avide d’architectes, de solutions et d’outils sur mesure Big Data.
Le machine learning permet ainsi d’exploiter ces grandes masses de données dans des champs d’applications bancaires telles que le risque de crédit.
Table des matières
ToggleI. L’analyse prédictive pour mieux évaluer le risque client (scoring pour le risque crédit)
L’application des techniques de Machine Learning aux données individuels des clients, combinée à des données plus traditionnelles, permet aujourd’hui à l’Intelligence Artificiel d’identifier des stratégies que les banques utilisent pour gérer le risque de crédit et de rendre compte des différentes perspectives qu’elles peuvent avoir sur les types de risques qui constituent une menace pour elles.
L’Intelligence Artificielle est appliquée pour mieux évaluer le risque sur le plan individuel du client . Cela peut ensuite être utilisé pour estimer des risques plus complexes tels que la mesure du risque de crédit d’une économie entière ( Scoring pour le risque crédit).
La tendance du big data
Selon IDC, le volume total de données numériques dans le monde atteindra 175 zettaoctets (Zo) en 2025, contre environ 33 Zo en 2018, soit une multiplication par plus de 5 en 7 ans.
Les données bancaires seront une pierre angulaire de cette déluge de données, et celui qui sera capable de les traiter aura un grand avantage compétitif par rapport à la concurrence.
Intéressons nous à un exemple concret d’utilisation du Machine Learning dans le domaine bancaire plus précisément pour la modélisation du risque de crédit ( Scoring pour le risque crédit).
Le dataset
Le jeu de données german credit (données bancaire en Allemagne) contient 1000 lignes avec 20 variables. Dans cet ensemble de données, chaque entrée représente une personne qui reçoit un crédit et est classée en bons ou mauvais payeur via la variable “creditability” en fonction de l’ensemble des variables explicatives. Notre but dans ce projet est donc d’implémenter un score pour modéliser la variable d’intérêt.
Fréquence du défaut bancaire

Comme on peut le voir notre base de données client regorge de plus de 30% de clients présentant un défaut bancaire ce qui est assez élevé.
Modélisation du Score

Le crédit scoring permet d’attribuer ou non une demande de crédit basée sur le score du client. Toute personne qui a déjà emprunté de l’argent pour demander une carte de crédit ou acheter une voiture, une maison ou tout autre prêt personnel à un dossier de crédit. Les prêteurs utilisent les scores pour déterminer qui est admissible à un prêt, à quel taux d’intérêt et quelles limites de crédit. Plus le score est élevé, plus un prêteur peut avoir confiance en la solvabilité du client. Cependant, un score ne fait pas partie d’un rapport de crédit régulier. Il existe une formule mathématique qui traduit les données du rapport de solvabilité en un nombre à trois chiffres que les prêteurs utilisent pour prendre des décisions de crédit.
Ici le but est d’utiliser des techniques d’évaluation du crédit qui permettent d’évaluer le risque lié aux prêts consentis à un client particulier et d’élaborer un modèle de scoring. L’évaluation du crédit consiste à appliquer un modèle statistique pour attribuer une cote de risque à une demande de crédit et il s’agit d’une forme d’intelligence artificielle, fondée sur une modélisation prédictive, qui évalue la probabilité qu’un client fasse un défaut de paiement. Au fil des ans, un certain nombre de techniques de modélisation différentes pour la mise en œuvre de la notation de crédit ont évolué. Malgré la diversité, le modèle de scoring Scorecard se distingue et est utilisé par près de 90% des compagnies. L’utilisation des nouvelles méthodes de machines learning permet d’avoir des modèles probabilistes hybrides pour l’estimation du risque client.
II. L’implémentation (scoring pour le risque crédit)
Avant de construire le modèle pour le Scoring pour le risque crédit , deux étapes sont nécessaires. L’une consiste à calculer le Woe (Weight of Evidence), l’autre étape consiste à calculer la Valeur Informative (IV) en fonction de la valeur WoE. Pour la vérification des résultats, nous utilisons les valeurs WOE. Après avoir divisé les variables continues et discrètes en catégorielles pour chaque valeur prise, nous pouvons calculer leur WoE, puis les variables catégorielles en question sont remplacées par leur WoE qui peuvent être utilisées ultérieurement pour construire le modèle de régression.
Le Woe (Weight of Evidence)

La formule du WoE est la suivante:
Le calcul du WoE pour chaque chaque variable catégorielle, permet de voir une tendance globale de sa logique, et il n’y a pas d’anomalies au sein des données. Car les dépendances logiques entre les WOE et le défaut de paiement garantissent que la pondération du score soit parfaitement interprétable, car ces points reflètent la logique du modèle.
WOE de la variable duration_in_month
Variable selection via l’Information Value (IV)
La valeur de Informative provient de la théorie de l’information et est mesurée à l’aide de la formule suivante. Elle est utilisée pour évaluer la puissance prédictive globale d’une variable.
Information Value (IV) | Capacité Prédictive |
< 0.02 | inutile pour la prédiction |
0.02 – 0.1 | faible prédicteur |
0.1 – 0.3 | indicateur moyen |
0.3 – 0.5 | bon prédicteur |
> 0.5 | Excellent trop beau pour être vrai (à vérifier) |
– Résultats IV sur nos données
iv = iv(data, y = 'creditability') %>%
as_tibble() %>%
mutate( info_value = round(info_value, 3) ) %>%
arrange( desc(info_value) )
iv %>%
knitr::kable()
Nous réduisons les variables qui entrent dans notre processus de sélection des caractéristiques en filtrant toutes les variables avec IV < 0,02.
Logistic Regression sur les variables transformées
Nous appliquons maintenant la logistique régression sur nos données transformées.
Paramètres estimés de la Logistic regression
Calcul des points à partir du logit & Odds (scoring pour le risque crédit)
Nous rappelons que le logit peut être représenté par :
Le logit est donc le logarithme du rapport entre la probabilité de faire un défaut de paiement sur la probabilité de ne pas en faire.
Les modèles de régressions logistiques sont des modèles linéaires, en ce sens que la probabilité de prédiction transformée en logit est une fonction linéaire des valeurs des variables prédicteurs. Ainsi, un modèle de scoring ainsi dérivé a la qualité souhaitable que le risque de crédit soit une fonction linéaire des prédicteurs, et avec quelques transformations supplémentaires appliquées aux paramètres du modèle, une simple fonction linéaire des WOE qui peut être associés à chaque valeur de classe. Le score est donc une simple somme des valeurs de points de chaque variable qui peuvent être tirées de la table de point résultante.
La note totale d’un client demandeur est alors proportionnelle au logarithme du rapport de côte de mauvais_client / bon_client.
Nous choisissons d’échelonner les points de telle sorte qu’un score total de 600 points corresponde à une cote mauvais_client / bon_client de 50 à 1 et qu’une augmentation du score de 20 points corresponde à un dédoublement de cette derniere.
- Scaling: Le choix de l’échelle de point (600) du score n’affecte pas la modélisation.
- odds0=20 : un client avec un score de 600 a un rapport de chances de 1/20).
- pdo = 50, une augmentation de 50 points double la cote (p/1-p).
- Comme 600 = log(50)*factor + offset et d’autrepart 650 = log(100)*factor + offset Donc factor = pdo / ln(2).
- Offset = Score – [Factor * ln(Odds)]
points0 = 600
odds0 = 20
pdo = 50
card = scorecard( bins , m
, points0 = points0
, odds0 = 1/odds0 # scorecard wants the inverse
, pdo = pdo
)
sc = scorecard_ply( data, card )
III. Test de Kolmogorov-Smirnov pour la validation (scoring pour le risque crédit)
En général, la distribution des scores des bons clients diffère statistiquement de manière significative de la distribution des “mauvais” clients si la statistique de KS est plus grand que la valeur seuil critique. Ici nous rejetons l’hypothèse nulle (à savoir que les bons et “mauvais“ clients ont la même distribution de score) au vue des résultats des tests sur les données train et test.
De façon générale, la valeur seuil à partir de laquelle accepter un prêt varie d’un type de prêt à l’autre ainsi que d’un prêteur à l’autre. Certains prêts exigent une note minimale de 520, tandis que d’autres peuvent accepter des notes inférieures à 520. Par conséquent, après avoir obtenu la note limite, nous pouvons alors décider d’approuver ou non le prêt. Dans l’ensemble, les modèles prédictifs sont basés de l’utilisation des données historiques d’un client pour prédire la probabilité que ce client adopte un comportement défini à l’avenir. Ils identifient non seulement les « bonnes » et les » mauvaises » demandes sur une base individuelle, mais ils prévoient également la probabilité qu’une demande avec une note donnée soit » bonne » ou » mauvaise « . Ces probabilités ou scores, ainsi que d’autres considérations commerciales, telles que les taux d’approbation prévus, le bénéfice, le taux de churn et des pertes, servent ensuite de base à la prise de décision.
C’est tout à propos de ce projet de Scoring pour le risque crédit.
IV. Mettons le scoring au service de vos décisions
👉 Contactez nos experts en cliquant ici et découvrez comment Baamtu peut vous aider à améliorer votre processus d’évaluation du risque de crédit grâce aux données et à l’intelligence artificielle.
Nous avons récemment rédigé un article sur la prise décision avec la business intelligence, cliquez ici pour lire!