Do not follow this hidden link or you will be blocked from this website !

Machine Learning and Data New Sources for Credit Scoring

Christophe HURLIN * Université d'Orléans, LEO (FRE CNRS 2014). Contact : christophe.hurlin@univ-orleans.fr.
Christophe PÉRIGNON ** HEC Paris, Département Finance, GREGHEC (UMR CNRS 2959). Contact : perignon@hec.fr.Nous remercions Sébastien Saurin et Elisa Korn pour leur assistance et Jean-Paul Pollin pour ses commentaires et ses encouragements. Nous remercions également les participants à la table ronde « Pourquoi et comment les nouvelles technologies vont-elles bouleverser le secteur financier ? » de l'édition 2019 des Rendez-vous de l'Histoire (Blois). Ce travail a bénéficié du soutien financier de la Chaire ACPR Régulation et risques systémiques, du Labex Ecodec (ANR-11-LABX-0047) et des programmes ANR MultiRisk (ANR-16-CE26-0015-01) et F-STAR (ANR-17-CE26-0007-01).


Download PDF Format


Footnotes

1   Les techniques de ML sont aussi utilisées pour la modélisation du loss given default, c'est-à-dire du taux de perte en cas de défaut (voir Loterman et al. (2012) pour une synthèse) ou du credit conversion factor.

2   La définition du défaut peut être réglementaire (voir la définition du défaut proposée par l'EBA (2016) dans le cadre IRB qui entrera en vigueur au 1er janvier 2021) ou interne, par exemple dans le cas d'un score d'octroi.

3   Les lecteurs intéressés par la distinction entre ML, IA, économétrie et statistique pourront se reporter aux travaux de Varian (2014), Mullainathan et Spiess (2017), Charpentier et al. (2018), Athey et Imbens (2019), ou Athey (2019).

4   Pour certains algorithmes, la fonction de lien relie directement la variable cible Y (défaut, non-défaut) aux prédicteurs. Pour d'autres méthodes (comme la régression logistique), l'output du modèle correspond à la probabilité conditionnelle Pr(Y = 1 | X = x), à partir de laquelle il est possible dans un second temps de prévoir le défaut en comparant cette probabilité à un seuil donné, typiquement 50 %.

5   Le bagging consiste à entraîner un ensemble d'arbres de classification sur des sous-échantillons d'individus tirés au hasard. Les random forests reposent sur le même principe avec en outre un tirage aléatoire des prédicteurs à chaque branche de l'arbre de classification. Dans les deux cas, la prévision finale est alors construite en agrégeant les prévisions obtenues sur tous les arbres. Le boosting consiste à entraîner de façon itérative un modèle de base de façon à réduire les erreurs de prévision à chaque étape. Certaines méthodes de boosting comme l'Extreme Gradient Boosting (XGBoost) figurent aujourd'hui parmi les plus utilisées dans la plupart des compétitions de ML.

6   L'idée de la méthode du k-fold consiste à diviser l'échantillon d'apprentissage initial en k segments, puis de sélectionner l'un des k segments comme échantillon de validation et d'entraîner l'algorithme sur les k - 1 autres segments. En répétant l'opération k fois, on peut alors construire une erreur de prédiction et déterminer la valeur des hyperparamètres qui minimise cette erreur tout en évitant les problèmes de surajustement.

7   Il existe de nombreux critères alternatifs pour juger de la performance prédictive d'un modèle de scoring, tels que le pourcentage de classification correct, l'indice de Gini partiel, le score de Brier, etc. Pour une discussion complète sur ces critères d'évaluation, voir Candelon et al. (2012) ou Lessmann et al. (2015).

8   Notons que l'algorithme CART (Classification And Regression Trees) n'a été publié par Leo Breiman et se co-auteurs qu'en 1984, soit seulement un an avant les premières applications en scoring de crédit.

9   Voir aussi Phaure et Sartre (2019) pour l'utilisation des techniques de classification non ou semi supervisées pour l'analyse des risques de concentration dans les portefeuilles de crédit.

10   Pour une discussion générale sur ce sujet, voir Molnar (2019).

11   Un modèle de substitution est dit « global » lorsqu'il vise à approximer le fonctionnement du modèle complexe pour toutes les données d'entrée. Un modèle est dit « local » lorsqu'il vise à expliquer ce même fonctionnement uniquement pour une sélection particulière des individus de l'échantillon.

12   Dans cet article, le terme Fintech est utilisé pour désigner les entreprises qui utilisent les nouvelles technologies dans le secteur financier, et non les technologies elles-mêmes.

13   L'empreinte numérique désigne l'ensemble des traces laissées volontairement ou non par un utilisateur sur internet ou sur d'autres services informatiques (serveurs, service de sauvegarde).

14   Rappelons qu'aux États-Unis, les informations sur l'origine ethnique peuvent être collectées et utilisées sous certaines conditions.


Share email Share on Facebook Share on Twitter Share on Google+