Utilizzo di dati transazionali per la previsione della probabilità di sconfino: un'analisi tramite Machine Learning

Russo, Ivan

The financial sector is being revolutionized by the introduction of Artificial Intelligence (AI), which is changing the way banks define their strategies and conduct their day-to-day operations. Credit scoring is one of the areas most affected by this technological revolution. Indeed, AI techniques have started replacing traditional models used in practice by banks for credit risk assessment, such as logistic regression. This is because AI models are not based on stringent econometric assumptions that hamper their classification performances. The flexibility resulting from this approach enables Machine Learning (ML) algorithms to effectively address one of the most significant challenges in credit risk modelling, namely the presence of Big Data, a term used to describe large datasets of information that are often available in an unstructured form. Among the various sources of Big Data, banks have the easiest access to transactional data, which consists of information on transactions recorded on customers' checking accounts. Based on these considerations, this research aims to develop a machine learning approach that utilizes transactional data to accurately predict the likelihood of overdraft. The dataset used for this study was provided by a prominent European banking group and includes information from over 200,000 current accounts, with a total of 80 million daily observations spanning from 2018 to 2020. The results demonstrate that ML and behavioral data can be effectively used to predict the risk of overdraft with high accuracy. In addition, tree-based algorithms deliver superior classification performances, even when compared to econometric methods commonly used in banking. Finally, given the European Regulator’s emphasis on the need for credit scoring models developed internally by banks to be fully transparent, this research demonstrates how simple off-the-shelf tools available in several programming languages can make the underlying decision-making process of credit scoring algorithms interpretable and justifiable even to non-domain-experts, with resulting positive spillover effects both at the regulatory level and in terms of customer transparency. Overall, the empirical evidence shown in this study will have positive implications for financial intermediaries in terms of liquidity management and regulatory compliance, as well as for bank customers in terms of improved financial inclusion.

L’introduzione dell’intelligenza artificiale (IA) nel settore finanziario sta rivoluzionando il modo in cui le banche definiscono le proprie strategie e conducono le loro operazioni quotidiane. In particolare, uno degli ambiti maggiormente influenzati da questa rivoluzione tecnologica è il credit scoring. Infatti, nella valutazione del rischio di credito, le tecniche di AI, non essendo basate su stringenti ipotesi econometriche, stanno cominciando a sostituire i modelli tradizionalmente utilizzati nella prassi bancaria, come la regressione logistica. La flessibilità che ne consegue permette agli algoritmi di Machine Learning (ML) di gestire con facilità una delle maggiori criticità che si presentano quando si deve modellare il rischio di credito, ovvero la presenza di Big Data, grandi dataset di informazioni che spesso si presentano in forma non strutturata. Tra le varie forme di Big Data, quelli a cui le banche hanno più facilmente accesso sono i dati transazionali, ossia i dati relativi alle transazioni registrate sui conti correnti della clientela. Partendo da questa considerazione, questa ricerca si pone come obiettivo quello di approntare un approccio di ML che utilizzi i dati transazionali per prevedere la probabilità di sconfino, sfruttando un dataset concesso da un primario gruppo bancario europeo relativo a più di 200,000 conti correnti per un totale di 80 milioni di osservazioni giornaliere nel periodo 2018-2020. I risultati mostrano come sia possibile prevedere con elevata accuratezza il rischio di sconfino utilizzando il ML e i dati comportamentali. Inoltre, si può osservare come gli algoritmi basati su alberi ottengono le performance classificatorie migliori, anche rispetto ai metodi econometrici tipicamente utilizzati nella prassi bancaria. Infine, considerando l’estrema importanza riposta dal Regolatore europeo nella trasparenza dei modelli di credit scoring sviluppati internamente dagli istituti finanziari, si mostra come semplici strumenti disponibili off-the-shelf per i principali linguaggi di programmazione permettano di rendere interpretabili e giustificabili le logiche decisionali degli algoritmi impiegati anche ai non esperti di dominio, con ricadute positive sia a livello regolamentare sia a livello di trasparenza nei confronti della clientela. In generale, queste evidenze hanno notevoli implicazioni positive sia per gli intermediari, in termini di gestione della liquidità e rispetto della normativa, sia per i clienti della banca, in termini di miglioramento dell’inclusione finanziaria.