Mauriello, Filomena (2014) Tecniche di ricampionamento per dataset con classi di risposta sbilanciate. Una proposta metodologica per dataset con predittori di natura numerica e categorica. [Tesi di dottorato]

[img]
Preview
Text
Filomena Mauriello Tesi di dottorato.pdf

Download (14MB) | Preview
[error in script] [error in script]
Item Type: Tesi di dottorato
Lingua: Italiano
Title: Tecniche di ricampionamento per dataset con classi di risposta sbilanciate. Una proposta metodologica per dataset con predittori di natura numerica e categorica.
Creators:
CreatorsEmail
Mauriello, Filomenafilomena
Date: 31 March 2014
Number of Pages: 243
Institution: Università degli Studi di Napoli Federico II
Department: Scienze Economiche e Statistiche
Scuola di dottorato: Scienze economiche e statistiche
Dottorato: Statistica
Ciclo di dottorato: 26
Coordinatore del Corso di dottorato:
nomeemail
Lauro, Carlo Natalenatale.lauro@unina.it
Tutor:
nomeemail
Aria, MassimoUNSPECIFIED
Marino, MarinaUNSPECIFIED
Date: 31 March 2014
Number of Pages: 243
Uncontrolled Keywords: Oversampling, dataset sintetici, misure di performance
Settori scientifico-disciplinari del MIUR: Area 13 - Scienze economiche e statistiche > SECS-S/05 - Statistica sociale
Aree tematiche (7° programma Quadro): SICUREZZA > Sicurezza delle infrastrutture e dei servizi pubblici
Date Deposited: 15 Apr 2014 18:49
Last Modified: 28 Jan 2015 09:37
URI: http://www.fedoa.unina.it/id/eprint/9890

Abstract

Lo studio dei dati con classi di risposta sbilanciate è un argomento di notevole importanza, soprattutto nella medicina, nella finanze, nella sicurezza stradale ed altri campi. In presenza di una distribuzione della variabile di risposta estremamente sbilanciata il processo di apprendimento può essere distorto, perché il modello tende a focalizzarsi sulla classe prevalente e ignorare gli eventi rari, che possono essere pazienti aventi un cancro, incidenti stradali mortali, oppure cattivi creditori. La regressione logistica, per esempio, nota come uno dei metodi parametrici tradizionali più utilizzati per la classificazione binaria, non è consigliabile quando le classi sono sbilanciate, perché la probabilità condizionale della classe rara è sottostimata. Nemmeno i metodi più flessibili non parametrici come gli alberi di classificazione e le regole associative sono immuni alle conseguenze di una distribuzione asimmetrica delle classi. Gli alberi di classificazione, per esempio, sono costruiti trovando divisioni successive tale che sia massimo il decremento di impurità. Questo è tipicamente tradotto in modelli comuni aventi una accuratezza elevata nella classe prevalente e una precisione molto bassa della classificazione dell’evento raro. È importante sottolineare che la classe minoritaria di solito rappresenta il concetto di interesse, ad esempio la diagnosi medica di pazienti con malattie rare, come il cancro. Diverse sono le soluzioni che sono state proposte nel tempo per affrontare il problema dei dati estremamente squilibrati, e si possono distinguere due approcci comuni, Tecniche di Cost-Sensitive Learning e Tecniche di campionamento. A differenza dei modelli tradizionali di apprendimento, le tecniche Cost-Sensitive utilizzano una funzione di costo di errata classificazione per pesare le diverse classi di risposta e così limitare gli effetti dovuti allo sbilanciamento della distribuzione delle classi stesse. L'obiettivo dell'apprendimento Cost-Sensitive è minimizzare i costi di errata classificazione pesati sulla base di una funzione di penalità. Le tecniche di campionamento effettuano un lavoro di pre-processing sui dati, in modo da fornire una distribuzione bilanciata tra le classi. L'uso di metodi di campionamento consiste nella modifica di un set di dati sbilanciati attraverso alcuni meccanismi in modo da fornire una distribuzione equilibrata. Le tecniche più comuni sono il random oversampling che attua un campionamento con ripetizione delle osservazioni appartenenti alla classe rara e il random undersampling che, al contrario, effettua un campionamento senza ripetizione tra le osservazioni appartenenti alla classe maggioritaria. In altre parole, Il random oversampling è un metodo che mira a bilanciare la distribuzione di classe attraverso la replicazione casuale di esempi appratenti alla classe minoritaria. Diversi autori concordano sul fatto che il random oversampling può aumentare la probabilità che si verifichino problemi di overfitting. Ciò implica che un classificatore potrebbe pervenire alla definizione di regole apparentemente accurate, ma che in realtà lo sono solo per il dataset replicato e non per la popolazione di riferimento. Inoltre, il random oversampling aumenta il costo computazionale del processo di apprendimento accrescendo in maniera massiva la dimensione della matrice dei dati (in merito al numero di osservazioni da trattare). Il random undersampling, estraendo solo una parte delle osservazioni che compongono la distribuzione all’interno della classe maggioritaria, potrebbe portare a risultati insoddisfacenti in quanto parte dell’informazione contenuta nella matrice iniziale verrà scartata riducendo la dimensione del campione. Nonostante gli svantaggi delle tecniche di ricampionamento, queste sono molto più popolari delle tecniche di Cost-Sensitive Learning. La ragione più ovvia è che esistono implementazioni Cost-Sensitive solo per alcuni algoritmi di apprendimento e quindi spesso l’unica via per trattare la problematica dei dati con classi sbilanciate è quella di ricorrere a tecniche di ricampionamento. Infatti le tecniche di ricampionamento agiscono come una fase di pre-elaborazione, consentendo al sistema di apprendimento di ricevere le osservazioni, come se appartenessero a un insieme di dati ben equilibrato. Nel corso degli anni, molte tecniche sono state sviluppate con l’obiettivo di superare i limiti del random sampling. Molti studi hanno focalizzato l’attenzione su metodi di ricampionamento dei dati in modo da avere delle classi non sbilanciate mantenendo al contempo una struttura informativa coerente con il dataset originario, si ricordano in particolare il Synthetic Minority Over-sampling TEchnique (SMOTE), ADAptive SYnthetic sampling (ADASYN) e Random OverSampling Examples (ROSE). Tutte queste tecniche generano osservazioni "sintetiche" dalla classe di minoranza e le aggiungono al set di dati esistenti. I record artificiali della classe di minoranza sono generati basandosi sulla similarità nello spazio dei predittori. In particolare, la similarità tra le osservazioni è misurata attraverso l’impiego di alcune misure di distanza. Analizzando i risultati ottenuti in tali studi si può osservare come l’impiego di tecniche di generazione di dati artificiali consenta di migliorare sensibilmente le misure di performance dei modelli di classificazione rispetto agli approcci classici di ricampionamento. Un limite, che accomuna tutte le tecniche appena citate, è rappresentato dalla impossibilità di trattare dataset con classi sbilanciate in cui vi sia la presenza sia di predittori numerici sia predittori qualitativi. Solitamente, per superare questo problema, ci si limita ad ignorare le variabili categoriche nel processo di generazione di dati artificiali. Nel presente lavoro si propone una nuova metodologia di synthetic sampling, chiamato “Synthetic Over-sampling for Numerical and Categorical variables (SONCA)” che possa essere utilizzato con dataset caratterizzati dalla presenza di predittori di natura eterogenea. L’idea chiave di SONCA consiste nella generazione di osservazioni artificiali attraverso la definizione di una funzione di probabilità inversamente proporzionale alla distanza tra le osservazioni. Distanza misurata dopo una codifica ad hoc della matrice originaria così che possano essere considerate contemporaneamente sia variabili numeriche sia categoriche. Al fine di valutare l’efficacia di SONCA, l’algoritmo è testato usando differenti dataset, che appartengono alla banca dati dell’UCI Machine Learning Repository. In particolare, si è scelto di valutare le prestazioni dell’algoritmo SONCA rispetto a due aspetti principali: la sensibilità delle performance del metodo rispetto ai diversi parametri che lo caratterizzano; la comparazione delle performance rispetto alle principali proposte metodologiche già presenti in letteratura. Per valutare le prestazioni dell’algoritmo SONCA, sono state considerate diverse misure di performance. Le consuete misure di accuratezza, come ad esempio il tasso di errata classificazione, possono condurre a risultati fuorvianti perché dipendono fortemente dalla distribuzione di classe. Dallo studio della letteratura, è stato identificato un set di misure di performance che si caratterizzano per un funzionamento che sia indipendente dalla distribuzione della classe di risposta. Inoltre il processo di valutazione è completato con l’utilizzo di SONCA su 2 dataset reali che riguardano il problema, di grande interesse nella letteratura sulla sicurezza stradale, dello studio delle determinanti degli incidenti stradali mortali. Il presente lavoro di tesi è stato suddiviso in cinque capitoli: - Nel primo capitolo è affrontato il problema delle classi di risposta sbilanciate e le diverse soluzioni presenti in letteratura; - Nel secondo capitolo è presentato l’algoritmo di ricampionamento Synthetic Over-sampling for Numerical and Categorical variables (SONCA), che può essere utilizzato sia per predittori di natura numerica, sia per dati di natura categorica; - Nel terzo capitolo sono riportate le diverse misure di performance utilizzate per la valutazione dell’accuratezza dei classificatori; - Nel quarto capitolo sono utilizzati numerosi dataset per valutare le prestazioni dell’algoritmo SONCA rispetto a due aspetti principali: La sensibilità delle performance del metodo rispetto ai diversi parametri che lo caratterizzano; La comparazione delle performance rispetto alle principali proposte metodologiche già presenti in letteratura; - Nel quinto capitolo il processo di valutazione è completato con l’utilizzo di SONCA su 2 dataset reali che riguardano il problema dello studio delle determinanti degli incidenti stradali mortali.

Actions (login required)

View Item View Item