Cutillo, Luisa (2006) Classification, Multiple Hypothesis Testing And Wavelet Thresholding Procedures With Applications. [Tesi di dottorato] (Unpublished)

[img]
Preview
PDF
Cutillo_Luisa.pdf

Download (2MB) | Preview

Abstract

[ITALIANO] Lo sviluppo delle metodologie statitistiche per l’analisi dati è generalmente collegato a progressi ottenuti in altri campi scientifici. Da un lato l’analisi statistica è spesso indirizzata a problemi reali, di conseguenza, il miglioramento delle metodologie nasce dall’esigenza di fornire una soluzione sempre pi`u accurata ed efficiente a problemi specifici. D’altro canto accade anche che le procedure statistiche siano prima esplorate in ambito teorico e successivamente testate prima in simulazione e quindi su dati reali. In quest’ottica, lo scopo di questo lavoro è quello di mostrare sia come problemi reali possano essere efficientemente risolti mediante tecniche statistiche, sia come modelli statistici teorici possano essere adatti a descrivere problemi reali. La tesi è organizzata come segue. Nel Capitolo 1 viene affrontato il problema della classificazione supervisionata con lo scopo di risolvere il problema della classificazione di immagini. Vengono passati in rassegna alcuni metodi standard ed in particolare è descritto il problema della classificazione di immagini mediante tecniche locali. I risultati dell’applicazione delle metodologie proposte a dati reali e simulati verranno poi presentati nel Capitolo 4. Nel Capitolo 2 viene introdotto il problema dei test di ipotesi multipla con l’obiettivo di fornire uno strumento di analisi di dati da cDNA microarray. Viene fornita una prospettiva critica dell’impostazione Bayesiana e frequentista del problema e sono descritti punti di forza , di debolezza e di contatto tra le due filosofie. L’applicazione a dati 4 reali da cDNA microarray delle metodologie discusse sar`a presentata nel Capitolo 6. Nel Capitolo 3 sono analizzate nel dominio wavelet alcune regole di thresholding indotte da una variazione del principio bayesiano del Maximum A Posteriori (MAP). Le regole MAP sono azioni Bayesiane che massimizzano la probabilit`a a posteriori. La metodologia proposta risulta essere di tipo thersholding ed è caratterizzata dalla propriet`a di selezionare la moda della probabilit`a a posteriori che risulta essere più grande in valore assoluto, da cui il nome Larger Posterior Mode (LPM). Forniamo un’analisi del rischio associato alla regola LPM e mostriamo come le sue prestazioni della regola LPM sono competitive con quelle di tecniche di letteratura. Il Capitolo 6 presenta infine una discussone sulla scelta degli iperparametri, uno studio in simulazione della rregola LPM ed una sua applicazione ad un problema reale. Questo lavoro è stato svolto durante la mia attività di ricerca presso l’Istituto per le Applicazioni del Calcolo Mauro Picone (IAC) , sezione di Napoli. L’interesse all’analisi dei dati da DNA microarray `e nato da una collaborazione con il Telethon Institute of Genetic and Medicine (TIGEM) e con il Policlinico di Napoli, dove sono stati fisicamente effettuati gli esperimenti sui DNA microarray. La parte finale della tesi è stata svolta durante il mio periodo di ricerca presso il Georgia Institute of Technology, Atlanta, Georgia. / [ENGLISH] The aim of this work is to show how different real world problems can be solved efficiently by statistical technics, and simultaneously to show how theoretical statistical models can fit real data problems. The present thesis is organized as follows. In Chapter 1 we deal with the problem of supervised classification having in mind the problem of image classification. We review some of the classical statistical methods for pattern recognition, introduce the problem of localized classification of images and propose new localized discriminant analysis methods. Applications of the proposed methodology to simulated and real data, will be provided in Chapter 4. In Chapter 2 we introduce the statistical problem of multiple hypothesis testing with the target of analyzing cDNA microarray data. We review the guiding lines of frequentist and Bayesian approach to multiple hypothesis testing, describing strength and weakness of the two philosophies andtrying to find some connections between them. The application of the described methods to a genetic microarray data experiment is provided in Chapter 6. In Chapter 3 we explore the thresholding rules in the wavelet domain induced by a variation of the Bayesian Maximum A Posteriori (MAP) principle. The MAP rules are Bayes actions that maximize the posterior. The proposed rule is thresholding and always picks the mode of the posterior larger in absolute value, thus the name Larger Posterior Mode (LPM). We show that the introduced shrinkage performs comparably to several popular shrinkage techniques. The exact risk properties of the thresholding rule are explored. Comprehensive simulations and comparisons are provided in Chapter 6 which also contains discussion on the selection of hyperparameters and a real-life application of the introduced shrinkage. The present work was done during my research activity at the Istituto per le Applicazioni del Calcolo "Mauro Picone" (IAC) in Naples. The interest on microarrays data was motivated by a collaboration with the Teleton Institute of Genetic and Medicine (TIGEM) and the Policlinico of Naples, where the biological experiments were carried out. The last part of this work was done during a visiting period at the Georgia Institute of Technology (GATECH), in Atlanta, U.S.A.

Item Type: Tesi di dottorato
Uncontrolled Keywords: Classificazione, Wavelet-Thresholding, microarray
Depositing User: Staff Staff
Date Deposited: 30 Jul 2008
Last Modified: 30 Apr 2014 19:23
URI: http://www.fedoa.unina.it/id/eprint/575

Actions (login required)

View Item View Item