Spano, Maria (2015) Tecniche di validazione per il Clustering di documenti. [Tesi di dottorato]
Preview |
Text
tesi ultima MS.pdf Download (2MB) | Preview |
Item Type: | Tesi di dottorato |
---|---|
Resource language: | Italiano |
Title: | Tecniche di validazione per il Clustering di documenti |
Creators: | Creators Email Spano, Maria maria.spano@unina.it |
Date: | 31 March 2015 |
Number of Pages: | 187 |
Institution: | Università degli Studi di Napoli Federico II |
Department: | Scienze Economiche e Statistiche |
Scuola di dottorato: | Scienze economiche e statistiche |
Dottorato: | Statistica |
Ciclo di dottorato: | 27 |
Coordinatore del Corso di dottorato: | nome email Lauro, Natale Carlo natale.lauro@unina.it |
Tutor: | nome email Balbi, Simona UNSPECIFIED |
Date: | 31 March 2015 |
Number of Pages: | 187 |
Keywords: | Text Mining, Cluster Validation, Document Clustering |
Settori scientifico-disciplinari del MIUR: | Area 13 - Scienze economiche e statistiche > SECS-S/01 - Statistica |
Date Deposited: | 13 Apr 2015 15:26 |
Last Modified: | 08 Oct 2015 08:09 |
URI: | http://www.fedoa.unina.it/id/eprint/10417 |
DOI: | 10.6092/UNINA/FEDOA/10417 |
Collection description
Classificare i documenti appartenenti ad un determinato corpus, sulla base del loro contenuto, è uno dei compiti più importanti, se non il più importante, del Text Mining e dell'Information Retrieval. Quest'obiettivo può essere raggiunto facendo riferimento a tecniche di Classificazione automatica. Tali tecniche sono comunemente connotate come parte del più ampio contenitore dei metodi di tipo esplorativo, in quanto finalizzati a identificare strutture nei dati non note. La validazione dei risultati viene, quindi, a volte, percepita come un'aggiunta onerosa a quello che viene considerato un passo iniziale di un processo di conoscenza. Questa percezione è estremamente pericolosa, perché potrebbe indirizzare gli approfondimenti successivi in maniera non corretta. Inoltre, i metodi di Classificazione automatica individuano in ogni caso una partizione dei dati, anche quando i dati stessi non presentano alcun raggruppamento naturale. La motivazione del presente lavoro è, quindi, data dalla consapevolezza dell'importanza di disporre di strumenti di valutazione efficaci, così da fornire al ricercatore risultati caratterizzati da un certo grado di affidabilità. Questa tesi pone, quindi, in rassegna la vastissima letteratura relativa agli strumenti di validazione, ponendo in particolare l'attenzione sulle misure interne per la validazione, poiché rappresentano degli strumenti in grado di fornire un'informazione sintetica della qualità della soluzione ottenuta, valutandola in termini di coesione e separazione dei gruppi ottenuti. Così come la varietà dei metodi di Clustering discende principalmente dalla loro applicabilità in molti ambiti diversi, così diverse misure interne di validazione sono state prodotte in diversi contesti. Questa circostanza rende necessario per i ricercatori avere a disposizione delle linee guida per districarsi al meglio nelle scelte di uno strumento piuttosto che un altro che possa risultare più idoneo nei diversi contesti. In questo lavoro si propone un confronto dei punti di forza e dei punti di debolezza di numerosi indici, tra i più utilizzati e più recenti, valutandone la performance su un gran numero di configurazioni. Ne deriva la consapevolezza che la proposta di un nuovo indice sarebbe una operazione di poca efficacia. Si preferisce piuttosto perseguire l'obiettivo di individuare una strategia integrata che metta in relazione i tre elementi dai quali non si può prescindere per eseguire una Cluster Analysis: il tipo di dati, gli algoritmi utilizzati e gli indici di validazione. Questi elementi condizionano in maniera determinante vuoi la qualità dei risultati dell'analisi, vuoi la valutazione che se ne può ottenere.
Downloads
Downloads per month over past year
Actions (login required)
View Item |