Spano, Maria (2015) Tecniche di validazione per il Clustering di documenti. [Tesi di dottorato]

[img]
Preview
Text
tesi ultima MS.pdf

Download (2MB) | Preview
[error in script] [error in script]
Item Type: Tesi di dottorato
Lingua: Italiano
Title: Tecniche di validazione per il Clustering di documenti
Creators:
CreatorsEmail
Spano, Mariamaria.spano@unina.it
Date: 31 March 2015
Number of Pages: 187
Institution: Università degli Studi di Napoli Federico II
Department: Scienze Economiche e Statistiche
Scuola di dottorato: Scienze economiche e statistiche
Dottorato: Statistica
Ciclo di dottorato: 27
Coordinatore del Corso di dottorato:
nomeemail
Lauro, Natale Carlonatale.lauro@unina.it
Tutor:
nomeemail
Balbi, SimonaUNSPECIFIED
Date: 31 March 2015
Number of Pages: 187
Uncontrolled Keywords: Text Mining, Cluster Validation, Document Clustering
Settori scientifico-disciplinari del MIUR: Area 13 - Scienze economiche e statistiche > SECS-S/01 - Statistica
Date Deposited: 13 Apr 2015 15:26
Last Modified: 08 Oct 2015 08:09
URI: http://www.fedoa.unina.it/id/eprint/10417
DOI: 10.6092/UNINA/FEDOA/10417

Abstract

Classificare i documenti appartenenti ad un determinato corpus, sulla base del loro contenuto, è uno dei compiti più importanti, se non il più importante, del Text Mining e dell'Information Retrieval. Quest'obiettivo può essere raggiunto facendo riferimento a tecniche di Classificazione automatica. Tali tecniche sono comunemente connotate come parte del più ampio contenitore dei metodi di tipo esplorativo, in quanto finalizzati a identificare strutture nei dati non note. La validazione dei risultati viene, quindi, a volte, percepita come un'aggiunta onerosa a quello che viene considerato un passo iniziale di un processo di conoscenza. Questa percezione è estremamente pericolosa, perché potrebbe indirizzare gli approfondimenti successivi in maniera non corretta. Inoltre, i metodi di Classificazione automatica individuano in ogni caso una partizione dei dati, anche quando i dati stessi non presentano alcun raggruppamento naturale. La motivazione del presente lavoro è, quindi, data dalla consapevolezza dell'importanza di disporre di strumenti di valutazione efficaci, così da fornire al ricercatore risultati caratterizzati da un certo grado di affidabilità. Questa tesi pone, quindi, in rassegna la vastissima letteratura relativa agli strumenti di validazione, ponendo in particolare l'attenzione sulle misure interne per la validazione, poiché rappresentano degli strumenti in grado di fornire un'informazione sintetica della qualità della soluzione ottenuta, valutandola in termini di coesione e separazione dei gruppi ottenuti. Così come la varietà dei metodi di Clustering discende principalmente dalla loro applicabilità in molti ambiti diversi, così diverse misure interne di validazione sono state prodotte in diversi contesti. Questa circostanza rende necessario per i ricercatori avere a disposizione delle linee guida per districarsi al meglio nelle scelte di uno strumento piuttosto che un altro che possa risultare più idoneo nei diversi contesti. In questo lavoro si propone un confronto dei punti di forza e dei punti di debolezza di numerosi indici, tra i più utilizzati e più recenti, valutandone la performance su un gran numero di configurazioni. Ne deriva la consapevolezza che la proposta di un nuovo indice sarebbe una operazione di poca efficacia. Si preferisce piuttosto perseguire l'obiettivo di individuare una strategia integrata che metta in relazione i tre elementi dai quali non si può prescindere per eseguire una Cluster Analysis: il tipo di dati, gli algoritmi utilizzati e gli indici di validazione. Questi elementi condizionano in maniera determinante vuoi la qualità dei risultati dell'analisi, vuoi la valutazione che se ne può ottenere.

Actions (login required)

View Item View Item