Tecniche e modelli per la ricerca semantica sul web: un approccio basato su ontologie

Rinaldi, Antonio Maria (2006) Tecniche e modelli per la ricerca semantica sul web: un approccio basato su ontologie. [Tesi di dottorato] (Inedito)

Full text disponibile come:

[img]PDF - Richiede un editor Pdf del tipo GSview, Xpdf o Adobe Acrobat Reader
2276Kb

Abstract

L’avanzamento delle tecnologie dell’informazione ha permesso la creazione di amplissime collezioni di documenti in formato elettronico riguardanti gli argomenti più disparati; di queste collezioni possiamo dire che l’esempio più rappresentativo è il World Wide Web. Non sempre, però, la grande disponibilità d’informazione è da ritenersi un fatto positivo, anzi, in certi casi, può diventare addirittura deleteria. Studi recenti hanno messo in evidenza come l’immensa quantità d’informazione offerta da internet possa provocare conseguenze psicologiche di vario tipo negli utilizzatori: da problemi nella sfera relazionale, allo scarso rendimento sul lavoro a causa di “navigazione compulsiva” sul web [Greenfield2002]. Ben più grave appare, secondo Francis Heylighen, l’effetto che l’Information Overload (sovraccarico d’informazione) sta avendo sulla nostra società. Sembrerebbe, infatti, che l’eccessiva informatizzazione stia incrementando esponenzialmente la velocità dei processi evolutivi della nostra società e ne stia anche aumentando la complessità [Heylighen2002]. Il fenomeno che sembra caratterizzare i nostri tempi è l’aumento progressivo di produttività in qualunque settore, intendendo con il termine “produttività” il rapporto tra il risultato ottenuto da un processo e le risorse impiegate. Questo fenomeno nel mondo dell’informazione è perfettamente rappresentato da internet: oggi è possibile pubblicare qualunque documento ad un costo praticamente nullo, senza nessun tipo di filtro. Questo se da un lato ha provocato un incremento della quantità d’informazione disponibile, da un altro lato ne ha, in media, ridotto la qualità. A causa della complessità nell’organizzazione dei dati e della quantità di materiale presente, la ricerca sul Web di informazioni davvero utili è diventata decisamente complessa. Lo sforzo fatto dalla comunità scientifica e dalle aziende che si occupano di information retrieval ha fornito agli utenti potenti mezzi, come ad esempio i motori di ricerca, per assisterli nella scoperta di risorse. Le tecniche di ricerca sono le più disparate ma i risultati sono lontani dal soddisfare le richieste di una ricerca mirata. Trovare informazioni usando i tradizionali motori si rivela fruttuoso solo in presenza di argomenti di una certa notorietà e importanza e di query molto precise; negli altri casi questo lavoro può implicare una considerevole perdita di tempo dato che un utente deve raffinare manualmente la ricerca visitando una ad una le pagine restituite. Questo avviene perché i motori di ricerca tradizionali effettuano ricerche di tipo sintattico: essi restituiscono le pagine che contengono le keywords presenti nelle query degli utenti, indipendentemente dal contesto in cui esse sono utilizzate oppure restituiscono pagine secondo algoritmi differenti, ad esempio basati sulla popolarità. Se ciò da un lato è conveniente in termini di velocità di reperimento delle pagine e restituzione dei risultati, dall’altro lato porta spesso a risultati errati o imprecisi, dato che vengono restituite molte pagine non attinenti al contesto della query dell’utente. anche In un contesto tale ha acquisito sempre più importanza nelle scienze informatiche, ed in particolare nel settore dell’information retrieval, il concetto di “rilevanza” delle informazioni. Questo concetto, che per l’uomo è del tutto intuitivo e nella maggior parte dei casi inconscio, è definito da Schutz come l’inerenza di un informazione ad un tema, cioè al particolare aspetto o oggetto della nostra concentrazione, avendo come base un orizzonte, ossia l’insieme delle conoscenze da noi possedute [Schutz1970]. Sarebbe conveniente avere a disposizione un sistema in grado di “capire” di cosa parla una pagina, valutando la sua attinenza con i domini di interesse per l’utente. Una ricerca di tale tipo è detta semantica in quanto non restituisce semplicemente pagine che contengono le keywords, ma pagine che hanno anche un contenuto semantico aderente al dominio desiderato dall’utente. I ricercatori stanno cercando di dare risposte a questi problemi e una delle soluzioni più accredidate sembra essere il Semantic Web [BernersLee2001]. E’ opinione di chi scrive che, anche se questo modo ci concepire il Web è affascinante e promettente, siamo ancora lontani da un suo utilizzo a larga scala dato che il metodo proposto implica necessariamente uno stravolgimento dell’attuale struttura del Web. Lo scopo di questo lavoro è quello progettare e realizzare un meta-motore di ricerca semantico, partendo dalla teorizzazione di tecniche e modelli fino ad arrivare all’implementazione e al testing finale. Nel primo capitolo saranno introdotti i concetti più importanti attorno ai quali si sviluppa l’Information Retrieval e Representation (IRR); nel secondo capitolo verranno descritti i modelli più importanti per l’IR; nel terzo capitolo parleremo di sistemi noti in letteratura per la ricerca semantica; nel quarto capitolo varrà descritta una tecnica per la rappresentazione della conoscenza, l’ontologia; nel quinto capitolo si parlerà delle metriche per la misura della similarità tra concetti; nel sesto capitolo verrà presentato un modello proposto per l’information retrieval e sarà descritto un sistema che si basa su questo modello; nel settimo capitolo verrà descritta la metodologia per la valutazione del sistema e sarà presentata una sperimentazione; nell’ottavo e ultimo capitolo verranno discussi i risultati ottenuti e presentate le conclusioni.

Tipologia di documento:Tesi di dottorato
Parole chiave:Semantic information retrieval, Search engine, Modelli per l’IRR
Settori scientifico-disciplinari MIUR:Area 09 Ingegneria industriale e dell'informazione > ING-INF/05 SISTEMI DI ELABORAZIONE DELLE INFORMAZIONI
Coordinatori della Scuola di dottorato:
Coordinatore del Corso di dottoratoe-mail (se nota)
Cordella, Pietro
Tutor della Scuola di dottorato:
Tutor del Corso di dottoratoe-mail (se nota)
Picariello, Antonio
Stato del full text:Accessibile
Data:2006
Numero di pagine:156
Istituzione:Università degli Studi di Napoli Federico II
Dipartimento o Struttura:Informatica e Sistemistica
Tipo di tesi:Dottorato
Stato dell'Eprint:Inedito
Denominazione del dottorato:Ingegneria Informatica ed Automatica
Ciclo di dottorato:XVIII
Numero di sistema:594
Depositato il:31 Luglio 2008
Ultima modifica:04 Febbraio 2009 09:38

Solo per gli Amministratori dell'archivio: edita il record