Rinaldi, Antonio Maria (2006) Tecniche e modelli per la ricerca semantica sul web: un approccio basato su ontologie. [Tesi di dottorato] (Unpublished)

[img]
Preview
PDF
tesi_dottorato_Antonio_Rinaldi.pdf

Download (2MB) | Preview
Item Type: Tesi di dottorato
Uncontrolled Keywords: Semantic information retrieval, Search engine, Modelli per l’IRR
Date Deposited: 31 Jul 2008
Last Modified: 30 Apr 2014 19:23
URI: http://www.fedoa.unina.it/id/eprint/594

Abstract

L’avanzamento delle tecnologie dell’informazione ha permesso la creazione di amplissime collezioni di documenti in formato elettronico riguardanti gli argomenti più disparati; di queste collezioni possiamo dire che l’esempio più rappresentativo è il World Wide Web. Non sempre, però, la grande disponibilità d’informazione è da ritenersi un fatto positivo, anzi, in certi casi, può diventare addirittura deleteria. Studi recenti hanno messo in evidenza come l’immensa quantità d’informazione offerta da internet possa provocare conseguenze psicologiche di vario tipo negli utilizzatori: da problemi nella sfera relazionale, allo scarso rendimento sul lavoro a causa di “navigazione compulsiva” sul web [Greenfield2002]. Ben più grave appare, secondo Francis Heylighen, l’effetto che l’Information Overload (sovraccarico d’informazione) sta avendo sulla nostra società. Sembrerebbe, infatti, che l’eccessiva informatizzazione stia incrementando esponenzialmente la velocità dei processi evolutivi della nostra società e ne stia anche aumentando la complessità [Heylighen2002]. Il fenomeno che sembra caratterizzare i nostri tempi è l’aumento progressivo di produttività in qualunque settore, intendendo con il termine “produttività” il rapporto tra il risultato ottenuto da un processo e le risorse impiegate. Questo fenomeno nel mondo dell’informazione è perfettamente rappresentato da internet: oggi è possibile pubblicare qualunque documento ad un costo praticamente nullo, senza nessun tipo di filtro. Questo se da un lato ha provocato un incremento della quantità d’informazione disponibile, da un altro lato ne ha, in media, ridotto la qualità. A causa della complessità nell’organizzazione dei dati e della quantità di materiale presente, la ricerca sul Web di informazioni davvero utili è diventata decisamente complessa. Lo sforzo fatto dalla comunità scientifica e dalle aziende che si occupano di information retrieval ha fornito agli utenti potenti mezzi, come ad esempio i motori di ricerca, per assisterli nella scoperta di risorse. Le tecniche di ricerca sono le più disparate ma i risultati sono lontani dal soddisfare le richieste di una ricerca mirata. Trovare informazioni usando i tradizionali motori si rivela fruttuoso solo in presenza di argomenti di una certa notorietà e importanza e di query molto precise; negli altri casi questo lavoro può implicare una considerevole perdita di tempo dato che un utente deve raffinare manualmente la ricerca visitando una ad una le pagine restituite. Questo avviene perché i motori di ricerca tradizionali effettuano ricerche di tipo sintattico: essi restituiscono le pagine che contengono le keywords presenti nelle query degli utenti, indipendentemente dal contesto in cui esse sono utilizzate oppure restituiscono pagine secondo algoritmi differenti, ad esempio basati sulla popolarità. Se ciò da un lato è conveniente in termini di velocità di reperimento delle pagine e restituzione dei risultati, dall’altro lato porta spesso a risultati errati o imprecisi, dato che vengono restituite molte pagine non attinenti al contesto della query dell’utente. anche In un contesto tale ha acquisito sempre più importanza nelle scienze informatiche, ed in particolare nel settore dell’information retrieval, il concetto di “rilevanza” delle informazioni. Questo concetto, che per l’uomo è del tutto intuitivo e nella maggior parte dei casi inconscio, è definito da Schutz come l’inerenza di un informazione ad un tema, cioè al particolare aspetto o oggetto della nostra concentrazione, avendo come base un orizzonte, ossia l’insieme delle conoscenze da noi possedute [Schutz1970]. Sarebbe conveniente avere a disposizione un sistema in grado di “capire” di cosa parla una pagina, valutando la sua attinenza con i domini di interesse per l’utente. Una ricerca di tale tipo è detta semantica in quanto non restituisce semplicemente pagine che contengono le keywords, ma pagine che hanno anche un contenuto semantico aderente al dominio desiderato dall’utente. I ricercatori stanno cercando di dare risposte a questi problemi e una delle soluzioni più accredidate sembra essere il Semantic Web [BernersLee2001]. E’ opinione di chi scrive che, anche se questo modo ci concepire il Web è affascinante e promettente, siamo ancora lontani da un suo utilizzo a larga scala dato che il metodo proposto implica necessariamente uno stravolgimento dell’attuale struttura del Web. Lo scopo di questo lavoro è quello progettare e realizzare un meta-motore di ricerca semantico, partendo dalla teorizzazione di tecniche e modelli fino ad arrivare all’implementazione e al testing finale. Nel primo capitolo saranno introdotti i concetti più importanti attorno ai quali si sviluppa l’Information Retrieval e Representation (IRR); nel secondo capitolo verranno descritti i modelli più importanti per l’IR; nel terzo capitolo parleremo di sistemi noti in letteratura per la ricerca semantica; nel quarto capitolo varrà descritta una tecnica per la rappresentazione della conoscenza, l’ontologia; nel quinto capitolo si parlerà delle metriche per la misura della similarità tra concetti; nel sesto capitolo verrà presentato un modello proposto per l’information retrieval e sarà descritto un sistema che si basa su questo modello; nel settimo capitolo verrà descritta la metodologia per la valutazione del sistema e sarà presentata una sperimentazione; nell’ottavo e ultimo capitolo verranno discussi i risultati ottenuti e presentate le conclusioni.

Actions (login required)

View Item View Item