![Page 1: Università degli Studi del Molise Tesi di Laurea in Informatica Applicazioni di modelli matematici alla ricerca semantica Candidato Dario Di Nucci 130804](https://reader036.vdocuments.pub/reader036/viewer/2022070313/5542eb5c497959361e8ca9af/html5/thumbnails/1.jpg)
Università degli Studi del MoliseTesi di Laurea in Informatica
Applicazioni di modelli matematici alla ricerca
semantica
CandidatoDario Di Nucci130804
RelatoreProf. Giovanni Capobianco
![Page 2: Università degli Studi del Molise Tesi di Laurea in Informatica Applicazioni di modelli matematici alla ricerca semantica Candidato Dario Di Nucci 130804](https://reader036.vdocuments.pub/reader036/viewer/2022070313/5542eb5c497959361e8ca9af/html5/thumbnails/2.jpg)
Internet è una rete di computer mondiale ad accesso pubblico che attualmente rappresenta il principale mezzo di comunicazione di massa.
I suoi utenti nel 2010 hanno raggiunto quota 1,97 miliardi in crescita del 14% rispetto all’anno precedente.
Il numero dei siti web nel 2010 ha raggiunto quota 255 milioni, di cui 21,4 aperti nell’ultimo anno.
Contesto applicativoEVOLUZIONE DI INTERNET
![Page 3: Università degli Studi del Molise Tesi di Laurea in Informatica Applicazioni di modelli matematici alla ricerca semantica Candidato Dario Di Nucci 130804](https://reader036.vdocuments.pub/reader036/viewer/2022070313/5542eb5c497959361e8ca9af/html5/thumbnails/3.jpg)
Cosa è?Insieme delle tecniche atte al recupero mirato dell’informazione in formato elettronico.
Cosa fa?Le tecniche di IR basate su modelli vettoriali, applicano il concetto di somiglianza testuale tra una base di dati e una query, restituendo una serie di documenti pertinenti.
Modelli matematici più importanti? Vector Space Model Latent Semantic Indexing …
Applicazioni più note?Motori di ricerca.
Contesto applicativoINFORMATION RETRIEVAL
![Page 4: Università degli Studi del Molise Tesi di Laurea in Informatica Applicazioni di modelli matematici alla ricerca semantica Candidato Dario Di Nucci 130804](https://reader036.vdocuments.pub/reader036/viewer/2022070313/5542eb5c497959361e8ca9af/html5/thumbnails/4.jpg)
Dati due vettori:rappresentante una queryrappresentante un
documentola loro similarità può essere calcolata attraverso il coseno dell’angolo , compreso tra essi.
.
Contesto applicativoVECTOR SPACE MODEL
![Page 5: Università degli Studi del Molise Tesi di Laurea in Informatica Applicazioni di modelli matematici alla ricerca semantica Candidato Dario Di Nucci 130804](https://reader036.vdocuments.pub/reader036/viewer/2022070313/5542eb5c497959361e8ca9af/html5/thumbnails/5.jpg)
Problema: l’utente va alla ricerca delle informazioni basandosi su concetti e non su singole parole.Il cuore del LSI è rappresentato dalla decomposizione ai valori singolari (SVD).
𝑿La matrice rappresenta i concetti ordinati in ordine di importanza.
𝑼 𝟎
𝜮𝟎 𝑽 𝟎
Contesto applicativoLATENT SEMANTIC INDEXING
![Page 6: Università degli Studi del Molise Tesi di Laurea in Informatica Applicazioni di modelli matematici alla ricerca semantica Candidato Dario Di Nucci 130804](https://reader036.vdocuments.pub/reader036/viewer/2022070313/5542eb5c497959361e8ca9af/html5/thumbnails/6.jpg)
Nella fruizione dei documenti presenti sul web è fondamentale per l’utente un motore di ricerca che restituisca risultati corretti.
Nella sua realizzazione tre problemi che sicuramente incidono negativamente sulla bontà dei risultati sono:polisemiasinonimiaquery malformate
MotivazioniPROBLEMATICHE COMUNI
![Page 7: Università degli Studi del Molise Tesi di Laurea in Informatica Applicazioni di modelli matematici alla ricerca semantica Candidato Dario Di Nucci 130804](https://reader036.vdocuments.pub/reader036/viewer/2022070313/5542eb5c497959361e8ca9af/html5/thumbnails/7.jpg)
Molte parole hanno più di un significato, quindi una query potrebbe condividere dei termini con un documento, sebbene quest’ultimo non sia rilevante.
Conte
MotivazioniPOLISEMIA
![Page 8: Università degli Studi del Molise Tesi di Laurea in Informatica Applicazioni di modelli matematici alla ricerca semantica Candidato Dario Di Nucci 130804](https://reader036.vdocuments.pub/reader036/viewer/2022070313/5542eb5c497959361e8ca9af/html5/thumbnails/8.jpg)
Esistono diversi modi per esprimere uno stesso concetto; ciò implica che una query potrebbe non condividere termini con un documento, sebbene quest’ultimo sia rilevante per la query stessa.
Automobile Macchina Auto
MotivazioniSINONIMIA
![Page 9: Università degli Studi del Molise Tesi di Laurea in Informatica Applicazioni di modelli matematici alla ricerca semantica Candidato Dario Di Nucci 130804](https://reader036.vdocuments.pub/reader036/viewer/2022070313/5542eb5c497959361e8ca9af/html5/thumbnails/9.jpg)
Spesso l’utente inserisce, per errore, query non valide o che non rappresentano bene l’informazione ricercata.
Conta
MotivazioniQUERY MALFORMATE
![Page 10: Università degli Studi del Molise Tesi di Laurea in Informatica Applicazioni di modelli matematici alla ricerca semantica Candidato Dario Di Nucci 130804](https://reader036.vdocuments.pub/reader036/viewer/2022070313/5542eb5c497959361e8ca9af/html5/thumbnails/10.jpg)
Obiettivi
Migliorare l’accuratezza dei risultati forniti da un motore di ricerca, attraverso il profiling degli utenti.
Profiling?!Attraverso le query fornite dall’utente e i risultati da questi selezionati, il sistema acquisisce esperienza.In questo modo restituisce risultati con un grado di correttezza crescente.
PROFILING
![Page 11: Università degli Studi del Molise Tesi di Laurea in Informatica Applicazioni di modelli matematici alla ricerca semantica Candidato Dario Di Nucci 130804](https://reader036.vdocuments.pub/reader036/viewer/2022070313/5542eb5c497959361e8ca9af/html5/thumbnails/11.jpg)
E’ stato realizzato un motore di ricerca basato su una nota libreria di Information Retrieval, Lucene.Lucene è un progetto open source promosso dalla Apache Software Foundation.
docs HoundINTRODUZIONE
![Page 12: Università degli Studi del Molise Tesi di Laurea in Informatica Applicazioni di modelli matematici alla ricerca semantica Candidato Dario Di Nucci 130804](https://reader036.vdocuments.pub/reader036/viewer/2022070313/5542eb5c497959361e8ca9af/html5/thumbnails/12.jpg)
Si occupa di analizzare le pagine web.Per ogni documento:estrapola informazioni testualiindividua le categorie inerentiaggiorna le definizioni delle categorie
Ogni categoria è identificata da un vocabolario, costituito da un insieme di termini.
docs HoundINDEXER
![Page 13: Università degli Studi del Molise Tesi di Laurea in Informatica Applicazioni di modelli matematici alla ricerca semantica Candidato Dario Di Nucci 130804](https://reader036.vdocuments.pub/reader036/viewer/2022070313/5542eb5c497959361e8ca9af/html5/thumbnails/13.jpg)
Ad ogni utente è associato un profilo di ricerca, sotto forma di distribuzione di probabilità.
Il valore della preferenza di una categoria aumenta seguendo l'andamento di una funzione logistica.
I valori delle categorie non scelte sono decrementati in modo proporzionale.
docs HoundPROFILING UTENTE
![Page 14: Università degli Studi del Molise Tesi di Laurea in Informatica Applicazioni di modelli matematici alla ricerca semantica Candidato Dario Di Nucci 130804](https://reader036.vdocuments.pub/reader036/viewer/2022070313/5542eb5c497959361e8ca9af/html5/thumbnails/14.jpg)
Scelte occasionali per una categoria modificano soltanto lievemente il profilo, mentre scelte consecutive hanno effetto via via maggiore.
Quando la preferenza per una categoria raggiunge un valore sufficientemente più elevato rispetto alle altre, si stabilizza su tale posizione.
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.00.0
0.2
0.4
0.6
0.8
1.0
docs HoundFUNZIONE LOGISTICA
![Page 15: Università degli Studi del Molise Tesi di Laurea in Informatica Applicazioni di modelli matematici alla ricerca semantica Candidato Dario Di Nucci 130804](https://reader036.vdocuments.pub/reader036/viewer/2022070313/5542eb5c497959361e8ca9af/html5/thumbnails/15.jpg)
Restituisce le pagine web ordinandole per punteggio.Il punteggio è calcolato in funzione dell'attinenza della pagina web con la query e il profilo dell'utente.
In particolare: punteggio = punteggio query * (1 + punteggio profilo)
Per ridurre i problemi causati da query malformate, il parser delle query applica a queste un grado di casualità utilizzando tecniche fuzzy.
docs HoundSEARCHER
![Page 16: Università degli Studi del Molise Tesi di Laurea in Informatica Applicazioni di modelli matematici alla ricerca semantica Candidato Dario Di Nucci 130804](https://reader036.vdocuments.pub/reader036/viewer/2022070313/5542eb5c497959361e8ca9af/html5/thumbnails/16.jpg)
docs HoundTESTING
Query
1Query
2Query
3Query
4Query
5Tot diff
Utente 1
110
110
110
32-1
110
-1
Utente 2
31-2
220
110
110
110
-2
Utente 3
110
110
21-1
220
110
-1
Utente 4
110
110
21-1
21-1
21-1
-3
Utente 5
110
220
110
110
110
0
![Page 17: Università degli Studi del Molise Tesi di Laurea in Informatica Applicazioni di modelli matematici alla ricerca semantica Candidato Dario Di Nucci 130804](https://reader036.vdocuments.pub/reader036/viewer/2022070313/5542eb5c497959361e8ca9af/html5/thumbnails/17.jpg)
Al termine della sperimentazione si può affermare che le tecniche di profiling sono una buona soluzione per il problema della polisemia.
Il problema delle query malformate è stato mitigato applicando un grado di casualità ad esse.
CONCLUSIONI
![Page 18: Università degli Studi del Molise Tesi di Laurea in Informatica Applicazioni di modelli matematici alla ricerca semantica Candidato Dario Di Nucci 130804](https://reader036.vdocuments.pub/reader036/viewer/2022070313/5542eb5c497959361e8ca9af/html5/thumbnails/18.jpg)
Integrazione di un crawler nel sistema al fine di renderlo operativo.
Miglioramento della categorizzazione di utenti e pagine attraverso una crescente accuratezza dei vocabolari che ne costituiscono le definizioni.
Gestione automatica della funzione logistica in base al numero di categorie.
Testing approfondito con un maggior numero di utenti.
SVILUPPI FUTURI
![Page 19: Università degli Studi del Molise Tesi di Laurea in Informatica Applicazioni di modelli matematici alla ricerca semantica Candidato Dario Di Nucci 130804](https://reader036.vdocuments.pub/reader036/viewer/2022070313/5542eb5c497959361e8ca9af/html5/thumbnails/19.jpg)
Grazie per l’attenzione