practical linked data - esempi, utilizzi, risorse

29
Copyright 2009-2010 @CULT. All rights reserved Practical Linked Data Risorse, strumenti, utilizzi Andrea Gazzarini Software Architect, @Cult Convegno Stelline 2015 Sala Chagall – Milano 13 marzo 2015 c c c

Upload: andrea-gazzarini

Post on 19-Jul-2015

293 views

Category:

Software


2 download

TRANSCRIPT

Copyright 2009-2010 @CULT. All rights reserved

Practical Linked DataRisorse, strumenti, utilizzi

Andrea GazzariniSoftware Architect, @Cult

Convegno Stell ine 2015 Sala Chagall – Milano13 marzo 2015

c

c c

Copyright 2009-2010 @CULT. All rights reserved

Andrea GazzariniSoftware Architect, @Cult

Convegno Stell ine 2015 - 13 marzo 2015 Sala Chagall – Milano

http://www.atcult.it

http://people.apache.org/map.html?person=agazzarini

https://twitter.com/agazzarini

https://www.linkedin.com/in/andreagazzarini

http://andreagazzarini.blogspot.it

https://github.com/agazzarini

http://www.slideshare.net/AndreaGazzarini

https://www.packtpub.com/big-data-and-business-intelligence/apache-solr-essentials

Copyright 2009-2010 @CULT. All rights reserved 3

Linked Open Data

Copyright 2009-2010 @CULT. All rights reserved 4

BioPortal

BioPortal [1] è un portale che fornisce servizi di ricerca, browsing, annotazione, mappatura su un dataset di ontologie di dimensioni rilevanti .

Tutte le informazioni ed i servizi sono consultabili tramite l'interfaccia grafica del portale e tramite servizi REST [2].

Tra i servizi offerti troviamo:

● Browsing: consultazione delle ontologie presenti nel database;● Search: ricerca full text (“semplice” ed “avanzata”);● Mapping: relazioni tra termini in differenti ontologie;● Recommender: proposizioni di ontologie da utilizzare a partire da un testo;● Annotator: annotazione automatica, all'interno di un testo, dei termini censiti all'interno delle ontologie.

[1] http://bioportal.bioontology.org[2] http://www.bioontology.org/wiki/index.php/NCBO_REST_services

Copyright 2009-2010 @CULT. All rights reserved 5

Linked Life Data (1/3)

Linked Life Data [1] è un Data-As-A-Service (DAAS) che fornisce l'accesso pubblico ed unico a 25 database biomedici.

Sono previste due modalità di fruizione [2]: gratuita ed a sottoscrizione. Quest'ultima prevede servizi aggiuntivi come ad esempio accesso via HTTPS, nessun limite di ricerche al minuto, maggiore frequenza negli aggiornamenti.

Oltre ad uno SPARQL endpoint [3], per l'integrazione machine-to-machine, il portale offre anche una interfaccia di ricerca [4] che include funzionalità tipiche dei motori fulltext, quali autocompletamento, faceted search, ricerca semplice ed avanzata.

[1] http://linkedlifedata.com/about[2] http://linkedlifedata.com/about#linked-life-data[3] http://linkedlifedata.com/sparql[4] http://linkedlifedata.com/search/quick

Copyright 2009-2010 @CULT. All rights reserved 6

Linked Life Data (2/3)

Esempio di SPARQL: selezione del gene “TP53” e dei suoi legami all'interno dell'ontologia GeneOntology.

PREFIX psys: <http://proton.semanticweb.org/2006/05/protons#>PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>PREFIX gene: <http://linkedlifedata.com/resource/entrezgene/>

SELECT ?gene ?goWHERE { ?gene rdf:type gene:Gene; ?gene:geneSymbol "TP53" . ?gene:goTerm ?go .}

Copyright 2009-2010 @CULT. All rights reserved 7

Linked Life Data (1/2)

Copyright 2009-2010 @CULT. All rights reserved 8

Bio2RDF

Bio2RDF [1] è un progetto open-source che utilizza le tecnologie del Web Semantico per costruire e fornire una rete di risorse Linked Data afferenti al dominio delle scienze biomediche.

I dataset [2] presenti sono consultabili e posso essere prelevati per un utilizzo su una propria applicazione.

Il progetto mette inoltre a disposizione uno SPARQL endpoint [3] interrogabile, presumibilmente con limiti di utilizzo (non riportati all'interno del sito).

[1] http://bio2rdf.org [2] http://download.bio2rdf.org/release/3/release.html [3] https://github.com/bio2rdf/bio2rdf-scripts/wiki/Query-repository

Copyright 2009-2010 @CULT. All rights reserved 9

DBPedia

DBpedia è un progetto aperto e collaborativo per l’estrazione e il riutilizzo di informazioni semanticamente strutturate da Wikipedia.

Oltre alla fruizione dei dati tramite export o SPARQL endpoint, il progetto, all'interno del suo portale, racchiude numerose risorse e progetti legati al mondo dei Linked Data (e.g. faceted browsers, Natural Language Processing, strumenti di disambiguazione)

Fornisce uno SPARQL endpoint pubblico e gratuito, soggetto a delle limitazioni d'uso.

I dump dell'intera base dati sono disponibili e pertanto possono essere prelevati e memorizzati in un RDF store proprio.

[1] http://www.dbpedia.org

Copyright 2009-2010 @CULT. All rights reserved 10

DBPedia Spotl ight

Spotl ight [1] è uno strumento in grado di riconoscere all'interno di un testo le risorse censite in Dbpedia. Rappresente una soluzione semplice ed efficace per classificazione o estrarre entità da contenuti testuali non strutturati.

Il team di sviluppo di Spotlight ha creato una applicazione web [2] dove è possibile provare le funzionalità di annotazione e disambiguazione su dei testi inseriti manualmente.

Per utilizzi in scenari reali, Spotlight è mette a disposizione un Web Service [3] online, con delle limitazione d'uso; è possibile inoltre prelevare il software ed installarlo su un proprio server [4].

[1] https://github.com/dbpedia-spotlight/dbpedia-spotlight

[2] http://dbpedia-spotlight.github.io/demo

[3] https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki/Web-service

[4] https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki/Installation

Copyright 2009-2010 @CULT. All rights reserved 11

VIAF

Il Virtual International Authority File [1] è un progetto internazionale promosso dalla Library of Congress e dalla Deutsche Nationalbibliothek, attualmente sostenuto dall'Online Computer Library Center (OCLC), che ha l'obiettivo di costituire un'unica base dati di voci di autorità controllate dove il servizio di ricerca delle entità (authority record) può essere effettuato dall'utente utilizzando forme e terminologie native (e.g. lingua, scrittura, alfabeto).

Non è presente al momento uno SPARQL endpoint, ma i dump prodotti periodicamente sono disponibili [2] sotto licenza ODC http://opendatacommons.org/licenses/by/1.0

Questo significa che oltre alla consultazione, eventuali servizi di integrazione con le proprie applicazioni devono essere realizzati importando i dati “in casa propria”.

[1] http://viaf.org

[2] http://viaf.org/viaf/data

Copyright 2009-2010 @CULT. All rights reserved 12

ALIADA (1/2)

L'obiettivo del progetto ALIADA [1] è la realizzazione di una pipeline di gestione, conversione e pubblicazione automatica dei dati di istituzioni appartenenti al mondo dei beni culturali.

Il progetto, approvato e finanziato dall'Unione Europea nell'ambito del Seventh Framework Programme for Research (FP7) prevede la partecipazione di cinque partner dislocati in tre diverse nazioni (Spagna, Italia ed Ungheria)

Il piano di progetto prevede un ciclo di implementazione, suddiviso in differenti iterazioni, che terminerà nella seconda metà del 2015.

Il software è open source, licenziato sotto GPL V3, e di conseguenza prelevabile [2] gratuitamente.

[1] http://aliada-project.eu

[2] https://github.com/ALIADA/aliada-tool

Copyright 2009-2010 @CULT. All rights reserved 13

ALIADA (2/2)

http://camel.apache.orghttp://www.enterpriseintegrationpatterns.com

Copyright 2009-2010 @CULT. All rights reserved 14

Proof of Concept

L'obiettivo del POC è quello di combinare una serie di strumenti / tecnologie che, a partire dal dato bibliografico, espresso in formato MARC, permettano la creazione e la gestione, in maniera eff icace ed eff iciente, di una base dati semantica con collegati una serie di servizi di fruizione aventi lo scopo di aumentare il livello di qualità dell'esperienza di ricerca utente in termini di :

● Correttezza: affidabilità e pertinenza dei risultati restituiti;

● Signif icatività: aderenza dei risultati rispetto agli obiettivi;

● Capacità informativa: legami con altre risorse

Copyright 2009-2010 @CULT. All rights reserved 15

I l dato di partenza: Le avventure di Pinocchio

000 00694nam a2200241 i 4500008 971205s1997 it j 000 0 ita c020 a 880921191X082 1 a 853.8100 1 a Collodi, Carlo.245 13 a Le avventure di Pinocchio / c C. Collodi ; illustrazioni di Attilio Mussino.260 a Firenze : b Giunti, c 1997.440 0 a Collana favolosa / [Giunti]521 a Letteratura per ragazzi700 1 a Mussino, Attilio.

Copyright 2009-2010 @CULT. All rights reserved 16

Pipeline di conversione

INPUT

OUTPUT

INPUT I record MARC da processare

OUTPUT I dati convertiti in accordo alle caratteristiche di ciascuno store

Copyright 2009-2010 @CULT. All rights reserved 17

Pinocchio nell 'RDF Store

<bibo:Book rdf:about="http://www.cbt.trentinocultura.net/biblio/000002577949"> <dcterms:identifier>000002577949</dcterms:identifier> <bibo:isbn10>880921191X</bibo:isbn10> <dcterms:shortTitle>Le avventure di Pinocchio</dcterms:shortTitle> <dcterms:title> Le avventure di Pinocchio / C. Collodi ; illustrazioni di Attilio Mussino </dcterms:title> <dc:creator rdf:resource="http://www.cbt.trentinocultura.net/person/collodi_carlo"/> <dcterms:language>ita</dcterms:language> <dcterms:audience rdf:resource="http://www.cbt.trentinocultura.net/subject/opera_per_bambini"/> <dcterms:isPartOf rdf:resource="http://www.cbt.trentinocultura.net/biblio/2378129373323" /> <dcterms:extent>186 p.</dcterms:extent> <isbd:hasPlaceOfPublicationProductionDistribution> Firenze </isbd:hasPlaceOfPublicationProductionDistribution> <dcterms:issued>1997</dcterms:issued> <dcterms:publisher rdf:resource="http://www.cbt.trentinocultura.net/organisations/giunti"/></bibo:Book>

<foaf:Person rdf:about="http://www.cbt.trentinocultura.net/person/collodi_carlo"> <foaf:name>Collodi, Carlo</foaf:name></foaf:Person>

<foaf:Organization rdf:about="http://www.cbt.trentinocultura.net/organisations/giunti"> <foaf:name>Giunti</foaf:name></foaf:Organization>

Copyright 2009-2010 @CULT. All rights reserved 18

Pinocchio al l ' interno dell ' inverted index (1/2)

Le avventure di Pinocchio

Le avventure di Pinocchio

avventure Pinocchio

avventure pinocchio

avventur pinocchio

ATFN PNX

Tokenization

Stopwords

Lowercase

Stemming (light)

Fonemi (!)

Le di

Copyright 2009-2010 @CULT. All rights reserved 19

Pinocchio al l ' interno dell ' inverted index (2/2)

ATFN PNX

KRL KLT

Copyright 2009-2010 @CULT. All rights reserved 20

In pratica... (1/2)

Copyright 2009-2010 @CULT. All rights reserved 21

In pratica... (2/2)

Autocompletamento

Faccette

Copyright 2009-2010 @CULT. All rights reserved 22

Silk Framework (1/2)

Silk Framework [1] è un progetto open source, coordinato dall'Università di Mannheim, e serve per collegare dataset diversi tra di loro (interlinking).

Il progetto, disponibile sotto licenza Apache Version 2.0, può essere prelevato gratuitamente.

Mette a disposizione uno strumento grafico per creare le regole di interlinking ed istruire così il sistema durante la ricerca dei legami.

Una delle caratteristiche fondamentali è la possibilità di effettuare un tuning incrementale delle regole di matching che determinano l'equivalenza di due entità.

[1] http://wifo5-03.informatik.uni-mannheim.de/bizer/silk

Copyright 2009-2010 @CULT. All rights reserved 23

Aggiungiamo Silk

INPUT

OUTPUT

<foaf:Person rdf:about="http://www.cbt.trentinocultura.net/person/collodi_carlo"> <foaf:name>Collodi, Carlo</foaf:name></foaf:Person>

<foaf:Person rdf:about="http://www.cbt.trentinocultura.net/person/collodi_carlo"> <foaf:name>Collodi, Carlo</foaf:name> <owl:sameAs rdf:resource=”http://dbpedia.org/resource/Carlo_Collodi”/></foaf:Person>

Copyright 2009-2010 @CULT. All rights reserved 24

Uti l izzo pratico: Informazioni sull 'Autore

Copyright 2009-2010 @CULT. All rights reserved 25

Uti l izzo pratico: Informazioni sull 'Autore

Copyright 2009-2010 @CULT. All rights reserved 26

Uti l izzo pratico: Informazioni sull 'Editore

Copyright 2009-2010 @CULT. All rights reserved 27

Uti l izzo pratico: Nuovo Soggettario

Copyright 2009-2010 @CULT. All rights reserved 28

Uti l izzo pratico: Informazioni sui luoghi

Copyright 2009-2010 @CULT. All rights reserved

Practical Linked DataRisorse, strumenti, utilizzi

Grazie!

Convegno Stell ine 2015 Sala Chagall – Milano13 marzo 2015

c

c c