5a. linked data

25
Linked Data SAPIENZA UNIVERSITA’ DI ROMA DIPARTIMENTO DI SCIENZE DOCUMENTARIE, LINGUISTICO-FILOLOGICHE E GEOGRAFICHE SCUOLA DI SPECIALIZZAZIONE IN BENI ARCHIVISTICI E LIBRARI Anno accademico 2012-2013 Insegnamento: INFORMATICA PER GLI ARCHIVI E LE BIBLIOTECHE Prof. Giovanni Solimine Modulo integrativo INFORMATICA PER LE BIBLIOTECHE Prof. Maurizio Caminito

Upload: mau-messenger

Post on 13-Jun-2015

237 views

Category:

Education


0 download

TRANSCRIPT

Page 1: 5a. Linked Data

Linked DataSAPIENZA UNIVERSITA’ DI ROMA

DIPARTIMENTO DI SCIENZE DOCUMENTARIE, LINGUISTICO-FILOLOGICHE E GEOGRAFICHESCUOLA DI SPECIALIZZAZIONE IN BENI ARCHIVISTICI E LIBRARI

Anno accademico 2012-2013

Insegnamento: INFORMATICA PER GLI ARCHIVI E LE BIBLIOTECHEProf. Giovanni Solimine

Modulo integrativo

INFORMATICA PER LE BIBLIOTECHE

Prof. Maurizio Caminito 

Page 2: 5a. Linked Data

Verso i Linked Data

Nell’ottobre 2011 il Library Linked Data Incubator Group (LLD XG) creato presso il World Wide Web Consortium (W3C) ha pubblicato la sua relazione finale. Questa relazione sostiene con forza la necessità che Musei, Archivi e Biblioteche a partire dalle agenzie bibliografiche nazionali, rendano disponibili i loro dati nel web in una forma nuova, ovvero come linked data.

Page 3: 5a. Linked Data

web di documenti e web di dati

Il web ipertestuale o web di documenti = rappresentazione piatta, lineare, degli oggetti; il web semantico o web di dati come un contenitore di cose, di oggetti, piuttosto che un contenitore di rappresentazioni di oggetti: i dati afferiscono alla risorsa e ne sono parte integrante perché la risorsa non sarebbe rappresentabile senza questi dati.

La concretezza del web semantico si oppone all’astrattezza del web tradizionale.

Page 4: 5a. Linked Data

Linked Data: una definizione

Dati pubblicati sul web in una modalità leggibile e interpretabile da una macchina, il cui significato sia esplicitamente definito tramite una stringa costituita da parole e marcatori. Si costruisce un reticolo di dati collegati (linked data, appunto) appartenenti a un dominio (che costituisce il contesto di partenza), collegato a sua volta ad altri set di dati esterni, ovvero fuori dal dominio, in un contesto di relazioni sempre più estese.

(Mauro Guerrini, http://www.bibliotecheoggi.it/content/201200300701.pdf)

Page 5: 5a. Linked Data

Partire dai metadati

I metadatidescrittivi (MARC, Dublin Core, PURL, HANDLE, PICO AP ecc.), gestionali - amministrativi (MAG, DOI, CEDARS, METS ecc.)

o strutturali (SGML, XML, EAD, MOA2 ecc.), hanno un unico obiettivo:

quello di contribuire a una gestione più chiara di oggetti/collezioni digitali.

Page 6: 5a. Linked Data

Perché il DUBLIN CORE

Nel febbraio 2009, il DC è stato approvato come lo standard ISO 15836, che ha un ruolo fondamentale nella descrizione di risorse digitali di diverso tipo e nella realizzazione di sistemi di reperimento delle informazioni più efficienti sul web. «le stringhe di testo, strutturate secondo lo schema DC (quindici elementi nella loro forma non qualificata) e associate ai documenti digitali, garantiscono un livello minimo di catalogazione e indicizzazione nel web. I metadati DC si applicano ai contenuti digitali come etichette <tag>, che descrivono le caratteristiche principali di dati strutturati (HTML, XML), consentendo una loro organizzazione più efficiente e un recupero più agevole.»

Page 7: 5a. Linked Data

OAI-PMH: raccolta e scambio di metadati

L’interazione (che è alla base dell’interoperabilità) tra i vari provider per l’esposizione e la raccolta di metadati avviene tramite il protocollo Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH) all’interno di un’architettura di data providers e server providers.

Page 8: 5a. Linked Data

Linkare i (meta)dati

Il web, essendo uno spazio di informazione globale, deve consistere non solo di documenti linkati, ma anche di meta(dati) linkati. L’iniziativa Linked Data, sostenuta dall’ideatore del World Wide Web, Tim Berners-Lee, ha l’obiettivo di promuovere la creazione di nuovi dataset e collegarli (linkarli) direttamente ai dataset esistenti, tenendo i dati sempre aggiornati

Page 9: 5a. Linked Data

Il progetto di W3C Linking Open Data

Il progetto di W3C Linking Open Data (Open Definition, <http://opendefinition.org>)

fornisce tutte le informazioni necessarie per estendere il web con Open Data Commons

(<http://www.opendatacommons.org/>). L’estensione di dataset avviene attraverso la pubblicazione di collegamenti (links) RDF, strumento essenziale per condividere metadati strutturati.

Page 10: 5a. Linked Data

Linking Open Data (LOD) Cloud

Nel settembre 2010, questi dati sono cresciuti a 25 miliardi di triple RDF, interlinkate da circa 395 milioni di link RDF.

I collegamenti tra diversi dataset vengono graficamente rappresentati nella forma di una grande ‘nuvola’ chiamata “LOD cloud diagram”, in cui vi è una visualizzazione

interattiva dei gruppi di dataset interoperabili

Page 11: 5a. Linked Data

Linking Open Data (LOD) Cloud 2

Il sito http://linkeddata.org fornisce tutte le informazioni su quest’iniziativa e pubblica la “nuvola” aggiornata, ovvero il diagramma della situazione corrente del Linking Open (LOD) Data Project.

Page 12: 5a. Linked Data

Il modello LOD

Con il modello LOD è come se i dati, resi interoperabili, entrassero a far parte di un immenso database “aperto” nel quale vengono pubblicati da istituzioni diverse set di dati “grezzi” che possono essere liberamente “incrociati” da terze parti, con la possibilità di generare valore aggiunto.Un esempio pratico: un ente del turismo pubblica una serie di dati sintetici relativi a strutture ricettive, ristoranti, musei e monumenti di un determinato luogo, e nello stesso territorio alcuni musei pubblicano i dati delle opere esposte nel museo o degli artisti delle opere.Attraverso i LOD un terzo soggetto ha la possibilità di combinare i due set di dati per offrire un nuovo servizio personalizzato, in base alle esigenze di una tipologia specifica di utenti. Naturalmente, questo collegamento potrebbe anche essere realizzato manualmente, però con maggior dispendio di tempo e con maggior possibilità di errore.

Page 13: 5a. Linked Data

LOD: alcuni esempi

C’è una grande quantità di LOD già presenti nel Web come, ad esempio, DBPedia.org, Wikipedia e WikiGuida, Geonames, MusicBrainz, WordNet,la bibliografia DBLP. Si segnalano, inoltre:• UMBEL Web Services (<http://umbel.zitgist.com/>), • Virtuoso Universal Server (<http://virtuoso.openlinksw.com/>)• Linked Open Data Around-The-Clock (<http://latcproject.eu/>), le

piattaforme create su LOD che pubblicano e distribuiscono i dati sul web, usando il modello RDF, gli URIs e il protocollo Http.

Page 14: 5a. Linked Data

La DBPedia

La DBpedia Italiana è un progetto per l’estrazione e il riutilizzo di informazioni semanticamente strutturate dalla versione italiana di Wikipedia. Il progetto mira a rendere riutilizzabili le informazioni di Wikipedia da parte di software e applicazioni. La DBpedia Italiana permette di eseguire query sui contenuti di Wikipedia e di collegare altri dataset Linked Data a Wikipedia. Oggi la versione inglese di DBpedia è al centro della Linked Open Data Cloud e costituisce un importante riferimento per il collegamento tra diversi dataset. La base di conoscenza contiene ad oggi più di 1,5 milioni di entità, di cui circa 500.000 sono classificate secondo una ontologia. Tra queste vi sono più di 263.000 persone, 144.000 luoghi, 38.000 Album musicali, 29.000 film, collegate tra di loro da oltre 25 milioni di links. Al più presto verranno inseriti anche link verso siti web esterni e altri nodi della Linked Open Data cloud.

Page 15: 5a. Linked Data

Linked Open Data Italia

Linked Open Data Italia pubblica dati aperti e facilmente accessibili da persone e applicazioni. I data set a disposizione, con licenze aperte e pubblicati in modalità LinkedData, possono essere direttamente interrogati da qualsiasi applicazione indipendentemente da linguaggi di programmazione e tecnologie. http://www.linkedopendata.it/

Page 16: 5a. Linked Data

DBpedia Italiana Oltre 1 milione di entità estratte da Wikipedia in lingua italiana

Dati.camera.it I dati storici ufficiali della camera dei deputati pubblicati dal Parlamento Italiano

Portale Dati.Piemonte Una piccola collezione di dataset RDF pubblicati dalla Regione Piemonte

Geoportale Trentino Vasta collezione di dataset geografici della Provincia Autonoma di Trento

Provincia di Carbonia Iglesias Il portale semantico della Provincia di Carbonia Iglesias

Istat-Immigrazione Tutti i dataset ISTAT su Immigrazione in formato RDF DataCube

LinkedOpenCamera Collaborazioni e consulenze della Camera dei deputati vigenti al 1° gennaio 2010

loc2 Aggiornamento contratti Camera dei Deputati 2010

los Collaborazioni e consulenze del Senato della Repubblica, 2010

GR-Ricettività Piemonte Strutture ricettive turistiche della regione Piemonte in formato GoodRelations

GR-Ricettività Toscana Strutture ricettive turistiche della regione Toscana in formato GoodRelations

Musei Italiani Lista dei musei italianiCAP Italia Codici Avviamento Postale

CNR-IT Organizzazione Consiglio Nazionale delle Ricerche

Scuole Italiane Le oltre 50.000 scuole statali italiane

LOIUS The LOIUS project – Linking Italian University Statistics

Dataset          

Page 17: 5a. Linked Data

Supponiamo che i due dataset (amministrazione locale e sovrintendenza) siano stati pubblicati come Linked Data. Per identificare i monumenti, il dataset delle sovrintendenza usa URL (del tipo http://cultural-heritage-example.org/monument/XYZ). Il contenuto digitale di tali URL corrisponde alla descrizione dettagliata dei monumenti.Il data set dell’amministrazione locale, inserendo dei link a tali URL, permetterebbe a un software di risolvere l’URL e ottenere la descrizione del monumento (sempre aggiornata).

Ancora, dal momento che RDF consente di specificare precisi tipi di risorse, potremmo pensare a un semplice script che Trovi tutte le risorse di tipo “monumento” nel dataset dell’amministrazione locale, e che importi, per ciascuna, informazioni aggiuntive, creando così un dataset misto. Su quest’ultimo nuovo data set arricchito, si potrebbero poi fare query del tipo: “trova tutti gli alberghi vicini a un monumento successivo al XIII secolo, in cui siano esposte sculture del Canova”.

Page 18: 5a. Linked Data
Page 19: 5a. Linked Data

Anche in Italia le PA producono una enorme quantità di informazione in formato digitale, e tuttavia spesso si tratta di informazioni difficilmente accessibili.Questo dipende anche dal fatto che nel nostro paese mancano linee guida omogenee che ne disciplinino l’uso e il riuso in ambiti diversi da quelli d’origine.Ci sono però ampi margini perché ciò sia possibile, primo tra tutti l’art. 1 della legge 241/1990, fondamentale riforma sul procedimento amministrativo e sul diritto di accesso ai documenti amministrativi che sancisce il valore giuridico della trasparenza.Linked Open Data, insieme a dati.piemonte.it, è tra i primi progetti italiani che vanno in questa direzione.

I benefici per i cittadini sono molti:• Tantissimi nuovi servizi a disposizione (creati dalle PA ma anche da aziende e dagli stessi cittadini)• Aumento delle opportunità per essere informati (è come aprire migliaia di nuove biblioteche)• Partecipazione attiva (diritti ma anche responsabilizzazione)

Linked Data: benefici per i cittadini

Page 20: 5a. Linked Data
Page 21: 5a. Linked Data

Quattro regole per la creazione dei linked data sul web - 1

Tim Berners-Lee individua quattro regole per la creazione dei linked data sul web:1. usare URI (Uniform Resource Identifiers) per identificare cose (oggetti): l’URI è un sistema di identificazione globale, valido cioè per tutte le risorse contenute nell’intero web. L’URI è una pietra miliare dell’architettura del web, in quanto costituisce un meccanismo di identificazione delle risorse comune a tutto il web. Ciascuna risorsa sul web (un sito, una pagina di un sito, un documento, un qualsiasi oggetto) dev’essere identificata da un URI se vuole essere ricercata da altri sistemi, utilizzata, collegata, ecc.;

Page 22: 5a. Linked Data

Quattro regole per la creazione dei linked data sul web - 2

2. Usare HTTP URI in modo che gli oggetti possano essere individuati da persone e da user agent (browser, programmi…): lo schema utilizzato per la costruzione di un URI è dichiarato nell’URI stesso prima dei due punti(:); per esempio, http://weather.example.com/). L’http che utilizza l’HyperText Transfer Protocol come protocollo è precisamente lo schema prescritto per il web semantico.

Page 23: 5a. Linked Data

Quattro regole per la creazione dei linked data sul web - 3

3. Fornire informazioni utili sull’oggetto (quando si individua un URI), usando formati standard come RDF, SPARQL (linguaggio d’interrogazione che nasce per i linked data): è necessario definire il contesto e le caratteristiche della risorsa, tramite l’attribuzione della risorsa stessa a una classe, l’identificazione di proprietà e l’assegnazione di valori.

Page 24: 5a. Linked Data

Quattro regole per la creazione dei linked data sul web - 4

4. Includere link ad altri URI relativi ai dati esposti per migliorare la ricerca nel web di altre informazioni affini a quella di partenza: più i dati sono collegati, più sarà possibile il loro utilizzo nell’ottica di arricchimento e deduzione delle informazioni.

Page 25: 5a. Linked Data

PER APPROFONDIRE:Iryna Solodovnik, Comunicazione e ricerca semantica di contenuti informativi: tra Metadati, Linked open Data e Ontologie,

<http://eprints.rclis.org/15966/1/Metad-LOD-Ontologie.pdf>