ontologie per i linked open data / stefano de luca, paola de caro, claudia corcione
Post on 25-Jul-2015
222 Views
Preview:
TRANSCRIPT
CONDIVIDERE, COLLABORARE, CREARE
Ontologie per i Linked Open Data Stefano De Luca
Paola De Caro,
Claudia Corcione
12/03/2015
info su www.evodevo.it
EVODEVO: CHI SIAMO
Evodevo è azienda di innovazione per progetti Enterprise per clienti istituzionali e privati
Fornisce consulenza specializzata sulle tematiche dei dati e modelli
info su www.evodevo.it
FOCUS: KNOWLEDGE EXTRACTION AND VISUALIZATION
Big Data
GIS Semantica
• Personale altamente specializzato sulle tematiche indicate • Ontologi ed esperti di meta-dati e knowledge
management • Statistici e matematici • Informatici e GIS
• Focus su estrazione e visualizzazione della conoscenza attraverso • data and text mining, • tecnologie semantiche, • GIS (sistemi geografici)
• Realizzazione di • portali di accesso e uso di dati • sistemi di supporto delle decisioni • gestione della conoscenza ed open
data
I nostri prodotti e servizi sono specializzati su:
• Open Data
• Semantic web e sistemi intelligenti
• Knowledge management
• Sistemi geografici (GIS, GIScience)
• Sistemi di supporto alle indagini
• Data Visualization
• Business intelligence e Location intelligence
• Sistemi di supporto alle decisioni
• Data mining e text mining
info su www.evodevo.it
PUBBLICAZIONE DEI DATI
• Realizzazione degli open data INPS
• Sviluppo di una metodologia OD
• Organizzatori Open Government Summit 2012
• Azienda invitata G8 UK per trasparenza e OD e Open Data Charter
• Supporto alla redazione di documenti normativi
• Sviluppo di applicazioni web e mobile su OD
• Citati come caso di eccellenza dalla World Bank
• OD per Comuni (pubblicazione e riuso)
• Sviluppato prodotto di trasformazione e pubblicazione, OpenDataGround
• Membri Open Knowledge Foundation (OKF)
• Soci fondatori e consiglieri dell’ Istituto Italiano Open Data
info su www.evodevo.it
IL WEB
• L’attuale web è rivolto alle PERSONE
• Il focus è su: • Contenuti (testi, immagini, video…) • Pagine che raccolgono i contenuti • Collegamenti tra pagine: hyperlink
• Esistono degli standard per definire come «costruire» il web, ad es:
• HTML: per la definizione delle pagine • HTTP: protocollo di comunicazione per ricevere pagine e chiederne di nuove
• Gli standard sono definiti e controllati dal W3C, World Wide Web Consortium
info su www.evodevo.it
IL SEMANTIC WEB
• Alla fine degli anni ‘90 il «padre» del web, Tim Berners-Lee ha proposto l’estensione dal WEB al SEMANTIC WEB
• Il semantic web è rivolto ai SOFTWARE
• L’idea di fondo è che agenti software intelligenti possano «leggere» il web e usare le informazioni per interagire tra loro e il web per rispondere a dei compiti
info su www.evodevo.it
“… an extension of the current web in which
information is given well-defined meaning,
better enabling computers and people to work in
cooperation …”
“… a set of connected applications … forming
a consistent logical web of data …”
info su www.evodevo.it
ONTOLOGIE
• La base del semantic web. E’ un oggetto composto da: • Un vocabolario usato per descrivere un dominio (ambito) • Un’esplicita specificazione del significato inteso per il vocabolario
• Spesso include informazioni di classificazione • Vincoli che catturino la conoscenza tacita (background knowledge) del
dominio
• Una buona ontologia dovrebbe: • Catturare il signicato condiviso di un dominio • Forire un modello formale ed usabile della macchine (software)
info su www.evodevo.it
LINGUAGGI DELLE ONTOLOGIE: RDF, RDFS
• Si è creato un linguaggio che permettesse di definire le risorse
• Il primo di questi linguaggi è RDF (Resource Description Framework , aumentato successivamente da RDFS (RDF Schema)
• Permettono di definire:
• Classi e proprietà
• Sub/super-classi (e proprietà )
• Range e domain ( delle properties)
• È stato un buon inizio, ma troppo debole per descrivere le risorse in dettaglio e consentire la possibilità di dedurre nuove informazioni
info su www.evodevo.it
LINGUAGGI DELLE ONTOLOGIE: OWL - WEB ONTOLOGY LANGUAGE
• RDF è stato esteso per creare un linguaggio che fosse capace di descrivere un dominio e di permettere un reale reasoning
• Il reasoning (ragionamento automatico) è la capacità di estrarre nuova conoscenza a partire dalle informazioni che si hanno a disposizione
• Il nuovo linguaggio si chiama WEB ONTOLOGY LANGUAGE (OWL)
• Esiste in diverse versioni, progressivamente più complesse: • OWL-LITE: semplice da implementare ma poco espressivo
e oramai praticamente deprecato • OWL-DL: basato sulla logica descrittiva, finalizzato
soprattutto al reasoning • OWL-FULL: massima espressività rispetto alla descrizione
di un dominio di conoscenza, pertanto meno adatto al reasoning (problema della indecidibilità)
• La versione attuale è OWL 2,
info su www.evodevo.it
ESEMPIO DI ONTOLOGIA: DEFINIZIONE DI PIZZA ITALIANA IN PROTÉGÉ
info su www.evodevo.it
LA BASE DELLE ONTOLOGIE: LE TRIPLE
• Le ontologie rappresentano ogni informazione sotto forma di TRIPLE composte da: • SOGGETTO • RELAZIONE • OGGETTO
• Nell’esempio di lato,
rappresentiamo il fatto che Evodevo si occupa di ontologie
Evodevo
Ontologie
Si occupa di
info su www.evodevo.it
LA BASE DELLE ONTOLOGIE: LE TRIPLE /2
• Usando le triple, si possono aggiungere altri fatti
• Nella figura abbiamo esteso il fatto precedente con altre informazioni (altri due fatti)
Evodevo
Ontologie
Si occupa di
Azienda
È (is-a)
Intelligenza artificiale
parte di (part-of)
info su www.evodevo.it
RIFERIMENTI ASSOLUTI
• Le ontologie ereditano molto dalle reti semantiche • Aggiungono a queste un concetto essenziale
OGNI ELEMENTO IN UNA ONTOLOGIA DEVE ESSERE UNICO SU TUTTO IL WEB
• Questo vuol dire che non basta comporre una tripla dicendo <evodevo, è, Azienda>
• Perché sia evodevo che azienda sono ambigui sulla rete: qualcuno potrebbe definire un altro evodevo o un altro modo di intendere azienda
• Il ragionamento che sta dietro questo problema è che LE ONTOLOGIE SI POSSONO UNIRE TRA DI LORO e quindi ogni elemento deve essere UNICO
info su www.evodevo.it
RIFERIMENTI ASSOLUTI: LE URI
• Per rendere unici gli elementi, si usano le URI (Uniform Resource Identifier) o meglio ancora IRI (Internationalized Resource Identifier), che sono URI con caratteri internazionali
• Questo vuol dire che la tripla
<evodevo, è, Azienda> • Diventa:
<http://www.evodevo.it/ontology#Evodevo, http://www.w3.org/1999/02/22-rdf-syntax-ns#type,
http://www.evodevo.it/ontology#Azienda>
• Abbiamo colorato in arancione le parti di prefisso, la componente che con il nome rende unico il riferimento
info su www.evodevo.it
URI NON URL
• Ogni elemento di un’ontologia RDF o OWL dovrà quindi essere definito con una URI
• Le URI sono molto simili agli indirizzi che usiamo sul web, i cosidetti URL (Uniform Resource Locator): • http://www.evodevo.it/ • http://it.wikipedia.org/wiki/Ontologia_(informatica) • mailto:info@evodevo.it
• Le URI però non devono puntare a qualcosa che esista davvero su Internet
• Se cercate una URI tramite il browser potreste non trovare nulla
info su www.evodevo.it
FATTI E DEFINIZIONI
• Le ontologie sono composte da fatti e definizioni
• Le definizioni compongono la TBOX (Terminological Box) • Es. le persone sono umani, le ruote fanno parte di un’automobile
• I fatti compongono la ABOX (Assertional Box):
• Claudia e Paola sono persone • Stefano guida una Volvo
• La somma delle due parti è un’ontologia completa
P A R T N E R
OPEN DATA
info su www.evodevo.it
COSA SONO GLI OPEN DATA
• Nati come variante semplice del semantic web • Il semantic web chiede di pubblicare i dati in formato ontologico pochi lo
hanno fatto • Con gli open data l’idea è:
pubblicate i dati in qualunque formato! • Gli open data sono dati accompagnati da:
• licenza che li renda riusabili senza limiti, anche per scopi commerciali • Metadati che permettano di trovarli e capirli
info su www.evodevo.it
OPEN DATA ED OPEN GOVERNMENT
• Gli open data sono legati ai principi dell’open government
• Per questo sono stati sposati principalmente dalle pubbliche amministrazioni
info su www.evodevo.it
I CINQUE LIVELLI OPEN DATA
dati in formato testo (.PDF, .TXT)
dati disponibili in struttura proprietaria (.XLS)
dati disponibili in formato non-proprietario (.CSV, .XML)
dati strutturati con URL ed URI
dati collegati (linked data) in formato semantico (RDF /OWL + link)
info su www.evodevo.it
ESEMPIO DI OPEN DATA: LE BIBLIOTECHE DEL COMUNE DI FIRENZE
• I dati vengono pubblicati sul web • Sono scaricabili in almeno uno dei formati open • Questi dati possono essere usati per mera consultazione o elaborati
• Chi li scarica li può usare per:
• Analisi • Statistiche • Costruire applicazioni • Integrarli con altri dati
• Vediamo ad es. come si distribuiscono i dati delle Biblioteche di Firenze
info su www.evodevo.it
COSA E COME PUBBLICARE
La Legge n. 221/2012, con modificazioni, del Decreto legge n. 179 del 18 Ottobre 2012, denominato “Decreto Crescita 2.0” stabilisce per le PA l’obbligo di: • pubblicazione sul sito web di una sezione «Amministrazione trasparente» in cui esporre in
formato open informazioni relative a somme di danaro superiori a 1000 €, erogate a qualsiasi titolo
• pubblicazione del catalogo dei dati, delle banche dati e dei metadati in loro possesso e i regolamenti che ne disciplinano l’accesso e il riutilizzo
• principio dell’Open Data by default, ovvero che i dati si intendono rilasciati come dati aperti se non hanno un’espressa adozione di licenza.
il D.lgs 33/2013 detto “Decreto trasparenza” ha imposto dei requisiti fondamentali per i dati sulla trasparenza: • Elenco dei dati con obbligo di pubblicazione per la trasparenza, anche per un maggiore
controllo sulle prestazioni erogate dalla PA • accessibilità, riuso, formato leggibili i dalle macchine, metadati, licenza, formati destinati alla
fruizione del pubblico. • Rispetto per il trattamento dei dati personali.
info su www.evodevo.it
ESEMPIO DI USO: INCIDENTI STRADALI – LOROS LOCAL ROAD SAFETY
• Evodevo ha realizzato una piattaforma per l’analisi degli incidenti stradali
• Inizialmente creata per la Polizia, è stata successivamente evoluta
• Consente di avere informazioni su: • Dati degli incidenti • Strade e incroci più pericolosi • Ragioni della pericolosità • Differenze nel tempo (orari, giorni
della settimana, feriale/festivo etc.) • Previsione futura del rischio stradale
• Disponibile plugin per integrare i dati messi a disposizione da ISTAT tramite SISTAN
• Presentato alla XI Conferenza Nazionale dell’ISTAT come caso di eccellenza
info su www.evodevo.it
LINKED OPEN DATA: PROBLEMATICHE E OBIETTIVI
I motivi per cui incentivare lo sviluppo e l’utilizzo dei Linked Open Data possono essere analizzati da due punti di vista:
• Interoperabilità semantica, per una maggiore condivisione e riutilizzo delle informazioni.
• Nuova conoscenza, dedotta ed esplicitata dal collegamento delle informazioni.
info su www.evodevo.it
BEST PRACTICE LOD NELLE PUBBLICHE AMMINISTRAZIONI
• Sfruttamento del proprio patrimonio informativo
• Collegamento dei propri dati con quelli di altre amministrazioni
• Deduzione di nuova conoscenza attraverso il collegamento di dati e informazioni
• Dati e metadati in un’unica struttura e linguaggio, in RDF/OWL
• Riutilizzo automatico dei dati attraverso software
• Scelta di metodologie specifiche per gli open data e linked open data (ODMC, Open Data
Management Cycle, Evodevo Open Process)
• Web of data
info su www.evodevo.it
E-GOV, AMMINISTRAZIONI E LOD
• Interesse crescente da parte delle pubbliche amministrazioni verso l’interoperabilità semantica, anche attraverso la pubblicazioni di:
• Studio sulle best practices e raccomandazioni nell'uso delle Persistent URI (con iniziative che riguardano i Linked Open Data e il Semantic Web) (AGID, 2012)
• Interoperabilità semantica attraverso i Linked Open Data (AGID, 2012)
• Linee Guida Nazionali Per La Valorizzazione Del Patrimonio Informativo Pubblico (AGID 2013)
• e-GLU 2.0 (Gruppo di Lavoro per l’Usabilità, 2014).
info su www.evodevo.it
VANTAGGI DEI LINKED OPEN DATA RISPETTO AGLI OPEN DATA
• I LOD sono più potenti in quanto:
• È possibile collegare i dati e le ontologie tra di loro (linked)
• È possibile distribuirli tramite un punto di accesso real-time (end point sparql) su cui operare interrogazioni ed ottenere i dati anche in altri formati
info su www.evodevo.it
LINKED!
• Ai dati di una ontologia si possono unire dati di altre ontologie
• Così gli open data permettono di muoversi da un’ontologia all’altra, con una grande ricchezza informativa
• Si usa l’ecosistema delle ontologie
• A fianco uno schema molto parziale delle ontologie publiche e i loro collegamenti
info su www.evodevo.it
ESEMPIO DI CONNESSIONE: UNIRE AI PROPRI DATI QUELLI DI DBPEDIA (WIKIPEDIA)
Evodevo
Roma
Ha sede in
Dbpedia:Roma
Same as
Dbpedia:Lazio
dbpedia-owl:administrativeDistrict
is dbpedia-owl:city of dbpedia-it:Biblioteca_Nazionale_Centrale_di_Roma
dbpedia-owl:ArchitecturalStructure
Is a
110 120 130 150 160 190 210 230 260 270 300
dbpprop-it:tempmax
info su www.evodevo.it
RISPOSTA METODOLOGICA AL PROBLEMA DELL’INTEROPERABILITA’:
STANDARDIZZARE TUTTI I LIVELLI DI INTEROPERABILITA’
• Livello sintattico-strutturale della risorsa: linguaggio di rappresentazione (es. RDF/OWL, standard W3C) e linguaggio che modella la struttura della risorsa (es. RDF DATA CUBE Vocabulary, standard W3C);
• Livello lessicale delle dimensioni, attributi e misure : nome o tipo di dimensioni, misure, attributi (tipici di risorse statistiche), standardizzati con insiemi di metadati statistici standard come SDMX;
• Livello dei valori delle dimensioni, attributi e misure : valore delle dimensioni, misure, attributi, attinti dove possibile da basi di conoscenza note come lo stesso SDMX o Dbpedia ecc..
• Livello lessicale dei metadati delle risorse: tipologia di metadati con cui descrivere una risorsa, standardizzati tramite vocabolari riconosciuti come Dublin core, SKOS, FOAF ecc..
• Livello dei valori dei metadati delle risorse : contenuto dei metadati, come il titolo, l’autore, la data di pubblicazione;
• Livello dei valori dei metadati semantici : gli argomenti trattati nelle risorse, standardizzati quando possibile, con basi di conoscenza in formato semantico come Dbpedia, FreeBase, UKAT ecc..
info su www.evodevo.it
ESEMPIO DI LOD CON TUTTI I LIVELLI DI INTEROPERABILITÀ: INPS LOD
info su www.evodevo.it
MODELLARE LA CONOSCENZA PER AUMENTARE L’INTEROPERABILITÀ DEI LOD INPS
• I dataset INPS hanno una struttura simile alle tabelle OLAP, ovvero sono dati multidimensionali;
• Le tabelle OLAP sono trasformate in grafi OWL attraverso RDF Data Cube Vocabulary.
• Questo approccio consente la conversione di dati multidimensionali mantenendo le relazioni tra le dimensioni, le misure e gli attributi.
• L’Observation è il fenomeno da descrivere, espresso dal valore della cella, definito attraverso le relazioni con dimensioni, misure e attributi.
info su www.evodevo.it
RISPOSTA METODOLOGICA AL PROBLEMA DI DEDURRE NUOVA CONOSCENZA
• STRUTTURA A GRAFO: la struttura stessa dei dati permette di navigarli e trovare nuovi collegamenti non esplicitati dai produttori dei dati;
• COLLEGAMENTI ESTERNI: i livelli di standardizzazione permettono di collegare i dati con altre informazioni esterne e dunque dedurre nuovi fatti da tali legami;
• REGOLE LOGICHE: la creazione di restrizioni e regole (causa-effetto) per organizzare la conoscenza a seconda degli scopi da raggiungere;
• REASONING: i meccanismi di deduzione logica permettono di verificare le regole e riclassificare le informazioni, scoprendone di nuove.
info su www.evodevo.it
SCOPERTA DI NUOVA DEDUZIONE DA LINKED CLOSED DATA
Evodevo Fraud Detection System
• Strumento per la ricerca di sospetti di frodi all’interno di un sistema. • Dal DB relazionale al DB semantico. • Creazione di un’ontologia per la modellazione dei dati. • Creazione di regole personalizzate (SWRL) per l’individuazione di soggetti
perseguibili per frode, in base all’ambito di applicazione. • Possibilità di azioni inferenziali sulla base di conoscenza.
info su www.evodevo.it
DECISION SUPPORT SYSTEM (DSS) AD USO DEL COMUNE DI FIRENZE
Il sistema consente di: • Utilizzare i dati già in possesso del
Comune. • Trasformare i dati in formato
semantico. • Conservare i dati in triple (N-
triple). • Definire regole per
l’individuazione di fasce di sospetto.
• Classificare gli utenti in base al grado di sospetto.
• Interrogare il sistema con interfaccia user-friendly, collegato all’ endpoint SPARQL del triple store.
info su www.evodevo.it
ESEMPIO DI REGOLA PER SCOPRIRE NUOVE INFORMAZIONI
Possibili evasori fiscali nel Comune di Firenze Dato un cittadino iscritto all’ A.I.R.E* C: C è possibile Evasore di grado Alto se
C possiede utenza elettrica U and C ha consumo annuo superiore alla soglia S and C possiede richieste di occupazione del suolo pubblico R
* AIRE = Associazione Italiani Residenti all’Estero
info su www.evodevo.it
SCOPRIRE NUOVE INFORMAZIONI PER NUOVE ANALISI
Con il collegamento tra linked (closed) data e linked (open) data, si possono dedurre nuove informazioni. Esempio di reasoning geografico per il Comune di Firenze:
Con i dati dei consumi delle utenze dei cittadini e i dati geografici di localizzazione dei cittadini e dei quartieri si può capire quali di essi sono fuori soglia dei consumi relativi a quel quartiere
info su www.evodevo.it
SITOGRAFIA
Standard per il Semantic Web: http://www.w3.org/standards/semanticweb/ Vocabolari e ontologie RDF/OWL: http://lov.okfn.org/dataset/lov/ Specifiche tecniche Data Cube Vocabulary: http://www.w3.org/TR/vocab-data-cube/ Linee Guida per utilizzare il protocollo SDMX: http://sdmx.org/wp-content/uploads/2009/01/00_sdmx_content-oriented_guidelines_2009.pdf Semantic Web Tutorial: http://www.w3.org/People/Ivan/CorePresentations/SWTutorial/ Strumenti: http://protege.stanford.edu/ https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki http://lodlive.it/ http://stardog.com/ http://virtuoso.openlinksw.com/ http://www.oracle.com/us/products/database/options/spatial/overview/index.html http://logd.tw.rpi.edu/technology/csv2rdf4lod Casi d'uso: http://www.inps.it/portale/default.aspx?iIDLink=43&bi=08&link=Open+Data http://dati.camera.it/it/linked-data/ http://dati.senato.it/23 http://www.opensanita.it/open-data/2014-02-14-11-44-29 http://www.opensanita.it/naviga-dati/ http://digital-agenda-data.eu/ http://www.opencoesione.gov.it http://parlamentocasadivetro.openpolis.it
54
info su www.evodevo.it
55
RIFERIMENTI
Per informazioni: Stefano De Luca s.deluca@evodevo.it Paola De Caro p.decaro@evodevo.it Claudia Corcione c.corcione@evodevo.it
Evodevo srl Via dei Castelli Romani 12a 00040 Pomezia (Roma) Tel. 06 9108509
info@evodevo.it www.evodevo.it
top related