francesco castanò - formati aperti, interazione, visualizzazione grafica dei dati statistici.il...
TRANSCRIPT
Formati aperti, interazione, visualizzazione grafica dei dati statistici.Il portale Linked Open Data dell’Istat
Francesco Castanò (ISTAT)
OPEN DATA
• Dati accessibili a tutti• Canale web privilegiato• No copyright, brevetti o altre
forme di controllo • No limiti alla riproduzione• Disponibili più formati (CSV,
JSON, Excel, RDF/XML …)
LINKED (Open) DATA
• Standard tecnologici per pubblicare e connettere tra loro via web collezioni di dati strutturati.
• Identificazione univoca dei singoli valori di un dataset => Maggiore accessibilità
• Dati collegabili in base al “significato” (livello semantico) => Maggiore comprensibilità
• Facile sviluppo applicazioni (es. web services o applicazioni per la visualizzazione) => Maggiore fruibilità
Effetti: forniscono un'identità ai dati (aperti o non) e li rendono collegabili e interoperabili.
Effetti: abbattono le barriere culturali, legali ed economiche al riuso
Open Data e Linked Open Data
Tra questi documenti, AgID pubblica linee guida nazionali per l'uso di Open Data da pubblicare e condividere tra tutta la PA. Le linee guida identificano il paradigma dei linked data come la strada più efficace ed efficiente per realizzare l'interoperabilità semantica nella collaborazione tra le PP.AA.
L'Agenzia per L’Italia dIGITALE (AgID), nel suo ruolo di abilitatore per la pubblicazione e condivisione dell'informazione del settore pubblico, rilascia ogni anno documenti strategici rivolti a indirizzare, favorire e supportare la digitalizzazione della Pubblica Amministrazione.
(http://www.agid.gov.it/sites/default/files/linee_guida/patrimoniopubblicolg2014_v0.7finale.pdf)
Scenario nazionale
Finora esiste un portale di dati aperti a livello nazionale gestito da AgID. Il portale è accessibile all’indirizzo http://www.dati.gov.it/ e contiene più di 10000 serie di dati forniti da 76 PA.
Attraverso il portale Istat fornisce l’accesso a circa 700 dataset.
I dataset non vengono memorizzati localmente ma fanno riferimento al Web Warehouse I.Stat (http://dati.istat.it)
Scenario nazionale
Per quanto riguarda l'aumento del valore di dati statistici, le caratteristiche principali di tale ambiente dovrebbero essere:• Grado di apertura (riferito al modello a 5 stelle)• Significato associato ai dati (mediante l'uso di uno specifico
strato semantico, definito attraverso ontologie)• Diversi livelli di granularità• Collegamento tra i dati (interoperabilità semantica)• Modalità di uso e riuso di tipo M2M e HCI
• CSV, soprattutto tabelle, descritti da appositi metadati (livello 3).• Excel, con metadati descritti in un foglio dedicato (livello 2).• SDMX, con dati e metadati espressi secondo lo stesso modello (livello 3).• Linked Open Data / RDF, costituiti da dati e metadati espressi secondo il modello
RDF (standard W3C), legato anche ad altri dati (esterni) (livelli 4 e 5).
L'Istat pubblica i dati attualmente aperti, secondo alcuni principali modelli di dati e formati (e definiti secondo i livelli del modello a cinque stelle di Berners Lee)
Le 5 stelle degli Open Data (Tim Berners-Lee)
Per gestire e implementare soluzioni efficaci per la condivisione dei dati tra organizzazioni statistiche e renderli disponibili alla comunità degli utenti IT, possiamo definire tre fasi principali:• Dare a ciascuna classe di utenti (umano o macchina) il
modo più appropriato per utilizzare i dati;• Rendere i dati in formato aperto, qualunque sia il livello di
apertura;• Arricchire i dati con un livello semantico,
indipendentemente dalla condivisione dati su siti Web pubblici.
Roadmap evolutiva
In sintesi, i piani futuri per la piattaforma sono mirati alla realizzazione di un ambiente integrato di dati, costituito da:• Dati aperti per usi pubblici (anche non di tipo Linked Data).• Dati collegati per usi integrati interni (attraverso l'uso di
ontologie appositamente definite).• Linked Open Data a livello elementare e aggregato per usi
interni e pubblici, disponibili per utenti umani e macchine, riferiti alla maggior parte dei domini statistici ed eventualmente arricchito da rappresentazione geografica
Il percorso dell’Istat
Elementary data
Aggregated data
Linked Open DataLinked data
Open Data
Internal use (integration) Public use (sharing)
Initial stage
Next stages
Aggregated Linked Data
Aggregated Linked Open Data
Elementary Open Data
Elementary Linked Open Data
Elementary Linked Data
Aggregated Open Data
Datiopen.istat.it
Piattaforma per la• Selezione • Navigazione • Ricerca • Interrogazione • Visualizzazione di dati in formato aperto
Consente anche• Accesso diretto ai dati via
Web Service • Integrazione M2M (es. GIS-
LOD)• Export verso ambienti di
produttività • Conversione dei dati• Visualizzazione con tool
esterni
Datiopen.istat.it
Data Storage
Application
GUI
Technological Stack Functional Stack
Oracle Spatial and Graph Triple Store
Mapping to RDF Engine Oracle Spatial and Graph
Oracle Spatial and Graph Reasoning Engine
SPARQL EndpointJoseki API
Graph Browser & HTML/LOD Interface
GUI for queriesPubby Ad-Hoc Design & Development
ORACLE(12.1.0.2)
Open Source
Architettura IT
• Linguaggio di interrogazione per dati rappresentati tramite RDF. • Standard dal 2008 del Data Access Working Group (w3c)• Uno degli elementi chiave delle tecnologie del web semantico • Consente di estrarre informazioni dalle basi di conoscenza distribuite sul web
Concetti chiave dei
LOD
ASPETTI SEMANTICI
MODELLO DEI DATI
DATABASE Database costruito appositamente per il salvataggio e il recupero di triple RDF
Il modello RDF descrive i concetti e le relazioni su di essi attraverso l'introduzione di triple (soggetto-predicato-oggetto) e consente la costruzione di query per interrogare i dati
Rappresentazione formale, condivisa ed esplicita di una concettualizzazione di un dominio di interesse espressa in una logica descrittiva.
SPARQL
RDF (RESOURCE DESCRIPTION FRAMEWORK)
TRIPLE STORE
LINGUAGGIO
DESCRITTORI E
ONTOLOGIE
DATI
Basi territorialiDati censuari per sezione di censimento
CENSIMENTO 2011
Descrive le misure e le dimensioni relative agli indicatori sulle famiglie
Ontologie
ABITAZIONI
TERRITORIO
POPOLAZIONE
Descrive le misure e le dimensioni relative agli indicatori sulla popolazione
Descrive le caratteristiche amministrative e geografiche del territorio Italiano
Descrive le misure e le dimensioni relative agli indicatori sulle abitazioni
FAMIGLIE
AREE SPECIALI
CONFINI AMMINISTRATIVI
CONFINI STATISTICO-GEOGRAFICI
UNITÀ SPECIALI
Regioni Province Comuni
Località abitateSezioni di censimento
Zone contestateIsole amministrative
Abbazie Ospedali
DIMENSIONI
MISURE
Sesso Età Stato civile
Popolazione residente
DIMENSIONI MISURE DIMENSIONI MISURE
Territorio
• Oltre 402.903 Sezioni di censimento
• 74.482 Località• 2.200 Aree di censimento• 3.631 Entità geomorfologiche• Altre classi …
15
IndicatoriOltre 140 Indicatori relativi a:
• Popolazione Residente• Popolazione straniera• Famiglie• Grado di istruzione• Condizione professionale• Pendolarismo• Alloggi• Edifici
Numerosità dei Dati Coinvolti
V.3.15
Accesso guidato
Libertà di accesso
inte
razio
ne
Accesso libero
Um
ana
M2M
Modalità di interazione
Navigazione
Interrogazione guidata
Query REST suSPARQL EndPoint
Interrogazione via SPARQL EndPoint
Web Service
Download
Um
ana
Utenti Esperti
Utenti semi-esperti
Utenti non esperti
Query predefinite(Collezione di
interrogazioni semplici e modificabili)
Query libere(Interrogazione diretta dei dati nel linguaggio
SPARQL)
Interrogazione guidata
Download
Interrogazione via SPARQL EndPoint
Navigazione
Libertà di accesso
Modalità di interazione
Accesso guidato Accesso libero
Tipo
inte
razio
ne
Utenti semi-esperti
V.3.15
Accesso guidato
Libertà di accesso
Tipo
inte
razio
ne
Accesso libero
Um
ana
M2M
Modalità di interazioneUtenti
non esperti
Interrogazione guidata
Download
Modalità disponibili per il download dei dataset:
CSV RDF/XML
JSON TSV
• Servizio che funziona come pratica interfaccia che associa contenuti semantici a indirizzi Web, conforme al protocollo SPARQL
• Consente agli utenti (umani o macchine) di interrogare una base di conoscenza secondo il paradigma del Web semantico
V.3.15
Accesso guidato
Libertà di accesso
Accesso libero
Um
ana
M2M
Modalità di interazioneUtenti
Esperti Utenti
semi-esperti
Interrogazione via SPARQL EndPoint
Query predefinite(Collezione di
interrogazioni semplici e modificabili)
Query libere(Interrogazione diretta dei dati nel linguaggio
SPARQL)
Tipo
inte
razio
ne
V.3.15
Accesso guidato
Libertà di accesso
Accesso libero
Um
ana
M2M
Modalità di interazione
Download
Utenti non esperti
Tipo
inte
razio
ne
V.3.15
Accesso guidato
Libertà di accesso
Accesso libero
Um
ana
M2M
Modalità di interazione
Query REST suSPARQL EndPoint
Tipo
inte
razio
ne
V.3.15
Accesso guidato
Libertà di accesso
Um
ana
M2M
Modalità di interazioneUtenti
non espertiUtenti
Esperti Utenti
semi-esperti
Accesso libero
Navigazione
Tipo
inte
razio
ne
Uso dei dati: Tool per l’analisi interattiva
Grado di Trasformazione
Alto
PowerPivot
Basso
Alto
Bass
o
SpreadsheetLive
llo in
tera
zione
D3.js
Tool online Visual analysis
Tool multidimensionali
Uso dei dati: Tool per l’analisi interattiva
Grado di Trasformazione
AltoBasso
Alto
Bass
o
SpreadsheetLive
llo in
tera
zione
Comune di PalermoPopolazione
Alloggi
Uso dei dati: Tool per l’analisi interattiva
Grado di Trasformazione
Alto
PowerPivot
Basso
Alto
Bass
o
Live
llo in
tera
zione
Com
une
di P
aler
mo
Popolazione
Famiglie
Alloggi
Tabella Pivot diPowerPivot
Grafico Pivot diPowerPivot
Uso dei dati: Tool per l’analisi interattiva
Grado di Trasformazione
AltoBasso
Alto
Bass
o
Tool online
Live
llo in
tera
zione
Comune di PalermoPopolazione
Alloggi
Uso dei dati: Tool per l’analisi interattiva
Grado di Trasformazione
AltoBasso
Alto
Bass
oTableau
Live
llo in
tera
zione
https://public.tableau.com/views/PiazzaArmerina/Dashboard1?:embed=y&:display_count=yes&:showTabs=y
Indicatori originari
Indicatori calcolati
https://public.tableau.com/views/PiazzaArmerina/Dashboard1?:embed=y&:display_count=yes&:showTabs=y
Indicatori originari
Indicatori calcolati
Grazie
http://datiopen.istat.it