2015-06 roberto boselli, dal dato non strutturato alle ontologie
TRANSCRIPT
Università degli Studi di Milano -‐ Bicocca Viale dell’Innovazione, 10 20126 Milano, Italia www.crisp-‐org.it
Roberto Boselli, 3 giugno 2015
Linked Open Data
DaF struGuraF DaF non struGuraF
Contesto
Big Data
Web
SemanFc
Business Intelligence
App, Mashup,
InformaFon Systems,
Search engines
Le tecniche
• Informa(on Extrac(on per estrarre enFtà da daF non struGuraF e classificarli
• Seman(c Web per descrivere e collegare le enFtà
• Big Data Analy(cs per analizzare daF e prendere decisioni
Obiettivo
Dato strutturato
Dato Semi
strutturato Non
strutturato
Conoscere mercato
del lavoro
Social Network Siti web
Fonti Statistiche e Amministrative
Fonti
Selezione tra i più importanF si( di annunci di lavoro:
• SiF specializzaF in offerte di lavoro (job boards e aggregators) • SiF delle principali agenzie interinali • SiF dei maggiori quoFdiani nazionali • Social networks
Web vacancies
• 850000 annunci di lavoro scaricaF e analizzaF • Crawling da febbraio 2013 a aprile 2015 • ContenuF descriZvi = daF non struGuraF
Indicatori del mercato del lavoro
• Professione • Tipo di contraAo • SeAore economico
• Titolo di studio • Località • Skills Variabili interconnesse a differenF livelli di complessità Preziosa fonte di informazione delle caraGerisFche e delle
dinamiche del lavoro
Problemi di Information Extraction
Diversi problemi emergono dal traAare da( del web:
• Informa(on processing, text analysis
TraGare stringhe di testo richiede parFcolari strumenF e tecniche
• Eterogeneità di classificazione nei si( Ciascun sito ha una differente classificazione
• Overlap tra si( Lo stesso annuncio può essere pubblicato in diversi siF. Controllo
dei duplicaF
• Ripe(zione degli annunci nel tempo
Controllo delle diverse poliFche di pubblicazione dei siF • Iden(ficazione e definizione di tassonomie
Metodologia e strumenti
Da( non struAura( • Web crawling
• Text mining • SMA
StruAura da( • Classificazione • Tassonomia • RDF triplestore
Seman(ca • Ontologia • Relazioni semanFche
Linked Data • Collegamento dataset
• Interrogazioni SPARQL endpoint
Business Intelligence • Analisi staFsFche
• Visualizzazione • ReporFsFca
Suite strumenF SAS, R
Open Calais, D2RQ
Protege, LOD Refine, SILK
OpenLink Virtuoso, Sesame
Pentaho, Talend, SemanFc ETL
Web crawling
Scarico di daF non struGuraF dal Web (via API) Esempi:
Tweets da TwiGer
Post da blog e forum Annunci da siF ricerca Lavoro (Infojobs, Monster ecc.)
<body>Azienda XYZ (Aut. Min. 26/11/04 Prot. n° 1101-SG) assume: ricerchiamo per azienda cliente operante nel settore della grande distribuzione ( nota catena di discount alimentare) un responsabile supermercato. Il candidato/a ideale deve avere maturato una pregressa esperienza di almeno tre anni nel settore GDO e nel ruolo di responsabile punto vendita. …</body>
Text Mining (TM)
È il processo di analisi: per estrarre nuova e valida conoscenza dispersa nei documenF di testo
per dedurre informazioni da daF non struGuraF combinaF con variabili quanFtaFve
UFlizza tecniche di InformaFon Retrieval (h-‐idf, coseno, clustering, LSI)
<body>Azienda XYZ (Aut. Min. 26/11/04 Prot. n° 1101-SG) assume: ricerchiamo per azienda cliente operante nel settore della grande distribuzione ( nota catena di discount alimentare) un responsabile supermercato. Il candidato/a ideale deve avere maturato una pregressa esperienza di almeno tre anni nel settore GDO e nel ruolo di responsabile punto vendita. […] Richiesto: diploma di scuola media superiore; conoscenza del pc. […] Contratto iniziale di somministrazione.</body>
Social Media Analytics
Tecniche staFsFche e linguisFche per monitorare, ascoltare e tracciare comportamento utenF nel web, classificare contenuF in tassonomie Opinion Mining
SenFment Analysis
<body>Azienda XYZ (Aut. Min. 26/11/04 Prot. n° 1101-SG) assume: ricerchiamo per azienda cliente operante nel settore della grande distribuzione ( nota catena di discount alimentare) un responsabile supermercato. Il candidato/a ideale deve avere maturato una pregressa esperienza di almeno tre anni nel settore GDO e nel ruolo di responsabile punto vendita. […] Richiesto: diploma di scuola media superiore; conoscenza del pc. […] Contratto iniziale di somministrazione.</body>
Settore Contratto Titolo di studio
Conoscenza di dominio e sistemi classificazione ufficiali (ISTAT, ATECO …)
Aggregazione di parole accomunate da un tema/classe
Organizzazione gerarchica termini
Classificazione e tassonomie
ContraZ PermanenF ContraZ Temporanei Inserimento Lavoro autonomo Lavoro aFpico Da definire
Comunicazioni Obbligatorie
Linguaggio naturale e sistemi di classificazione
Terminologia usata dalle aziende per professioni e
seGori
Classificazioni ufficiali di professioni e seGori
Il web può rappresentare un ponte per coniugare i sistemi di classificazione ed il linguaggio naturale … nel contempo una occasione
per lo studio dell’evoluzione dei sistemi classificatori
Semantic Web
"The Seman)c Web is an extension of the current web in which informa)on is given well-‐defined meaning, be=er enabling computers and people to work in coopera)on.” (Berners-‐Lee, 2001)
Tecniche e linguaggi per esplicitare le relazioni tra pagine web, e permeGere alle macchine di capire il significato delle informazioni Da pagine di testo non struAurato a informazioni struAurate
Descrizione metadaF interpretabili dai computer Creazione di nuovi servizi e nuova conoscenza
Perché Linked Open Data?
• Interoperabilità: il valore dei daF aumenta quando data set differenF, prodoZ e pubblicaF in modo indipendente da diversi soggeZ, possono essere incrociaF liberamente da terze parF
• Valorizzazione del patrimonio informaFvo pubblico: rendere disponibili e raggiungibili i daF sul Web sia da esseri umani sia da applicazioni sonware
• I daF come propulsori economici per la creazione di nuove app e servizi, start up, e posF di lavoro
Occorre avere un linguaggio comune, una semanFca, con daF struGuraF e chiavi di leGura univoche, e un’ontologia di dominio
LOD: Vantaggi
• Esporre daF sul Web, non solo documenF • InterconneGere i nostri daF con quelli di altre fonF arricchendone il valore conosciFvo
• I link in entrata ai nostri daF possono aumentarne la visibilità
• Altri esseri umani e applicazioni possono: • Accedere ai nostri daF uFlizzando le tecnologie Web
• Seguire i link in modo da oGenere ulteriori informazioni di contesto
La scala di Berners-Lee
Modello di catalogazione dei daF 1. Una Stella: il livello base, cosFtuito da file non struGuraF: ad esempio
un’immagine in formato grezzo (.gif, .jpg, .png), un documento in formato Word, un file in formato pdf
2. Due Stelle: indica daF struGuraF ma codificaF con un formato proprietario, ad esempio un documento in formato Excel
3. Tre Stelle: indica daF struGuraF e codificaF in un formato non proprietario, ad esempio il formato .csv (Comma Separated Values)
4. QuaAro Stelle: indica daF struGuraF e codificaF in un formato non proprietario che sono dotaF di un URI che li rende indirizzabili sulla rete e quindi uFlizzabili direGamente online, aGraverso l’inclusione in una struGura basata sul modello RDF (Resource DescripFon Framework)
5. Cinque Stelle: indica quelli che vengono definiF Linked Open Data (LOD)
21
Linked Data, linee guida (5 stelle) 1
Dal dato grezzo al conceGo interpretabile dalle macchine • I daF idenFficaF con indirizzi Web (URI)
• UFlizzo della semanFca per descrivere daF aGraverso conceZ (formalismi interpretabili dalle macchine)
• Rappresentazione dei conceZ aGraverso triple sogge=o predicato ogge=o RDF: “Università è un’is)tuzione, Università fa formazione, Università fa ricerca”
• Le ontologie sono vocabolari che spiegano alle macchine il significato dei termini delle triple (Università, is)tuzione ecc.) e forniscono le regole per dedurre nuove informazioni
Linked Data, linee guida (5 stelle) 2
• I daF struGuraF sono memorizzaF in apposiF triplestore RDF interrogabili via SPARQL endpoint
• Link RDF per collegare informazioni di dataset diversi • Nel creare ontologie bisogna riusare il più possibile termini/
enFtà di vocabolari noF; creare nuovi termini solo se streGamente necessario
Ontologie riuFlizzabili per descrivere conceZ: • Friend-‐of-‐a-‐friend (FOAF): per descrivere persone e relazioni tra di esse • Dublin Core (DC): standard metadaF • Geonames: per descrivere enFtà geografiche • Dbpedia: per descrivere conoscenza presente in Wikipedia • … (vedremo altre nel corso della presentazione)
Triple RDF dagli annunci
<body>Azienda XYZ (Aut. Min. 26/11/04 Prot. n° 1101-SG) assume: ricerchiamo per azienda cliente operante nel settore della grande distribuzione ( nota catena di discount alimentare) un responsabile supermercato. Il candidato/a ideale deve avere maturato una pregressa esperienza di almeno tre anni nel settore GDO e nel ruolo di responsabile punto vendita. […] Richiesto: diploma di scuola media superiore; conoscenza del pc. […] Contratto iniziale di somministrazione.</body>
Discount alimentare Responsabile punto vendita
assume
Grande distribuzione
opera
Esperienza
avere 3 anni
Diploma sms
Titolo di studio
PC
conoscere
ContraGo somministrazione
offre
Ontologie in sviluppo
Professione
Contratto
TitoloDiStudio
haTitolo
eAssociatoA
Skill
haSkill
Skill estratte/ESCO/tassonomia
haContratto
SettoreEconomico
Keyword
ISTAT/ESCO/ISCO Istanze
Stringhe estratte Tassonomia/EURES
Tassonomia/NACE
Tassonomia/ISCED
skillCrisp.owl lavoro.owl
Settori econ
Aziende
Professioni Lavoratori
Persona_1234
Contratto_TD avvia
Azienda_JBD
Professione_Informatico
nome_qual http://…/Professioni/#Informatico owl:sameAs
Settore_ICT
èAssociatoA
indirizzo
Milano Italia
Via Verdi
…/Professioni/#TecnicoInformatico èAssociatoA
apertoDa
ha
Quali skill collegate al seGore economico dell'ICT sono richieste dalle aziende nella zona di Milano?
Possibile query su LOD Lavoro
Skill Ling. Programm.
http://…/Skill/#Java
http://…/Skill/#C++
ha
Java
C++
Si oZene una nuova fonte daF che integrata nei sistemi di Business Intelligence permeGe:
Al ciGadino e alle aziende: e.g., fare analisi dello stato del lavoro nella regione, quali sono le qualifiche richieste, quali possono essere i possibili percorsi professionalizzanF ecc.
Al decisore:
e.g., valutare e visualizzare in modo immediato l’efficacia delle poliFche sul lavoro e l’occupazione
Possibili utilizzi