tecniche di integrazione semantica dei dati sul web un approccio web-based ed entity-centric paolo...
Post on 02-May-2015
213 Views
Preview:
TRANSCRIPT
Tecniche di integrazione semantica dei dati sul Web
Un approccio web-based ed entity-centric
Paolo Bouquet
Dip. di Ingegneria e Scienza dell'Informazione
Università di TrentoOKKAM id: http://www.okkam.org/entity/ok200706301185791252056
Outline
• Un semplice scenario e il problema
• Cosa significa integrazione semantica:– Web-based– Entity-centric
• Vantaggi e svantaggi rispetto ad altri approcci
• Una soluzione: il progetto OKKAM
• Esempi di applicazioni e progetti
• Conclusioni
Paolo Bouquet @ UNITN
Anagrafica
Dati personali
Pubblicazioni Didattica
Ricerca
Progetti
Paolo Bouquet @ WWW
Professional network Twits
Video lectures Social Network
Publications Personal data
Riassumendo ...• Informazione che cresce
– ... in modo aperto e decentralizzato– ... in sistemi eterogenei (gestionali, CRM, portali,
reporting, documentali, ecc.)– ... in formati eterogenei (RDB, testo, XML,
multimedia, fogli di calcolo, ecc.)– ... basati su schemi e vocabolari diversi– ... spesso senza connessioni esplicite– ... per scopi di diversi
• Confini tra “dentro” e “fuori” sempre più labili
• Il valore come capacità di collegare e aggregare dati e informazione distribuiti
• La necessità di flessibilità e tolleranza all'errore nell'uso dei dati e nell'integrazione semantica
Problema
Come rispondere a una semplice domanda come: cosa “sa” UNITN di Paolo Bouquet?
Il Web oggi Il Web of Entities
Una possibile soluzione: il Web of Entities
Web-based & entity-centric
Ingrediente 1: le tecnologie Web I
• Il Web attuale è una rete di risorse digitali tra loro collegate:
– Ogni risorsa è indentificata da una URI (per es. una URL del tipo http://www.unitn.it/)
– I collegamenti tra risorse si creano indicando la URI della risorsa veso cui si vuole creare il link
– Gli utenti e le applicazioni possono navigare da una risorsa all'altra grazie ai collegamenti (link)
– I link sono solo di un tipo: HREF (collegamento ipertestuale)
Ingrediente 1: le tecnologie Web I
Il Web oggi
Ingrediente 1: le tecnologie Web
• Il Web dei Dati è una rete di risorse di qualsiasi tipo (persone, eventi, aziende, prodotti, luoghi, ecc) tra loro collegate:
– Ogni risorsa è indentificata da una URI (per es. una URL del tipo http://semanticweb.org/wiki/Nicola_Guarino)
– I collegamenti tra risorse esprimono un'asserzione su quella risorsa (per esempio che Nicola conosce Paolo)
– Gli utenti e le applicazioni possono navigare tra insiemi di asserzioni pubblicate sul Web
– Le asserzioni possibili sono definiti in vocabolari web o ontologie
Ingrediente 2: entity-centric view
• Gli elementi atomici non sono più i documenti, ma le entità (persone, aziende, luoghi, eventi, prodotti, documenti, ...)
• Idealmente, ogni entità è identificata da una singola URI in qualunque luogo della rete essa appaia
• Il valore dell'informazione (la conoscenza) sta nelle relazioni che esistono tra entità
• Informazioni sullo stesso oggetto possono provenire da sorgenti diverse e tra loro indipendenti
• La capacità di raccogliere questa conoscenza e integrarlo (semantic mashup) diventa elemento chiave
abita a
abita aconosce
possiede
ha curato
lavora per
si trova a
Ingrediente 2: entity-centric view I
Ingrediente 2: entity-centric view - II
DB1
DB2
DB3
http://www.okkam.org/ens/ide1540fc2-70be-4495-8f8f-9c714a8ed2de
http://www.okkam.org/ens/ide1540fc2-70be-4495-8f8f-9c714a8ed2dehttp://www.okkam.org/entity/ok200706301185791252056
http://www.okkam.org/entity/ok200706301185791252056
http://www.okkam.org/ens/id88f216f2-4aa8-4f06-9924-806c2aa7bc62
http://www.okkam.org/ens/id88f216f2-4aa8-4f06-9924-806c2aa7bc62
http://www.okkam.org/ens/ide1540fc2-70be-4495-8f8f-9c714a8ed2de
The Entity Name System (ENS)
ENS-Plugin ENS-Plugin ENS-Plugin
ENS-Plugin
ENS-Plugin
Entity Name System
= http://www.okkam.org/ens/id47371904-6218-41e1-8b6d-af806de3dabb
Integrazione Entity-Centric dei dati
• L'integrazione avviene in primo luogo intorno a una o più entità, non intorno a uno schema
• Lo spazio delle entità e delle loro relazioni è non solo navigabile, ma anche interrogabile con query strutturate
• I servizi sono progettati e organizzati intorno alle entità (quali servizi e/o dati posso offrire ai miei utenti rispetto a “Nicola Guarino”)
• Le applicazioni devono essere entity-aware (client e/o plugin ENS + funzionalità)
• L'Entity Name System come abilitatore dello spazio dell'informazione (il “DNS” del entity-centric Web)
Esempi di applicazioni in corso
Trentino Riscossioni
Sorgenti di dati
Profilo integrato del contribuente
Enterprise KM in SAP
SAP Community Network 1.3 million business users
◦ Customers
◦ End-users
◦ Consultants
◦ Developers, etc.
150.000 daily accesses
5000 to 10000 new posts daily
Challenges Improve the search capabilities of
the portal
Provide instantaneous answers to those user queries that have been already answered into the forums
Expand the search
beyond the boundaries of the portal and
beyond the information captured by corporate data
SAP Community Network (SCN)
News sul Web con ANSACreating richer News
eventplace person
1919
OKKAM Tutorial – Vienna – ESTC 2009, Dec. 2 + 3, 2009
Use Case: Academic Web Site
E ancora ...
• Editoria (articoli scientifici con Elsevier)
• Web search (sub-project Sig.ma with DERI Galway)
• Smart Cities (aggregazione di servizi intorno a entità nel mondo fisico su piattaforme mobile)
• Aggregazione di dati con il Ministero dell'Innovazione Fiammingo
Per concludere
• Integrazione semantica basata sul paradigma del Web (aperto, flessibile, decentralizzato, tollerante alle imperfezioni, ridondante, talvolta incompleto)
• Integrazione costruita intorno a elementi semplici (le entità), ma vicine all'utente finale
• Costi relativamente modesti dell'integrazione e scalabilità della soluzione e approccio incrementale
• Compatibile con l'integrazione a livello di schemi, per esempio introducendo vocabolari/ontologie condivise per esprimere relazioni tra entità
• Vicino all'idea del Web2.0 e della produzione distribuita di dati e conoscenza
• Richiede poca “manutenzione” (e questa puà essere distribuita)
Grazie!
Per chi vuole saperne di più:
http://project.okkam.org/
http://community.okkam.org/
paolo.bouquet@unitn.it
The future
• Creation of an OKKAM Foundation for maintaining and developing the ENS public infrastructure
– Not-for-profit founders– Independence and neutrality– Strongly R&D oriented
• Using Trentino as a lab for the first Entity-Centric Region worldwide
• Verticalizations in different business sectors (KM, publishing, advertisement, public administration, healthcare, master data management, etc.)
top related