the web of data

36
5 Stars Web: The web of Data

Upload: betabeers

Post on 28-Jun-2015

174 views

Category:

Technology


3 download

DESCRIPTION

Ruben Martin Asturias 13 de Marzo de 2013

TRANSCRIPT

Page 1: The Web of Data

5  Stars  Web:  The  web  of  Data  

Page 2: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

Temario

Temario:

1.  Web de Datos: La visión. 2.  Tecnologías de la Web de Datos: Linked Data. 3.  Herramientas.

4.  Ejemplos de uso.

Page 3: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

La visión

Page 4: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

Web Semántica. 5 Stars Web

Escala de excelencia creada por el inventor de la Web, Tim Berners-Lee para medir el nivel de publicación en las iniciativas Open Data.

La bonanza de los conjuntos de datos publicados por una administración se mide en el rango de calidad de sus distribuciones de datos, establecido por los principios de la Web de Datos (5 ★ Open Data)

Page 5: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

Web Semántica. 5 Stars Web

La “Linked Data Cloud” está formada por servidores que albergan miles de millones de datos en formatos semánticos.

Para seguir la evolución de la nube LD: •  http://www.w3.org/wiki/TaskForces/CommunityProjects/LinkingOpenData/DataSets •  http://richard.cyganiak.de/2007/10/lod/ •  http://www4.wiwiss.fu-berlin.de/lodcloud/ •  http://www4.wiwiss.fu-berlin.de/lodcloud/state

Page 6: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

Web Semántica. Tecnologías

Construcción de la Web de Datos: Linked Data.

•  URIs: Uso de identificadores únicos para la información publicada

•  RDF: Uso de un modelo de datos común para representar la información.

•  RDFS/OWL/SKOS: Empleo de vocabularios para establecer ontologías y clasificaciones.

•  SPARQL: Lenguaje de consulta sobre 'servidores semánticos’.

•  Otras tecnologías (Rules, lógica, …) para seguir construyendo ....

Page 7: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

RDF: modelo de datos

RDF  (Resource  Descrip.on  Framework)  es  un  framework  ideado  y  diseñado  para  representar  información  sobre  recursos  en  un  espacio  global  (la  Web).    En  RDF  todos  los  recursos  son  idenEficados  por  una  URI:  •  IdenEficador  de  Recurso  Uniforme  •  Ubicuidad:  accesible  desde  cualquier  punto  de  la  web    La  unidad  básica  de  información  es  la  tripleta,  formada  por  un  sujeto,    un  predicado  y  un  objeto.            El  modelo  de  datos  que  intrínsecamente  se  representa  mediante  RDF  es  de  un  grafo  dirigido  (mulEgrafo  dirigido  y  eEquetado).  

Page 8: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

RDF: Grafo dirigido

Ejemplo  de  grafo  RDF:  datos  personales.  

Page 9: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

RDF: Serializaciones, formatos

Page 10: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

RDF: Blank Nodes

Page 11: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

RDF: Literales tipados

Page 12: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

RDF: Especificaciones. Validación.

Especificaciones  oficiales      

•   hOp://www.w3.org/standards/techs/rdf  •   hOp://www.w3.org/TR/2004/REC-­‐rdf-­‐syntax-­‐grammar-­‐20040210/  •   hOp://www.w3.org/TR/2004/REC-­‐rdf-­‐primer-­‐20040210/  •   hOp://www.w3.org/TeamSubmission/turtle/  •   hOp://www.w3.org/2001/sw/RDFCore/ntriples/  

     Herramientas  para  la  validación  y  la  transformación  de  RDF:    

•   hOp://www.w3.org/RDF/Validator/  •   hOp://www.rdfabout.com/demo/validator/  

   

Page 13: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

RDFS: Clases

Page 14: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

RDFS: Propiedades

•  Definir una propiedad: rdf:Property

•  Establecimiento del rango de aplicación de una propiedad: rdfs:range

•  Establecimiento del dominio de aplicación de una propiedad: rdfs:domain

•  Especialización de las propiedades: rdfs:subPropertyOf

Page 15: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

RDFS: Ejemplo

Page 16: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

RDFS: Limitaciones -> OWL.

RDFS  Eene  una  serie  de  limitaciones  en  su  expresividad:    •  Cardinalidad  de  la  propiedades:  una  persona  sólo  Eene  un  padre.  •  TransiEvidad:  “descendiente  de”.  •  Propiedades  “clave”  de  las  clases:  DNI.  •  Dos  clases  diferentes  (URIs)  representan  la  misma  agrupación.  •  Dos  instancias  diferentes  (URIs)  representan  el  mismo  individuo.  •  Restricciones  en  la  cardinalidad  de  las  propiedades  dependiendo  de  la  

clase  a  la  que  se  aplica:  “nº  de  jugadores”  (fútbol,  baloncesto,...)  •  Relaciones  entre  clases:  uniones,  intersecciones,  disjunciones.    Se  han  desarrollado  otros  estándares  como  DAML+OIL  y  OWL  basados  en  RDF/RDFS  que  permiten  definir  de  forma  más  extensa  la  SemánEca  de    un  dominio  de  conocimiento.    

Page 17: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

RDF: OWL (Web Ontology Language).

•  Estándar  que  establece  un  lenguaje  para  definir  ontologías  para  la  Web  SemánEca.  •  No  está  ideado  sólo  para  su  uso  con  datos  en  RDF  (tripletas,  grafos).  •  Tiene  3  variantes  o  sublenguajes  con  diferentes  grados  de  expresividad:  OWL  Lite,  OWL  DL  

and  OWL  Full  (ordenados  de  menos  a  mayor  complejidad).  •  Overview:    hOp://www.w3.org/TR/2009/REC-­‐owl2-­‐overview-­‐20091027/#  

Page 18: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

Descripción de recursos. Vocabularios estándar •  Vocabularios “estándar” internacionales:

•  SKOS Vocabulario para describir sistemas de organización del conocimiento como diccionarios, taxonomías, tesauros, etc.

http://www.w3.org/2004/02/skos/

•  DCMI Metadata Terms Dublin Core es una iniciativa para la especificación de metadatos básicos para recursos en general.

http://dublincore.org/documents/dcmi-terms/

•  FOAF Friend Of A Friend es un vocabulario que permite describir personas y relaciones entre ellas. http://dublincore.org/documents/dcmi-terms/

•  vCard Estándar para el modelado en RDF de información de contacto de personas u organizaciones. http://www.w3.org/TR/vcard-rdf/

•  Geonames Ontología para describir lugares (ciudades, regiones, …).

http://www.geonames.org/ontology/documentation.html

•  Basic Geo (WGS84) Vocabulario creado por el W3C para definición de elementos geoespaciales básicos.

http://www.w3.org/2003/01/geo/

•  RDFS, OWL Estándares del W3C para describir vocabularios y ontologías RDF. http://www.w3.org/TR/rdf-schema/ http://www.w3.org/TR/owl2-overview/

Page 19: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

Publicación RDF. Linked Data

•  Diferentes formas de publicar RDF. Como un fichero RDF estático -> es otro formato estructurado más.

•  Publicación como Linked Data (LD):

•  RDF como modelo de datos de la información. RDF/XML, Turtle, N3 …

•  Non-Information resources vc Information Resources URIs de identificación vs URIs de representación. Dereferenciación. Uso de la negociación de contenido http para redirigir a las representaciones

http://datos.gob.es/catalogo/catalogoNacional http://datos.gob.es/catalogo/catalogoNacional.rdf http://datos.gob.es/catalogo/catalogoNacional.html http://www4.wiwiss.fu-berlin.de/bizer/pub/linkeddatatutorial/

•  SPARQL -> Lenguaje de consulta estándar sobre servidores de información semántica

Page 20: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

Publicación RDF. Negociación de contenido

!

!

PeEción  de  la  clase  “Restaurante”  por  parte  de  un  cliente  HTML  

PeEción  de  la  clase  “Restaurante”  por  parte  de  un  cliente  RDF  

Page 21: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

Reutilización. SPARQL

•  SPARQL Estándar para la consulta de datos en servidores semánticos. Por ejemplo la DBpedia.

•  SPARQL se usa en la red mediante estándares que definen el protocolo y el formato de resultado: •  Protocolo SPARQL para RDF con vínculos a HTTP y SOAP •  Resultados SPARQL en formato XML o JSON

•  http://www.w3.org/TR/rdf-sparql-query/

•  RDF es un modelo de datos de grafos dirigidos:

•  La idea fundamental de SPARQL

•  Se define un patrón contiene símbolos sin asociar. •  Asociando los símbolos, se seleccionan subgrafos del grafo RDF. •  Al hacer esa selección la consulta devuelve los recursos con sus

asociaciones.

Page 22: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

Reutilización. SPARQL estructura.

Page 23: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

SPARQL. Ejemplo

Page 24: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

SPARQL. Ejemplo

Page 25: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

SPARQL. Ejemplo

Page 26: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

SPARQL. Ejemplo

Page 27: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

SPARQL. Ejemplo

Devuelve:    [[<..49X>,33,:£,<…Palace>],  …  ,  [<..6682>,78,:$,  ]]  

Page 28: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

SPARQL. Ejemplo

Devuelve:    [[<..49X>,33,:£,<…Palace>]  …]  

Page 29: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

SPARQL. Ejemplo

Datos  de  turismo  del  Principado  de  Asturias:    •  IdenEficamos  el  punto  SPARQL  •  Y  (si  aplica)  el  grafo-­‐dataset  de  los  datos  

Page 30: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

SPARQL. Servidores: DBpedia

•  DBpedia:

•  Es una versión en RDF de la información de la Wikipedia. •  Recorre regularmente (crawling) las páginas de la wikipedia

recogiendo información de sus tablas de datos (infoboxes) y jerarquías.

•  Contiene casi 2000 millones de tripletas

•  http://dbpedia.org/sparql

Modificadores  de  la  solución  •  LIMIT  •  ORDER  BY  •  OFFSET  

 

Page 31: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

SPARQL. Servidores: DBpedia

Uso  de  filtros  en  las  consultas.    •  Hallar  en  la  dbpedia  los  nombre  de  los  países  sin  costa  con  una    

población  mayor  de  15000000.        

Page 32: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

Herramientas RDF

Listado de herramientas en la wiki del W3C: http://www.w3.org/RDF/

•  Entornos de programación:

•  Java: Jena, Sesame •  PHP: ARC2 •  Python: RDFLib

•  Servidores nativos: Triple Stores (Quad Stores) •  Virtuoso •  4Store •  AllegroGraph

•  Servicios web. Datos en la nube (cloud) •  Dydra •  Kasabi (Talis)

Page 33: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

Web de Datos: Ejemplos

Google Rich Snippets: La mejora en la experiencia de usuario al realizar las búsquedas tiene efectos en la proporción de clics.

Page 34: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

Web de Datos: Ejemplos de uso

Page 35: The Web of Data

CTIC Centro Tecnológico • www.fundacionctic.org

Web de Datos: Iniciativas, Datos Gijón

hOp://datos.gijon.es/  

hOp://www.fundacioncEc.org/odlabgijon/  

Page 36: The Web of Data

Muchas  Gracias,  Rubén  Marxn  

hOp://www.fundacioncEc.org  hOp://datos.fundacioncEc.org  

hOp://www.w3.org/eGov  [email protected]