the web of data
DESCRIPTION
Ruben Martin Asturias 13 de Marzo de 2013TRANSCRIPT
5 Stars Web: The web of Data
CTIC Centro Tecnológico • www.fundacionctic.org
Temario
Temario:
1. Web de Datos: La visión. 2. Tecnologías de la Web de Datos: Linked Data. 3. Herramientas.
4. Ejemplos de uso.
CTIC Centro Tecnológico • www.fundacionctic.org
La visión
CTIC Centro Tecnológico • www.fundacionctic.org
Web Semántica. 5 Stars Web
Escala de excelencia creada por el inventor de la Web, Tim Berners-Lee para medir el nivel de publicación en las iniciativas Open Data.
La bonanza de los conjuntos de datos publicados por una administración se mide en el rango de calidad de sus distribuciones de datos, establecido por los principios de la Web de Datos (5 ★ Open Data)
CTIC Centro Tecnológico • www.fundacionctic.org
Web Semántica. 5 Stars Web
La “Linked Data Cloud” está formada por servidores que albergan miles de millones de datos en formatos semánticos.
Para seguir la evolución de la nube LD: • http://www.w3.org/wiki/TaskForces/CommunityProjects/LinkingOpenData/DataSets • http://richard.cyganiak.de/2007/10/lod/ • http://www4.wiwiss.fu-berlin.de/lodcloud/ • http://www4.wiwiss.fu-berlin.de/lodcloud/state
CTIC Centro Tecnológico • www.fundacionctic.org
Web Semántica. Tecnologías
Construcción de la Web de Datos: Linked Data.
• URIs: Uso de identificadores únicos para la información publicada
• RDF: Uso de un modelo de datos común para representar la información.
• RDFS/OWL/SKOS: Empleo de vocabularios para establecer ontologías y clasificaciones.
• SPARQL: Lenguaje de consulta sobre 'servidores semánticos’.
• Otras tecnologías (Rules, lógica, …) para seguir construyendo ....
CTIC Centro Tecnológico • www.fundacionctic.org
RDF: modelo de datos
RDF (Resource Descrip.on Framework) es un framework ideado y diseñado para representar información sobre recursos en un espacio global (la Web). En RDF todos los recursos son idenEficados por una URI: • IdenEficador de Recurso Uniforme • Ubicuidad: accesible desde cualquier punto de la web La unidad básica de información es la tripleta, formada por un sujeto, un predicado y un objeto. El modelo de datos que intrínsecamente se representa mediante RDF es de un grafo dirigido (mulEgrafo dirigido y eEquetado).
CTIC Centro Tecnológico • www.fundacionctic.org
RDF: Grafo dirigido
Ejemplo de grafo RDF: datos personales.
CTIC Centro Tecnológico • www.fundacionctic.org
RDF: Serializaciones, formatos
CTIC Centro Tecnológico • www.fundacionctic.org
RDF: Blank Nodes
CTIC Centro Tecnológico • www.fundacionctic.org
RDF: Literales tipados
CTIC Centro Tecnológico • www.fundacionctic.org
RDF: Especificaciones. Validación.
Especificaciones oficiales
• hOp://www.w3.org/standards/techs/rdf • hOp://www.w3.org/TR/2004/REC-‐rdf-‐syntax-‐grammar-‐20040210/ • hOp://www.w3.org/TR/2004/REC-‐rdf-‐primer-‐20040210/ • hOp://www.w3.org/TeamSubmission/turtle/ • hOp://www.w3.org/2001/sw/RDFCore/ntriples/
Herramientas para la validación y la transformación de RDF:
• hOp://www.w3.org/RDF/Validator/ • hOp://www.rdfabout.com/demo/validator/
CTIC Centro Tecnológico • www.fundacionctic.org
RDFS: Clases
CTIC Centro Tecnológico • www.fundacionctic.org
RDFS: Propiedades
• Definir una propiedad: rdf:Property
• Establecimiento del rango de aplicación de una propiedad: rdfs:range
• Establecimiento del dominio de aplicación de una propiedad: rdfs:domain
• Especialización de las propiedades: rdfs:subPropertyOf
CTIC Centro Tecnológico • www.fundacionctic.org
RDFS: Ejemplo
CTIC Centro Tecnológico • www.fundacionctic.org
RDFS: Limitaciones -> OWL.
RDFS Eene una serie de limitaciones en su expresividad: • Cardinalidad de la propiedades: una persona sólo Eene un padre. • TransiEvidad: “descendiente de”. • Propiedades “clave” de las clases: DNI. • Dos clases diferentes (URIs) representan la misma agrupación. • Dos instancias diferentes (URIs) representan el mismo individuo. • Restricciones en la cardinalidad de las propiedades dependiendo de la
clase a la que se aplica: “nº de jugadores” (fútbol, baloncesto,...) • Relaciones entre clases: uniones, intersecciones, disjunciones. Se han desarrollado otros estándares como DAML+OIL y OWL basados en RDF/RDFS que permiten definir de forma más extensa la SemánEca de un dominio de conocimiento.
CTIC Centro Tecnológico • www.fundacionctic.org
RDF: OWL (Web Ontology Language).
• Estándar que establece un lenguaje para definir ontologías para la Web SemánEca. • No está ideado sólo para su uso con datos en RDF (tripletas, grafos). • Tiene 3 variantes o sublenguajes con diferentes grados de expresividad: OWL Lite, OWL DL
and OWL Full (ordenados de menos a mayor complejidad). • Overview: hOp://www.w3.org/TR/2009/REC-‐owl2-‐overview-‐20091027/#
CTIC Centro Tecnológico • www.fundacionctic.org
Descripción de recursos. Vocabularios estándar • Vocabularios “estándar” internacionales:
• SKOS Vocabulario para describir sistemas de organización del conocimiento como diccionarios, taxonomías, tesauros, etc.
http://www.w3.org/2004/02/skos/
• DCMI Metadata Terms Dublin Core es una iniciativa para la especificación de metadatos básicos para recursos en general.
http://dublincore.org/documents/dcmi-terms/
• FOAF Friend Of A Friend es un vocabulario que permite describir personas y relaciones entre ellas. http://dublincore.org/documents/dcmi-terms/
• vCard Estándar para el modelado en RDF de información de contacto de personas u organizaciones. http://www.w3.org/TR/vcard-rdf/
• Geonames Ontología para describir lugares (ciudades, regiones, …).
http://www.geonames.org/ontology/documentation.html
• Basic Geo (WGS84) Vocabulario creado por el W3C para definición de elementos geoespaciales básicos.
http://www.w3.org/2003/01/geo/
• RDFS, OWL Estándares del W3C para describir vocabularios y ontologías RDF. http://www.w3.org/TR/rdf-schema/ http://www.w3.org/TR/owl2-overview/
CTIC Centro Tecnológico • www.fundacionctic.org
Publicación RDF. Linked Data
• Diferentes formas de publicar RDF. Como un fichero RDF estático -> es otro formato estructurado más.
• Publicación como Linked Data (LD):
• RDF como modelo de datos de la información. RDF/XML, Turtle, N3 …
• Non-Information resources vc Information Resources URIs de identificación vs URIs de representación. Dereferenciación. Uso de la negociación de contenido http para redirigir a las representaciones
http://datos.gob.es/catalogo/catalogoNacional http://datos.gob.es/catalogo/catalogoNacional.rdf http://datos.gob.es/catalogo/catalogoNacional.html http://www4.wiwiss.fu-berlin.de/bizer/pub/linkeddatatutorial/
• SPARQL -> Lenguaje de consulta estándar sobre servidores de información semántica
CTIC Centro Tecnológico • www.fundacionctic.org
Publicación RDF. Negociación de contenido
!
!
PeEción de la clase “Restaurante” por parte de un cliente HTML
PeEción de la clase “Restaurante” por parte de un cliente RDF
CTIC Centro Tecnológico • www.fundacionctic.org
Reutilización. SPARQL
• SPARQL Estándar para la consulta de datos en servidores semánticos. Por ejemplo la DBpedia.
• SPARQL se usa en la red mediante estándares que definen el protocolo y el formato de resultado: • Protocolo SPARQL para RDF con vínculos a HTTP y SOAP • Resultados SPARQL en formato XML o JSON
• http://www.w3.org/TR/rdf-sparql-query/
• RDF es un modelo de datos de grafos dirigidos:
• La idea fundamental de SPARQL
• Se define un patrón contiene símbolos sin asociar. • Asociando los símbolos, se seleccionan subgrafos del grafo RDF. • Al hacer esa selección la consulta devuelve los recursos con sus
asociaciones.
CTIC Centro Tecnológico • www.fundacionctic.org
Reutilización. SPARQL estructura.
CTIC Centro Tecnológico • www.fundacionctic.org
SPARQL. Ejemplo
CTIC Centro Tecnológico • www.fundacionctic.org
SPARQL. Ejemplo
CTIC Centro Tecnológico • www.fundacionctic.org
SPARQL. Ejemplo
CTIC Centro Tecnológico • www.fundacionctic.org
SPARQL. Ejemplo
CTIC Centro Tecnológico • www.fundacionctic.org
SPARQL. Ejemplo
Devuelve: [[<..49X>,33,:£,<…Palace>], … , [<..6682>,78,:$, ]]
CTIC Centro Tecnológico • www.fundacionctic.org
SPARQL. Ejemplo
Devuelve: [[<..49X>,33,:£,<…Palace>] …]
CTIC Centro Tecnológico • www.fundacionctic.org
SPARQL. Ejemplo
Datos de turismo del Principado de Asturias: • IdenEficamos el punto SPARQL • Y (si aplica) el grafo-‐dataset de los datos
CTIC Centro Tecnológico • www.fundacionctic.org
SPARQL. Servidores: DBpedia
• DBpedia:
• Es una versión en RDF de la información de la Wikipedia. • Recorre regularmente (crawling) las páginas de la wikipedia
recogiendo información de sus tablas de datos (infoboxes) y jerarquías.
• Contiene casi 2000 millones de tripletas
• http://dbpedia.org/sparql
Modificadores de la solución • LIMIT • ORDER BY • OFFSET
CTIC Centro Tecnológico • www.fundacionctic.org
SPARQL. Servidores: DBpedia
Uso de filtros en las consultas. • Hallar en la dbpedia los nombre de los países sin costa con una
población mayor de 15000000.
CTIC Centro Tecnológico • www.fundacionctic.org
Herramientas RDF
Listado de herramientas en la wiki del W3C: http://www.w3.org/RDF/
• Entornos de programación:
• Java: Jena, Sesame • PHP: ARC2 • Python: RDFLib
• Servidores nativos: Triple Stores (Quad Stores) • Virtuoso • 4Store • AllegroGraph
• Servicios web. Datos en la nube (cloud) • Dydra • Kasabi (Talis)
CTIC Centro Tecnológico • www.fundacionctic.org
Web de Datos: Ejemplos
Google Rich Snippets: La mejora en la experiencia de usuario al realizar las búsquedas tiene efectos en la proporción de clics.
CTIC Centro Tecnológico • www.fundacionctic.org
Web de Datos: Ejemplos de uso
CTIC Centro Tecnológico • www.fundacionctic.org
Web de Datos: Iniciativas, Datos Gijón
hOp://datos.gijon.es/
hOp://www.fundacioncEc.org/odlabgijon/
Muchas Gracias, Rubén Marxn
hOp://www.fundacioncEc.org hOp://datos.fundacioncEc.org
hOp://www.w3.org/eGov [email protected]