estándares: darwin core - gbif.es€¦ · estándares: darwin core paula zermoglio,...
TRANSCRIPT
Estándares:
Darwin Core
Paula Zermoglio, [email protected]
Universidad de Buenos Aires - VertNet
Publicación de datos de biodiversidad
en GBIF y en revistas científicas
Los estándares proveen claridad y
ayudan a la comunicación
Un ejemplo sencillo
Einstein dijo Newton se equivocó.
Einstein dijo: Newton se equivocó.
Einstein, dijo Newton, se equivocó.
Seriously.
Generalidades
• medida - coordenadas geográficas
• formato - grados, minutos, segundos
• sistema numérico - sexagesimal
• números - Indo-Arábico
• lenguaje - Inglés
• alfabeto - Latín
• símbolos - tipográfico
• fuente - Times New Roman
34° 54' 32” S 57° 56' 7” W
Generalidades
A todos estos niveles
Conjunto de datos
Metadatos
Registro
Campo
Valor
se pueden aplicar “normas”.
Estándares
Generalidades
¿Qué estándares utilizamos
para datos de biodiversidad?
Estándares globales
ampliamente utilizados
por la comunidad
Estándares restringidos
locales, regionales,
temáticos, etc.
Generalidades
Estándares propios
de la comunidad
Estándares de otras
disciplinas
Generalidades
¿Qué estándares utilizamos
para datos de biodiversidad?
http://www.tdwg.org/
Generalidades
http://www.tdwg.org/standards/
Generalidades
Darwin Core
Darwin Core
Lista de términos (campos),
y sus definiciones,
relacionados con datos de
biodiversidad
¿Qué es Darwin Core?
Estándarhttp://rs.tdwg.org/dwc
Gobiernohttp://www.tdwg.org
Darwin Core
• Record & Dataset
• Occurrence
• Organism
• Material Sample
• Event
• Location
• Geological Context
• Identification
• Taxon
Clases de
Términos
• ResourceRelationship
• MeasurementOrFact
Clases Auxiliares
Simple Darwin CoreOrganización de
los términos
Darwin Core
http://rs.tdwg.org/dwc
http://rs.tdwg.org/dwc/terms/
Darwin Core
Ejemplo de término: dwc:country
http://rs.tdwg.org/dwc/terms/index.htm#country
Darwin Core
Darwin Core
Para algunos términos se recomienda
el uso de vocabularios controlados
Mejora la calidad de los datos, permitiendo encontrar la información más fácilmente
Darwin Core
¿Es necesario utilizar TODOS los términos
de Darwin Core?
NO
Ejemplo:
- Si los datos son sobre especímenes preservados, posiblemente no tenga
sentido utilizar los términos incluidos en la clase Geological Context.
Darwin Core
http://www.gbif.org/publishing-data/quality
Requerimientosde Calidad de Datos
GB
IF –
Jan
2018
Darwin Core y
calidad de datos
Darwin Core
En la fuente (e.g., en la base de datos de mi colección)
Al compartir los datosAl compartir los datos
Nos permite intercambiar información de modo que todos entendamos de qué
estamos hablando.
En la fuente (e.g., en la base de datos de mi colección)
Debe ser útil a los usos diarios.
Ejemplos:
- Distintos idiomas (e.g., año)
- Campos internos (e.g., N° estante)
¿Cuándo debo utilizar Darwin Core?
Darwin Core
En la fuente (e.g., en la base de datos de mi colección)
En la fuente (e.g., en la base de datos de mi colección)
Al compartir los datosAl compartir los datos
Darwin CoreNo Darwin CoreSi:
=>
Darwin Core
¿Cuándo debo utilizar Darwin Core?
Mapeo a Darwin Core
verbatimEventDate 9 mayo 1985
campo original valor campo Darwin Core valor
Fecha 9 mayo 1985
Directo
Ejemplo
Darwin Core
verbatimEventDate 9 mayo 1985
eventDate 1985-05-09
year 1985
month 5
day 9
startDayOfYear 129
endDayOfYear 129
campo original valor campo Darwin Core valor
Fecha 9 mayo 1985
IndirectoPuede involucrar
transformaciones de los datos
Directo
Ejemplo
Fecha 9 mayo 1985
Darwin Core
Mapeo a Darwin Core
verbatimEventDate 9 mayo 1985
eventDate 1985-05-09
year 1985
month 5
day 9
startDayOfYear 129
endDayOfYear 129
campo original valor campo Darwin Core valor
Fecha 9 mayo 1985
IndirectoPuede involucrar
transformaciones de los datos
Directo
Ejemplo
Tejido SI
Piel SIpreparations piel | tejido
Fecha 9 mayo 1985
Darwin Core
Mapeo a Darwin Core
Para mapear correctamente es necesario:
Conocer los datos originales
Conocer el estándar
Darwin Core
¿Preguntas sobre Darwin Core…?
Darwin Core Questions & Answers Sitehttps://github.com/tdwg/dwc-qa
¿Cómo enviar preguntas?https://tinyurl.com/dwchourqa
Darwin Core Hourhttps://github.com/tdwg/dwc-qa/wiki/Webinars
Darwin Core
¿Qué hacer con campos que no mapean? (directa ni indirectamente)
Incluir en campos generales, si corresponde (xxxxRemarks, dynamicProperties)
No incluir, no compartir
Compartir los datos utilizando extensiones a Darwin Core
Darwin Core
¿Qué son y cómo funcionan las extensiones?
Extensiones a Darwin Core
Ejemplo
Occurrence Core + Extensiones
Extensiones a Darwin Core
Ejemplo
Kelsey Keaton / © The Field Museum
● Coleópteros Polylobus del FMNH
* Fuente del conjunto de datos: Grant S, Maier C (2017). Field Museum of Natural History (Zoology) Insect, Arachnid and Myriapod Collection.
Version 12.5. Field Museum. Occurrence Dataset https://doi.org/10.15468/0ywfpc accessed via GBIF.org on 2017-10-03.
Algunos datos puden haber sido añadidos artificialmente o modificados para el ejemplo.
Extensiones a Darwin Core
Ejemplo
○ Datos de colecta, incluyendo imágenes
● Coleópteros Polylobus del FMNH
Extensiones a Darwin Core
Ejemplo
○ Datos de un estudio morfológico: medidas de los tarsos
Tarsus
Pata
● Coleópteros Polylobus del FMNH
○ Datos de colecta, incluyendo imágenes
Extensiones a Darwin Core
Ejemplo○ N° catálogo○ Colector○ Fecha○ Localidad○ ….
○ Identificaciones
● Imágenes
● Medidas de los tarsos
● Datos etiqueta
Extensiones a Darwin Core
Ejemplo
(?)
○ N° catálogo○ Colector○ Fecha○ Localidad○ ….
● Datos etiqueta
Extensiones a Darwin Core
Ejemplo
○ Identificaciones● Datos etiqueta
Extensiones a Darwin Core
Ejemplo
● Imágenes
Extensiones a Darwin Core
Ejemplo
● Medidas de los tarsos
tipo de medida valor de medida unidad de medida fecha de medición
Extensiones a Darwin Core
Ejemplo
1 N° catálogo, 1 Colector, 1 Fecha, 1 Localidad
Varios nombres
Nombre 1
Nombre 2
Nombre 3
Nombre 4
Varias imágenesImágen 1
Imágen 2
Varias medidas
Tarsus 1
Tarsus 2
Tarsus 3
1 : 1
1 : Muchos
1 : Muchos
1 : Muchos
Relaciones
Registro del “bicho”
Extensiones a Darwin Core
Ejemplo
1 N° catálogo, 1 Colector, 1 Fecha, 1 Localidad
Varios nombres
Nombre 1
Nombre 2
Nombre 3
Nombre 4
Varias imágenesImágen 1
Imágen 2
Varias medidas
Tarsus 1
Tarsus 2
Tarsus 3
1 : 1
1 : Muchos
1 : Muchos
1 : Muchos
Registro del “bicho”
Relaciones
Extensiones a Darwin Core
Ejemplo
Queremos que los registros sean únicos
Premisa:
“1 registro por fila”
Extensiones a Darwin Core
Ejemplo
Problema:No podemos manejar
relaciones 1 : Muchos
en Darwin Core Simple
Extensiones a Darwin Core
Ejemplo
Problema:No podemos manejar
relaciones 1 : Muchos
en Darwin Core Simple
Extensiones a Darwin Core
Ejemplo
Problema:No podemos manejar
relaciones 1 : Muchos
en Darwin Core Simple
No podemos
“repetir términos”
Extensiones a Darwin Core
Ejemplo
Es decir:
valor de medidavalor de medidatipo de medida tipo de medida
largo tarso II Dlargo tarso I D
N° Catálogo
Extensiones a Darwin Core
Ejemplo
Es decir:
valor de medidavalor de medidatipo de medida tipo de medida
largo tarso II Dlargo tarso I D
N° Catálogo
No podemos tener dos campos con el mismo nombre
Extensiones a Darwin Core
Ejemplo
● Label data
○ Catalog N°○ Collector○ Date○ Location
○ Identifications
● Images
● Tarsi measurements
etc…
Extensiones a Darwin Core
Ejemplo
OccurrenceCORE● Label data
○ Catalog N°○ Collector○ Date○ Location
○ Identifications
● Images
● Tarsi measurements
etc…
Extensiones a Darwin Core
Ejemplo
Ext
Ext
Ext
OccurrenceCORE● Label data
○ Catalog N°○ Collector○ Date○ Location
○ Identifications
● Images
● Tarsi measurements
etc…
Extensiones a Darwin Core
Ejemplo
Ext
Ext
Ext
OccurrenceCORE● Label data
○ Catalog N°○ Collector○ Date○ Location
○ Identifications
● Images
● Tarsi measurements
etc…
Identification
History
Audubon
Media
Description
Measurement
or Facts
Extensiones a Darwin Core
Ejemplo
CORE
Ext
Ext
ExtExt
Ext
“Esquema estrella”
Extensiones a Darwin Core
Ejemplo
CORE
Ext
Ext
ExtExt
Ext
“Esquema estrella”
IDID
IDID
ID
Extensiones a Darwin Core
Ejemplo
CORE
Ext
Ext
ExtExt
Ext
“Esquema estrella”
IDID
IDID
ID
Identif. hist.
Measurem.
Images
Occurrence
¿Qué hacer con campos que no mapean? (directa ni indirectamente)
Incluir en campos generales, si corresponde (xxxxRemarks, dynamicProperties)
No incluir, no compartir
Compartir los datos utilizando extensiones a Darwin Core
Darwin Core
Extensiones a Darwin Core
Ejemplo
Tenemos una manera de compartir los datos sin tenerque ponerlos bajo términos genéricos
E.g., Alternativa a usar extensiones para mediciones:
Incluirlas en el campo dynamicProperties, luego de formatearlos, lo cual se vería como sigue:
N° Catálogo
(formatted in JSON)
Extensiones a Darwin Core
¿Cómo funcionan…?
Esquema
estrella
Conexión
por IDs
Resumiendo…
Extensiones a Darwin Core
https://tools.gbif.org/dwca-validator/extensions
Extensiones disponibles
Extensiones a Darwin Core
https://tools.gbif.org/dwca-validator/extensions
Extensiones disponibles
35 Estables
22 en desarrollo
+X? en desarrollo
> 50
Extensiones a Darwin Core
Extensiones disponibles
https://tools.gbif.org/dwca-validator/extensions
Extensiones a Darwin Core
¿Cómo compartimos los datos incluidos
en las extensiones?
Extensiones a Darwin Core
¿Cómo compartimos los datos incluidos
en las extensiones?
¿Cómo compartimos los datos?
Darwin Core Archive
Comenzamos con
dos archivos
No confundir “meta.xml” con Metadata
ejemplares.txtmeta.xml
<describe>
Darwin Core Archive
meta.xml
Darwin Core Archive
ejemplares.txtmeta.xml
<describe>
eml.xml
Luego se deben agregar los
metadatos del set de datos
Darwin Core Archive
eml.xml
Ecological Metadata Language (EML)
Nota: no se requiere conocimiento sobre XML!
• Título y resumen
• Cita y atribución
• Contacto y autores
• Alcance geográfico
• Métodos de muestreo
• Bibliografía
• entre otros…
Describir sets de datos (incluso si no publicas datos)
Darwin Core Archive
eml.xml
Darwin Core Archive
ejemplares.txtmeta.xml
idHistorial.txt
<describe>
eml.xml
Se pueden agregar
extensiones
Darwin Core Archive
ejemplares.txtmeta.xml
idHistorial.txt
fotos.txt
<describe>
eml.xml
Se pueden agregar
extensiones
Darwin Core Archive
idHistorial.txt
fotos.txt
medidas.txt
literaturaRelac.txt
RelacOtrosRecursos.txt
ejemplares.txt
Se pueden agregarextensiones
Darwin Core Archive
ejemplares.txtmeta.xml
idHistorial.txt
fotos.txt
<describe>
eml.xml
Se pueden agregar
extensiones
Darwin Core Archive
• Los datos• El archivo de mapeo de datos
• Los metadatos del set de datos
Por último, comprimir
Darwin Core Archive
Darwin Core Archive
Voilà!• Los datos• El archivo de mapeo de datos
• Los metadatos del set de datos
Por último, comprimir
Darwin Core Archive
• Formato simple (archivos de texto)
• Almacenamiento eficiente (comprimido)
• Agregación eficiente (archivo único)
• Fácil acceso (no requiere software especializado)
• Extensible (archivos relacionados en un único “archivo”)
Formato preferido para la publicación en GBIF
Características
Darwin Core Archive
Bajando datos de los portales
Darwin Core Archive
Bajando datos de los portalesc
Darwin Core Archive
Bajando datos de los portalesc
Darwin Core Archive
¿Cómo llega a estar en los portales de datos?
¿Cómo armamos el Darwin Core Archive?
IPT: Integrated Publishing Toolkit
Herramienta abierta y gratuita que se utilizapara publicar compartir conjuntos de datos
sobre biodiversidad a través de la red de GBIF.
https://www.gbif.org/ipt
IPT: Integrated Publishing Toolkit
Cargar los datos
Con IPT se puede:
IPT: Integrated Publishing Toolkit
Cargar los datos
Mapear a Darwin Core
Con IPT se puede:
IPT: Integrated Publishing Toolkit
Cargar los datos
Mapear a Darwin Core
Cargar los metadatos
Con IPT se puede:
IPT: Integrated Publishing Toolkit
Publicar los datos
Cargar los datos
Mapear a Darwin Core
Cargar los metadatos
Con IPT se puede:
IPT: Integrated Publishing Toolkit
Publicar los datos
Cargar los datos
Mapear a Darwin Core
Cargar los metadatos
Con IPT se puede:
IPT genera el Darwin Core Archive
IPT: Integrated Publishing Toolkit
DATOS
IPT
METADATOS
MAPEO
Darwin
Core Archive
IPT: Integrated Publishing Toolkit
DATOS
IPT
METADATOS
MAPEO
Darwin
Core Archive
(Si el proveedor está registrado)