Download - Calidad de datos: detección y corrección
![Page 1: Calidad de datos: detección y corrección](https://reader037.vdocuments.pub/reader037/viewer/2022102719/56814f31550346895dbcc0d3/html5/thumbnails/1.jpg)
Calidad de datos: detección y corrección
Francisco PandoUnidad de Coordinación GBIF-España
I Taller sobre calidad en bases de datos sobre biodiversidad
13-14 septiembre 2007. Madrid.
![Page 2: Calidad de datos: detección y corrección](https://reader037.vdocuments.pub/reader037/viewer/2022102719/56814f31550346895dbcc0d3/html5/thumbnails/2.jpg)
Guión
• Conceptos• Ciclo de vida de los datos y detección• Introducción de datos: interpretar,
distorsionar, errar• Captura de errores: validación y
detección• Diseño de base de datos y gestión de
errores• Virtualidad y realidad en las BBDD• Casos• La casa por los cimientos. Un ejemplo de
Eslovenia
![Page 3: Calidad de datos: detección y corrección](https://reader037.vdocuments.pub/reader037/viewer/2022102719/56814f31550346895dbcc0d3/html5/thumbnails/3.jpg)
Información original y derivada
![Page 4: Calidad de datos: detección y corrección](https://reader037.vdocuments.pub/reader037/viewer/2022102719/56814f31550346895dbcc0d3/html5/thumbnails/4.jpg)
Ciclo de vida de los datos y detección
Chapman, A. D. 2005. Principles of Data Quality, version 1.0. Report for GBIF
![Page 5: Calidad de datos: detección y corrección](https://reader037.vdocuments.pub/reader037/viewer/2022102719/56814f31550346895dbcc0d3/html5/thumbnails/5.jpg)
Introducción de datos: interpretar, distorsionar, errar
Una base de datos debe conciliar dos requisitos en extremo irreconciliables:
1. Representar la realidad2. Que la información se encuentre, se pueda
comparar y analizar ( estandarizar y normalizar interpretar)
Estándares (o referencias) explícitos usados con consistencia
![Page 6: Calidad de datos: detección y corrección](https://reader037.vdocuments.pub/reader037/viewer/2022102719/56814f31550346895dbcc0d3/html5/thumbnails/6.jpg)
Componentes de la validación
Validación = detectar y corregir:
• Inexactitudes • Falta de datos • Potenciales errores (datos no
razonables)
La validación trata de garantizar la veracidad del registro
![Page 7: Calidad de datos: detección y corrección](https://reader037.vdocuments.pub/reader037/viewer/2022102719/56814f31550346895dbcc0d3/html5/thumbnails/7.jpg)
Captura de errores: validación y detección
• Validación: asegura que los datos se corresponden con el objeto. Incluye también el control de inexactitudes y pérdida de datos
![Page 8: Calidad de datos: detección y corrección](https://reader037.vdocuments.pub/reader037/viewer/2022102719/56814f31550346895dbcc0d3/html5/thumbnails/8.jpg)
Procedimiento
• Establecer procedimientos que no conlleven pérdida de datos• Las reglas de normalización deben
cubrir todos los casos• Los procedimientos no deben bloquear
el progreso del trabajo ante casos no contemplados o dudas
![Page 9: Calidad de datos: detección y corrección](https://reader037.vdocuments.pub/reader037/viewer/2022102719/56814f31550346895dbcc0d3/html5/thumbnails/9.jpg)
Procedimientos que permita que los errores detectados se corrijan en la base de datos
![Page 10: Calidad de datos: detección y corrección](https://reader037.vdocuments.pub/reader037/viewer/2022102719/56814f31550346895dbcc0d3/html5/thumbnails/10.jpg)
Por ejemplo:
http://data.gbif.org/occurrences/76377384/
Proporcionar al usuario la posibilidad de reportar errores o comentarios
![Page 11: Calidad de datos: detección y corrección](https://reader037.vdocuments.pub/reader037/viewer/2022102719/56814f31550346895dbcc0d3/html5/thumbnails/11.jpg)
Diseño de base de datos y gestión de errores
• Diseños normalizados de bases de datos
![Page 12: Calidad de datos: detección y corrección](https://reader037.vdocuments.pub/reader037/viewer/2022102719/56814f31550346895dbcc0d3/html5/thumbnails/12.jpg)
Diseño de base de datos y gestión de errores• Recomendación: distintos formatos de la misma información
debe calcularse de un campo a otro para su uso específico y no duplicar la información en campos paralelos
Campo UTM: 30TUF345871
Campo UTM: 30TUF38temporalcalculado
Campo UTM: 30TUF345871Campo UTM10: 30TUF38
Campo UTM: 30TUF345871Campo UTM10: 30TUF31
… Y si..
![Page 13: Calidad de datos: detección y corrección](https://reader037.vdocuments.pub/reader037/viewer/2022102719/56814f31550346895dbcc0d3/html5/thumbnails/13.jpg)
Virtualidad y realidad en las BBDD
Cuestión para debatir¿Debe el objeto reflejar toda la información acumulada a partir del el?
por ejemplo: ref. al Genbank, nombre de la camisa (Bot.) o de colección (Zool.)
![Page 14: Calidad de datos: detección y corrección](https://reader037.vdocuments.pub/reader037/viewer/2022102719/56814f31550346895dbcc0d3/html5/thumbnails/14.jpg)
Casos (1)
“Misma especie, misma localidad, al mismo sobre”
¡no hacer en casa!
![Page 15: Calidad de datos: detección y corrección](https://reader037.vdocuments.pub/reader037/viewer/2022102719/56814f31550346895dbcc0d3/html5/thumbnails/15.jpg)
Casos (2)
“Las malas identificaciones son errores que se han de corregir [i.e. eliminar]”
¡no hacer en casa!
![Page 16: Calidad de datos: detección y corrección](https://reader037.vdocuments.pub/reader037/viewer/2022102719/56814f31550346895dbcc0d3/html5/thumbnails/16.jpg)
Casos (3)
![Page 17: Calidad de datos: detección y corrección](https://reader037.vdocuments.pub/reader037/viewer/2022102719/56814f31550346895dbcc0d3/html5/thumbnails/17.jpg)
Casos (4)
![Page 18: Calidad de datos: detección y corrección](https://reader037.vdocuments.pub/reader037/viewer/2022102719/56814f31550346895dbcc0d3/html5/thumbnails/18.jpg)
Casos(3)
Herbar 3.4
Herbar 3.5
![Page 19: Calidad de datos: detección y corrección](https://reader037.vdocuments.pub/reader037/viewer/2022102719/56814f31550346895dbcc0d3/html5/thumbnails/19.jpg)
Para terminar:La casa por los cimientos: Un ejemplo de Eslovenia