...Preparación de datos para su análisis
David Cabo @dcabo
CC BY-NC-SA
Open data / datos abiertos
- disponible online, gratuita - procesable por ordenadores- licencia abierta, reutilizable
http://datos.fundacionctic.org/sandbox/catalog/faceted/
Generadoelectrónicamente
(buscable)
Imagenescaneada
Tablas Formato complejo
Generadoelectrónicamente
(buscable)
Imagenescaneada
Formato complejoTablas
Tablas
1. Copiar y pegar a Excel no funciona bien
2. Programas de pago: deskUNPDF, Nitro, Acrobat Pro...
3. Servicios web gratuitos:
• cometdocs.com
• pdftoexcelonline.com
• zamzar.com
Tablas
Generadoelectrónicamente
(buscable)
Imagenescaneada
Formato complejo
Formatos complejos
• Columnas, datos partidos en varias lineas, datos intercalados entre el texto...
• Las herramientas automáticas no suelen ser capaces de extraer la información
• Es necesario:
• extraer el texto del PDF (xpdf / poppler)
• y crear un programa específico (Ruby, Python, Perl... + expresiones regulares)
Tablas
Generadoelectrónicamente
(buscable)
Formato complejo
Imagenescaneada
Imágenes
• El texto original no está disponible: no podemos buscar en él, ni copiarlo
• Software para reconocer carácteres (OCR)
• La fiabilidad depende de la calidad de la entrada (limpieza, resolución, tipo de letra)
• Bastante trabajo:
• Hay que revisar el resultado
• Difícil de automatizar para muchos ficheros
OCROpen Source
• Tesseract + OCROpus
• Usado por Google
• No es fácil de instalar y utilizar
Comerciales
• AbbyyReader
• Adobe Acrobat Pro
• Solid
• Google Docs (gratis)
https://addons.mozilla.org/en-US/firefox/addon/dafizilla-table2clipboard/
https://support.google.com/docs/bin/answer.py?hl=en&answer=155182
https://scraperwiki.com/
http://open.dapper.net/
https://ws037.juntadeandalucia.es/riibp/inicio.do
http://trabajanparati.es
http://www.propublica.org/nerds/item/doc-dollars-guides-collecting-the-data
Ruby, Google Refine, Firebug, Nokogiri, Tesseract
¿Preguntas?
David Cabo (@dcabo)