Download - Web crawler
![Page 1: Web crawler](https://reader035.vdocuments.pub/reader035/viewer/2022081603/5583cbe8d8b42a82768b48a6/html5/thumbnails/1.jpg)
Web crawler. Cuándo, cómo y por qué
![Page 2: Web crawler](https://reader035.vdocuments.pub/reader035/viewer/2022081603/5583cbe8d8b42a82768b48a6/html5/thumbnails/2.jpg)
http://www.javamexico.orghttp://www.javahispano.orghttp://www.riahispano.org
![Page 3: Web crawler](https://reader035.vdocuments.pub/reader035/viewer/2022081603/5583cbe8d8b42a82768b48a6/html5/thumbnails/3.jpg)
Web crawler.Cuándo, cómo y por qué
- QuéDefinición:
A Web crawler is a computer program that browses the World Wide Web in a methodical, automated manner or in an orderly fashion.
http://en.wikipedia.org/wiki/Web_crawler
![Page 4: Web crawler](https://reader035.vdocuments.pub/reader035/viewer/2022081603/5583cbe8d8b42a82768b48a6/html5/thumbnails/4.jpg)
Web crawler.Cuándo, cómo y por qué
Diagrama:
http://en.wikipedia.org/wiki/File:WebCrawlerArchitecture.svg
![Page 5: Web crawler](https://reader035.vdocuments.pub/reader035/viewer/2022081603/5583cbe8d8b42a82768b48a6/html5/thumbnails/5.jpg)
Web crawler.Cuándo, cómo y por qué
-Cuándo• RSS
![Page 6: Web crawler](https://reader035.vdocuments.pub/reader035/viewer/2022081603/5583cbe8d8b42a82768b48a6/html5/thumbnails/6.jpg)
Web crawler.Cuándo, cómo y por qué
-Cuándo
• PIPES (yahoo)
![Page 7: Web crawler](https://reader035.vdocuments.pub/reader035/viewer/2022081603/5583cbe8d8b42a82768b48a6/html5/thumbnails/7.jpg)
Web crawler.Cuándo, cómo y por qué
-Cuándo
• APIo http://www.programmableweb.com/
![Page 8: Web crawler](https://reader035.vdocuments.pub/reader035/viewer/2022081603/5583cbe8d8b42a82768b48a6/html5/thumbnails/8.jpg)
Web crawler.Cuándo, cómo y por qué
o http://www.programmableweb.com/
![Page 9: Web crawler](https://reader035.vdocuments.pub/reader035/viewer/2022081603/5583cbe8d8b42a82768b48a6/html5/thumbnails/9.jpg)
Web crawler.Cuándo, cómo y por qué
-Cuándo
¿Y si no hay?
![Page 10: Web crawler](https://reader035.vdocuments.pub/reader035/viewer/2022081603/5583cbe8d8b42a82768b48a6/html5/thumbnails/10.jpg)
Web crawler.Cuándo, cómo y por qué
-Cómo
• Lenguaje de programación que permita:o Hacer un request a una páginao Manejar cadenas de textoo !!!Y ya¡¡¡
![Page 11: Web crawler](https://reader035.vdocuments.pub/reader035/viewer/2022081603/5583cbe8d8b42a82768b48a6/html5/thumbnails/11.jpg)
Web crawler.Cuándo, cómo y por qué
-Cómo:
![Page 12: Web crawler](https://reader035.vdocuments.pub/reader035/viewer/2022081603/5583cbe8d8b42a82768b48a6/html5/thumbnails/12.jpg)
Web crawler.Cuándo, cómo y por qué
-Cómo:
EJEMPLOS
![Page 13: Web crawler](https://reader035.vdocuments.pub/reader035/viewer/2022081603/5583cbe8d8b42a82768b48a6/html5/thumbnails/13.jpg)
Web crawler.Cuándo, cómo y por qué
-Cómo:
o No decíamos que: ¿Y ya? mmm, ok, sí... pero sólo para empezar. Aparecerán obstáculos:
Falta de seguimiento estandares CSS vs <table> Restricciones de acceso. Cambios en la estructura TAB vs BS Desaparición de páginas Censura ( aka ¡¡¡complot!!! )
![Page 14: Web crawler](https://reader035.vdocuments.pub/reader035/viewer/2022081603/5583cbe8d8b42a82768b48a6/html5/thumbnails/14.jpg)
Web crawler.Cuándo, cómo y por qué
-Por qué
• Utilizar• Difundir• Promover• Facilitar
Lo que ya existe
![Page 15: Web crawler](https://reader035.vdocuments.pub/reader035/viewer/2022081603/5583cbe8d8b42a82768b48a6/html5/thumbnails/15.jpg)
Web crawler.Cuándo, cómo y por qué
- Por quéOPEN DATA
Apertura de datos públicos
Sun Light Foundationhttp://sunlightfoundation.com/
Open Datahttp://www.opendatacommons.org/
Open Data Euskadi.http://opendata.euskadi.net/w79-home/es
![Page 16: Web crawler](https://reader035.vdocuments.pub/reader035/viewer/2022081603/5583cbe8d8b42a82768b48a6/html5/thumbnails/16.jpg)
Web crawler.Cuándo, cómo y por qué
- Por qué
¡¡¡ Hay que hacer cosas YA !!!
![Page 17: Web crawler](https://reader035.vdocuments.pub/reader035/viewer/2022081603/5583cbe8d8b42a82768b48a6/html5/thumbnails/17.jpg)
Web crawler.Cuándo, cómo y por qué
-¿Ejemplos?
• Extender funcionalidad.• Corregir funcionalidad.• Transformar la información.
![Page 18: Web crawler](https://reader035.vdocuments.pub/reader035/viewer/2022081603/5583cbe8d8b42a82768b48a6/html5/thumbnails/18.jpg)
Web crawler.Cuándo, cómo y por qué
-¿Ejemplos concretos?
• Páginas de sus amigos.• Horarios del cine.• Horarios de camiones.• Información de su escuela.• Información de su Gobierno.• Información del "Mundo Mundial"
Máxima:
Poner la información al alcance de todosde la manera más accesible posible.
(procurando no cometer delitos)
![Page 19: Web crawler](https://reader035.vdocuments.pub/reader035/viewer/2022081603/5583cbe8d8b42a82768b48a6/html5/thumbnails/19.jpg)
Web crawler.Cuándo, cómo y por qué
-¿Ejemplos concretos?
EJERCICIO
![Page 20: Web crawler](https://reader035.vdocuments.pub/reader035/viewer/2022081603/5583cbe8d8b42a82768b48a6/html5/thumbnails/20.jpg)
Web crawler.Cuándo, cómo y por qué
¿Preguntas?
![Page 21: Web crawler](https://reader035.vdocuments.pub/reader035/viewer/2022081603/5583cbe8d8b42a82768b48a6/html5/thumbnails/21.jpg)
Web crawler.Cuándo, cómo y por qué
http://www.springio.net/
![Page 22: Web crawler](https://reader035.vdocuments.pub/reader035/viewer/2022081603/5583cbe8d8b42a82768b48a6/html5/thumbnails/22.jpg)
Web crawler.Cuándo, cómo y por qué
Referencias: Build a Web spider on Linuxhttp://www.ibm.com/developerworks/linux/library/l-spider/
Hack Politicshttp://vimeo.com/8446771 Introduction to Information retrieval.http://nlp.stanford.edu/IR-book/information-retrieval-book.html
![Page 23: Web crawler](https://reader035.vdocuments.pub/reader035/viewer/2022081603/5583cbe8d8b42a82768b48a6/html5/thumbnails/23.jpg)
Web crawler.Cuándo, cómo y por qué
RuGIIsaac Ruiz Guerra
@rugihttp://weblogs.javahispano.org/rugi