web crawler
DESCRIPTION
Presentación para C4XPO 2010. http://c4xpo.com/ 10:am Jueves 27 de Mayo del 2010. Queretaro, Queretaro. México TEMA: Web crawler.Cuándo, cómo y por qué.TRANSCRIPT
Web crawler. Cuándo, cómo y por qué
http://www.javamexico.orghttp://www.javahispano.orghttp://www.riahispano.org
Web crawler.Cuándo, cómo y por qué
- QuéDefinición:
A Web crawler is a computer program that browses the World Wide Web in a methodical, automated manner or in an orderly fashion.
http://en.wikipedia.org/wiki/Web_crawler
Web crawler.Cuándo, cómo y por qué
Diagrama:
http://en.wikipedia.org/wiki/File:WebCrawlerArchitecture.svg
Web crawler.Cuándo, cómo y por qué
-Cuándo• RSS
Web crawler.Cuándo, cómo y por qué
-Cuándo
• PIPES (yahoo)
Web crawler.Cuándo, cómo y por qué
-Cuándo
• APIo http://www.programmableweb.com/
Web crawler.Cuándo, cómo y por qué
o http://www.programmableweb.com/
Web crawler.Cuándo, cómo y por qué
-Cuándo
¿Y si no hay?
Web crawler.Cuándo, cómo y por qué
-Cómo
• Lenguaje de programación que permita:o Hacer un request a una páginao Manejar cadenas de textoo !!!Y ya¡¡¡
Web crawler.Cuándo, cómo y por qué
-Cómo:
Web crawler.Cuándo, cómo y por qué
-Cómo:
EJEMPLOS
Web crawler.Cuándo, cómo y por qué
-Cómo:
o No decíamos que: ¿Y ya? mmm, ok, sí... pero sólo para empezar. Aparecerán obstáculos:
Falta de seguimiento estandares CSS vs <table> Restricciones de acceso. Cambios en la estructura TAB vs BS Desaparición de páginas Censura ( aka ¡¡¡complot!!! )
Web crawler.Cuándo, cómo y por qué
-Por qué
• Utilizar• Difundir• Promover• Facilitar
Lo que ya existe
Web crawler.Cuándo, cómo y por qué
- Por quéOPEN DATA
Apertura de datos públicos
Sun Light Foundationhttp://sunlightfoundation.com/
Open Datahttp://www.opendatacommons.org/
Open Data Euskadi.http://opendata.euskadi.net/w79-home/es
Web crawler.Cuándo, cómo y por qué
- Por qué
¡¡¡ Hay que hacer cosas YA !!!
Web crawler.Cuándo, cómo y por qué
-¿Ejemplos?
• Extender funcionalidad.• Corregir funcionalidad.• Transformar la información.
Web crawler.Cuándo, cómo y por qué
-¿Ejemplos concretos?
• Páginas de sus amigos.• Horarios del cine.• Horarios de camiones.• Información de su escuela.• Información de su Gobierno.• Información del "Mundo Mundial"
Máxima:
Poner la información al alcance de todosde la manera más accesible posible.
(procurando no cometer delitos)
Web crawler.Cuándo, cómo y por qué
-¿Ejemplos concretos?
EJERCICIO
Web crawler.Cuándo, cómo y por qué
¿Preguntas?
Web crawler.Cuándo, cómo y por qué
http://www.springio.net/
Web crawler.Cuándo, cómo y por qué
Referencias: Build a Web spider on Linuxhttp://www.ibm.com/developerworks/linux/library/l-spider/
Hack Politicshttp://vimeo.com/8446771 Introduction to Information retrieval.http://nlp.stanford.edu/IR-book/information-retrieval-book.html
Web crawler.Cuándo, cómo y por qué
RuGIIsaac Ruiz Guerra
@rugihttp://weblogs.javahispano.org/rugi