web crawler

23
Web crawler. Cuándo, cómo y por qué

Upload: isaac-ruiz-guerra

Post on 19-Jun-2015

1.988 views

Category:

Education


0 download

DESCRIPTION

Presentación para C4XPO 2010. http://c4xpo.com/ 10:am Jueves 27 de Mayo del 2010. Queretaro, Queretaro. México TEMA: Web crawler.Cuándo, cómo y por qué.

TRANSCRIPT

Page 1: Web crawler

  

Web crawler.  Cuándo, cómo y por qué

Page 2: Web crawler

 http://www.javamexico.orghttp://www.javahispano.orghttp://www.riahispano.org

 

Page 3: Web crawler

Web crawler.Cuándo, cómo y por qué

- QuéDefinición:

A Web crawler is a computer program that browses the World Wide Web in a methodical, automated manner or in an orderly fashion. 

http://en.wikipedia.org/wiki/Web_crawler

Page 4: Web crawler

Web crawler.Cuándo, cómo y por qué

Diagrama:

http://en.wikipedia.org/wiki/File:WebCrawlerArchitecture.svg

Page 5: Web crawler

Web crawler.Cuándo, cómo y por qué

-Cuándo• RSS

Page 6: Web crawler

Web crawler.Cuándo, cómo y por qué

-Cuándo

•  PIPES (yahoo)

Page 7: Web crawler

Web crawler.Cuándo, cómo y por qué

-Cuándo

•  APIo http://www.programmableweb.com/

Page 8: Web crawler

Web crawler.Cuándo, cómo y por qué

o http://www.programmableweb.com/

Page 9: Web crawler

Web crawler.Cuándo, cómo y por qué

-Cuándo

¿Y si no hay?

Page 10: Web crawler

Web crawler.Cuándo, cómo y por qué

-Cómo

• Lenguaje de programación que permita:o  Hacer un request a una páginao  Manejar cadenas de textoo !!!Y ya¡¡¡

Page 11: Web crawler

Web crawler.Cuándo, cómo y por qué

-Cómo:

Page 12: Web crawler

Web crawler.Cuándo, cómo y por qué

-Cómo:

EJEMPLOS

Page 13: Web crawler

Web crawler.Cuándo, cómo y por qué

-Cómo:

o No decíamos que: ¿Y ya?  mmm, ok, sí... pero sólo para empezar. Aparecerán obstáculos:

Falta de seguimiento estandares CSS vs <table> Restricciones de acceso. Cambios en la estructura TAB vs BS Desaparición de páginas Censura ( aka ¡¡¡complot!!! )

Page 14: Web crawler

Web crawler.Cuándo, cómo y por qué

-Por qué

• Utilizar• Difundir• Promover• Facilitar

 

 Lo que ya existe

Page 15: Web crawler

Web crawler.Cuándo, cómo y por qué

- Por quéOPEN DATA

Apertura de datos públicos

Sun Light Foundationhttp://sunlightfoundation.com/

Open Datahttp://www.opendatacommons.org/

Open Data Euskadi.http://opendata.euskadi.net/w79-home/es

Page 16: Web crawler

Web crawler.Cuándo, cómo y por qué

- Por qué   

¡¡¡ Hay que hacer cosas YA !!!

Page 17: Web crawler

Web crawler.Cuándo, cómo y por qué

-¿Ejemplos?

• Extender funcionalidad.• Corregir funcionalidad.• Transformar la información.

Page 18: Web crawler

Web crawler.Cuándo, cómo y por qué

-¿Ejemplos concretos?

• Páginas de sus amigos.• Horarios del cine.• Horarios de camiones.• Información de su escuela.• Información de su Gobierno.• Información del "Mundo Mundial"

Máxima: 

Poner la información al alcance de todosde la manera más accesible posible.

(procurando no cometer delitos)

Page 19: Web crawler

Web crawler.Cuándo, cómo y por qué

-¿Ejemplos concretos?

EJERCICIO

Page 20: Web crawler

Web crawler.Cuándo, cómo y por qué

¿Preguntas?

Page 21: Web crawler

Web crawler.Cuándo, cómo y por qué

http://www.springio.net/

Page 22: Web crawler

Web crawler.Cuándo, cómo y por qué

Referencias:  Build a Web spider on Linuxhttp://www.ibm.com/developerworks/linux/library/l-spider/

Hack Politicshttp://vimeo.com/8446771 Introduction to Information retrieval.http://nlp.stanford.edu/IR-book/information-retrieval-book.html

Page 23: Web crawler

Web crawler.Cuándo, cómo y por qué

RuGIIsaac Ruiz Guerra

[email protected]

@rugihttp://weblogs.javahispano.org/rugi