a falta de apis buenas son tortas. xv betabeers zaragoza
DESCRIPTION
Una introducción al web scrapingTRANSCRIPT
A falta de APIs buenas son TORTAS
!XV BetaBeers Zaragoza!
@dani_latorre!!
11/04/2014
Ego slide
• Fundador de Biera Solutions!
• Desarrollador freelance!
• Ex-socio de Jobsket!
• Open Data (DNDzgz, elDisparate.de...)
Introducción al Web Scraping
La web
• Compartir y divulgar investigaciones!
• Tim Berners-Lee y Robert Cailliau!
• HTML, HTTP, URL!
• Internet
APIs
Comunicación entre máquinas
• Web semántica!
• Microformatos!
• SOAP!
• REST!
• ...
Pero no siempre es posible...
Web Scraping
• “... es una técnica utilizada mediante programas de software para extraer información de sitios web.”!
• Ingeniería inversa!
• Controvertido
¿Qué necesitas?
• Entender HTTP y URL!
• Conocer HTML!
• Un navegador web (con buenas herramientas para devs)
Y más...
• Selectores CSS!
• XPath!
• Manejar sesiones/coockies!
• Expresiones Regulares
PACIENCIA
¿Qué lenguaje uso?• Python!
• Ruby!
• Java!
• Javascript!
• …!
• “Cualquiera”
¿Librerías?
• Gestión de peticiones (GET Y POST)!
• Parseo del HTML!
• Ambas
Por ejemplo
• Requests, OpenURI/Net::HTTP, Mechanize, Phantom, HTMLUnit, Casper, Geb, Nokogiri, BeutifulSoup, Cheerio, Scrapy, Selenium…
Veamos un ejemplo