web scraping com puppeteer - amazon s3 · 2019-06-16 · web scraping É legal ou ilegal? tem se...
TRANSCRIPT
![Page 1: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/1.jpg)
Web Scraping com Puppeteer
Consuma sites client side de forma simples
![Page 2: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/2.jpg)
Mas….
● O que é WebScraping?
● O que são sites client side?
● O que é o Puppetter?
![Page 3: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/3.jpg)
WEB SCRAPING
![Page 4: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/4.jpg)
Técnica de extração de
dados utilizada para coletar
dados de sites
![Page 5: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/5.jpg)
“É possível fazer o mesmo processo manualmente, mas
quando se fala de Web Scraping a ideia é automatizar
o trabalho.”
[Daniel Moraes]
![Page 6: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/6.jpg)
Formas de Uso
![Page 7: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/7.jpg)
![Page 8: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/8.jpg)
Ferramentas de WebScraping
![Page 9: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/9.jpg)
Nokogiri
AIOHTTP
![Page 10: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/10.jpg)
SitesClient SideSites processados apenas e diretamente pelo browser
![Page 11: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/11.jpg)
Server Side
URL é chamada Usuário clica em um link no site
axios + cheerio
Site é totalmente carregado em relação a url
![Page 12: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/12.jpg)
Client Side
URL é chamada
Site é totalmente carregado em relação a url
Usuário clica em um link
no site
Site atualiza URL
Carrega informações
![Page 13: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/13.jpg)
PUPPETEER
![Page 14: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/14.jpg)
MARIONETISTA
![Page 15: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/15.jpg)
Biblioteca de NodeJS que fornece uma API de alto nível para controlar o Chrome
ou o Chromium através do protocolo DevTools
![Page 16: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/16.jpg)
50,297
221
1,494
4,604
![Page 17: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/17.jpg)
Quem mantém o Puppeteer?
![Page 18: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/18.jpg)
Vantagens do Puppeteer
![Page 19: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/19.jpg)
Fornece uma biblioteca canônica
compacta que destaca os recursos
do protocolo DevTools
![Page 20: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/20.jpg)
Quase zero de sobrecarga de
desempenho em uma página automatizada
![Page 21: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/21.jpg)
Não requer configuração e vem junto com a versão
do Chromium com a qual ele funciona
melhor, facilitando muito o início
![Page 22: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/22.jpg)
Pode ser executado ou não no formato
headless
![Page 23: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/23.jpg)
COMO INSTALAR?
![Page 24: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/24.jpg)
COMO USAR?
![Page 25: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/25.jpg)
Uso básico
![Page 26: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/26.jpg)
Try Puppeteer
![Page 27: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/27.jpg)
LEGALIDADE DO WEB SCRAPING
![Page 28: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/28.jpg)
WEB SCRAPING É LEGAL OU ILEGAL?
● Tem se tornado uma prática maliciosa utilizada por criminosos
para roubar conteúdos protegidos e cometer fraudes;
● Muitas vezes é feito com total desconsideração das leis de
direitos autorais e dos Termos de Serviço;
● Usado para contornar medidas de segurança;
● “Não há nada que proíba uma empresa de lhe processar”;
![Page 29: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/29.jpg)
![Page 30: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/30.jpg)
FREE SOCCERAPI grátis com resultados de
competições nacionais de futebol
● 22 campeonatos
● 7 países
● 6 portais consumidos
Ferramentas:
● NodeJS
● Mongoose
● Cheerio
● Puppeteer/andrelmlins/freesoccer
![Page 31: Web Scraping com Puppeteer - Amazon S3 · 2019-06-16 · WEB SCRAPING É LEGAL OU ILEGAL? Tem se tornado uma prática maliciosa utilizada por criminosos para roubar conteúdos protegidos](https://reader034.vdocuments.pub/reader034/viewer/2022050307/5f6f97e1e5951824ba7a1e96/html5/thumbnails/31.jpg)
@andrelmlins
ANDRÉ LINS● Desenvolvedor FrontEnd ReactJS na Softplan● Graduado em Ciência da Computação pela
UFRPE● Pós-Graduando em Engenharia de Software pela
PUC Minas● Viciado em programação● Fundador do Projeto N.A.D.A.● Tentando não ser evangelista Javascript