爬取你要的数据：爬虫技术 -...

1.2.2.1

1.4.1.1

1.4.1.2

⽬录

前⾔

爬⾍简介

爬⾍的叫法

为何叫爬⾍

为何⼜叫模拟登陆

与爬⾍相关的东⻄

爬⾍的核⼼逻辑

爬⾍的核⼼流程

爬⾍的核⼼步骤

爬⾍的典型实现⽅式

抓包分析

抓包分析⽹⻚

静态⽹⻚

动态⽹⻚

抓包分析app

爬⾍框架

为何需要爬⾍框架

常⻅爬⾍框架

如何写爬⾍

⽤Python写爬⾍

⽤C#写爬⾍

⽤Go写爬⾍

⽤Java写爬⾍

⽤PHP写爬⾍

附录

名词解释

参考资料

爬取你要的数据：爬⾍技术

最新版本：v2.2

更新时间：20190530

鸣谢

感谢我的⽼婆陈雪雪的包容理解和悉⼼照料，才使得我crifan有更多精⼒去专注技术专研和整理归纳出这些电⼦书和

技术教程，特此鸣谢。

简介

整理爬⾍技术的各种叫法，解释为何叫做爬⾍，为何⼜被叫做模拟登陆，与爬⾍有关的⼀些东⻄，总结爬⾍的核⼼步骤

和阶段，以及每⼀步的各种细节包括优缺点和其他涉及的内容，继续解释为何要⽤爬⾍框架，总结常⻅语⾔的各种爬⾍

框架，总结实现爬⾍的不同⽅式和爬⾍的不同步骤之间的对应关系，⽤不同语⾔如何写爬⾍，总结爬⾍相关名词和概

念。

源码+浏览+下载

本书的各种源码、在线浏览地址、多种格式⽂件下载如下：

Gitbook源码

crifan/crawl_your_data_spider_technology:爬取你要的数据：爬⾍技术

如何使⽤此Gitbook源码去⽣成发布为电⼦书

详⻅：crifan/gitbook_template:demohowtousecrifangitbooktemplateanddemo

在线浏览

爬取你要的数据：爬⾍技术book.crifan.com爬取你要的数据：爬⾍技术crifan.github.io

离线下载阅读

爬取你要的数据：爬⾍技术PDF爬取你要的数据：爬⾍技术ePub爬取你要的数据：爬⾍技术Mobi

版权说明

此电⼦书教程的全部内容，如⽆特别说明，均为本⼈原创和整理。其中部分内容参考⾃⽹络，均已备注了出处。如有发

现侵犯您版权，请通过邮箱联系我admin艾特crifan.com，我会尽快删除。谢谢合作。

crifan.com，使⽤署名4.0国际(CCBY4.0)协议发布allrightreserved，poweredbyGitbook最后更新：2019-07-1621:48:28

前⾔

爬⾍简介

爬⾍，此处主要指的是，能够从⽹站的⻚⾯或app等数据源中爬取到你所需要的数据的代码程序。

爬⾍简介

爬⾍的叫法

爬⾍有很多种常⻅的叫法，整理如下：

爬⾍

常⻅英⽂说法：

crawler=爬取数据的⼯具

crawl英⽂原意：爬，爬⾏

spider=蜘蛛=像蜘蛛捕获昆⾍⼀样你去捕获你要的数据

spider英⽂原意：蜘蛛

为何把爬取数据的⼯具叫做蜘蛛，后续有类⽐解释

scraper=刮取到你想要的数据的⼯具

scrape英⽂原意：刮取

grab=抓取你要的数据的⼯具

grab英⽂原意：攫取，夺取

爬取数据

crawldata=crawlingdata

scrapingdata

grabbingdata

爬取⽹站=爬取⽹⻚

crawlwebsite

模拟登录

emulatelogin

loginemulation

⾄于为何也会被叫做模拟登录，后⾯会解释

爬⾍的叫法

为何叫爬⾍

下⾯解释⼀下，为何被叫做爬⾍：

现实世界的蜘蛛⽹

蜘蛛=۔织⽹

捕获⾃⼰要的东⻄

⻝物=昆⾍

计算机世界的互联⽹

你⾃⼰

写爬⾍（代码）

crawler=spider

爬取⾃⼰想要的数据

并且保存下来

说明：

互联⽹：是⼀个包含众多资源的⼤⽹络

狭义上说，主要指的是：

各种⽹站=⽹⻚

⾥⾯有各种（我们想要爬取的）数据

⽐如想要爬取汽⻋的⻋型⻋系，可以从汽⻋之家等⽹站爬取

⼴义上说包含：

（上⾯提到的）各种⽹站=⽹⻚

各种app

包括各种Android和iOS中的app软件

⽐如想要爬取别⼈的app中的⼀些数据

⽐如爬取⼤众点评app中的商家和⽤户评论数据

各种其他渠道、终端的数据和资源

微信公众号

理论上也是属于⽹⻚

⼩程序

微信⼩程序

⽀付宝⼩程序

等等

为何叫爬⾍

那爬⾍为何也会被叫做模拟登录呢？

对于这种情况：想要爬取很多⽹站上的数据，需要⽤户（使⽤账号和密码等⽅式）去登录后才能获取到

所以要先去模拟（⽤户）登录，然后才能爬取数据

⽽模拟登录的过程，有时候或者经常，⽐后续的爬取数据更难，更复杂

所以此时的爬取全称是先要模拟⽤户登录后再去爬取数据

也就常简称为模拟登陆

⽤模拟登陆指代爬⾍

⾃动登录=签到脚本

对于需要⽤户登录的⽹站或系统，如果⽤爬⾍能够成功模拟登录的话，则往往就可以实现，其他⼀些⼈所需要的功能：

⽤来⾃动登录系统-》叫做⾃动登录

⽤途有很多

⽐如

每天⽤来签到-》爬⾍签到=爬⾍签到脚本

⽐如

有⼈弄过百度贴吧的签到脚本

⾃制BILIBILI弹幕爬取，签到，抢楼等爬⾍

有⼈⽤来⽤爬⾍在各⼤机场⾃动签到获取流量

每天理财⽹站登陆签到获取积分

浦发信⽤卡⾃动签到

总之还是那句话

可以⽤爬⾍来⼲什么

取决于你的想象：你想⽤来⼲什么

和你⾃⼰的技术⽔平：你⾃⼰能不能搞定，能不能实现

模拟⽤户发布内容

就变成了

⾃动发帖（脚本）

⾃动回复（脚本）

模拟浏览器操作

既然爬⾍可以爬取⽹⻚，那么理论上就⽀持，⽤来模拟⽤户去点击⽹⻚，去实现模拟⽤户的操作，⽤爬⾍，也叫做⾃动

化脚本，去模拟浏览器的各种操作。

⽽对于模拟浏览器操作⽅⾯，和爬⾍关系很密切，不过⼜属于不同的领域。

模拟浏览器=WebBrowserAutomation，这个领域，⼜有很多不同的框架，⼯具，和技术。

⽐如：

SeleniumSelenium知识总结

⽆头浏览器=HeadlessBrowser：

含义：没有头的，没有界⾯的浏览器（内核）

-》因为写代码控制和操作浏览器时，往往不需要（像普通⽤户⽤浏览器看⽹⻚时那样）看界⾯

-》专⻔⽤于模拟浏览器⾏为，⽤于模拟浏览器，提供接⼝供你操作浏览器

常⻅⼯具

Phantomjs

此处解释爬⾍的最核⼼的逻辑和原理，主要包含：

先要抓包分析

再去写爬⾍代码

爬⾍的核⼼步骤=核⼼功能：写爬⾍之前，要搞懂爬⾍主要做了哪些事情

下载

提取

保存

爬⾍的典型实现⽅式：然后再去搞懂有哪些⽅式去实现你的爬⾍

裸写代码

⽤库写

⽤框架写

再去搞懂：

为何要⽤框架

以及有哪些语⾔的哪些爬⾍框架

然后才是选⽤合适的语⾔的合适的爬⾍框架，去基于框架写爬⾍代码

下⾯详细解释。

如前⾯所说，爬⾍的最核⼼的流程，其实就是2个阶段：

先要抓包分析

搞清楚，⽹站中有哪些url⽹址的⽹⻚需要去抓取，app中有哪些⻚⾯背后对应着哪些api接⼝需要去抓取

以及每个url或api中，Request中都需要传递哪些参数，⽐如GET请求有哪些queryparameter，POST有哪些

Body的Json参数

才能返回正确的，期望的Response，才能获取到⾃⼰要的数据

如此，搞懂要抓取哪些数据，⽤什么逻辑才能获取到这些数据，是写代码真正实现这些逻辑，获取到真正的数

据的前提和基础

再去写爬⾍代码

然后才能根据前⾯已经搞懂的从⽆到有如何抓取到你要的数据的逻辑

选择合适的⽅式，是裸写代码，还是⽤库实现，还是⽤爬⾍框架

去根据对应情况，写代码去下载⻚⾯或数据，再去裸写代码找合适的库实现规则去提取要的数据，最终保存数

下⾯接着去详细解释，如何抓包分析，以及如何写爬⾍代码。

接下来介绍爬⾍的原理、过程和步骤，以及相关涉及到的知识。

从原理上来说，写爬⾍去爬数据的过程，最核⼼的就这3步：

下载=download

提取=extract

保存=save

下⾯详细解释每⼀步的各种细节：

下载=下载⽹⻚

做了什么：请求⽹址或api接⼝，去下载返回

得到什么：html⽹⻚或json字符串

涉及到

（尤其是新⼿需要学习）Http基本知识

Request

Method

Header

User-Agent

Content-Type

Accept

Authorization

Cookie

Response

StatusCode

Header

Cookie

主流数据格式：JSON教程：HTTP知识总结

如果被爬⽅（⽹站，app等）

需要⽤户登录后才能看到数据

⽤技术绕过限制

模拟登陆

先要抓包分析出登录逻辑

再⽤代码模拟⽤户登录

做了⼀些反爬措施

验证码

验证码识别

（⽤第三⽅）打码平台

IP限制+抓取频率限制

IP代理池

设置抓取的间隔时间

身份限制

Http的HeadersUA=User-Agent

被爬⽹站所含⻚⾯层级很多

抓取策略

深度优先遍历策略

宽度优先遍历策略

反向链接数策略

PartialPageRank策略

OPIC策略策略

⼤站优先策略

提取数据

做了什么：从（返回的）⽹⻚（的html，js等）或json中提取

得到什么：⾃⼰需要的内容

涉及到

字符编码的问题

如果搞不清编码，就容易出现各种乱码问题

需要学习相关编码知识

【整理Book】字符编码详解与应⽤

【整理Book】Python⼼得：字符串和字符编码

html的metacharset

编码检测

Python

chardet

如果被爬⽅做了反爬

数据加密

⽤技术绕过

找到解密的逻辑和⽅法

【整理Book】安卓应⽤的安全和破解

【已解决】尝试破解⼩花⽣app安卓apk希望看到api返回的json中的J的解密算法得

到明⽂

保存数据

做了什么：把数据保存到对应的地⽅

得到什么：包含了我们要的特定格式的数据的⽂件或数据库

保存成不同格式：

⽂件

csv/excelPython⼼得：操作CSV和Excel

数据库

主流关系数据库：MySQLmongodb

主流⽂档型数据库：MongoDBsqlite

等等

实现爬⾍的⽅式有很多，根据复杂度，可以分成典型的3种⽅式：

裸写爬⾍代码

解释：在⾃⼰了解HTTP、爬⾍等相关背景知识的前提下，⽤相对⽐较原始的⽅式，⽤内置库实现爬⾍全部功

优点：更贴近和了解底层技术

缺点：要求熟悉底层技术，相对⽤已有的库，写起来⽐较复杂

⽤第三⽅库写爬⾍代码

解释：⽤第三⽅的、更强⼤、更好⽤，⽹络库下载内容，内容提取库提取数据

优点：省⼼，⾼效

缺点：

要额外引⼊库，且要了解如何使⽤

对于新⼿，往往是直接⽤了第三⽅库后，不了解内部机制

⽤爬⾍框架

⽤成熟的也更复杂和强⼤的爬⾍框架，让框架帮你做重复⼯作，⾃⼰只需学核⼼的爬⾍逻辑即可爬取到数据

优点：适合更复杂的爬⾍任务，充分利⽤框架的任务调度，url去重等等⾼级功能

缺点：

很多适合杀鸡⽤⽜⼑，⽐较重，不够轻量级

出了问题，需要熟悉内部机制才容易解决问题

下⾯详细解释，对于爬⾍的核⼼步骤中，不同实现⽅式的优缺点和所涉及内容：

下载

裸写爬⾍代码

举例

Python的urllib

C#的HttpWebRequest+HttpWebResponsecrifanLib.cs之Http

举例

Python

requests

提取

提取数据的⽅式：

从json中提取想要的内容

⽤json库，把json字符串转换为json对象（dict，字典）即可

⽆需（html）解析相关的库

常⻅的库

Python

Newtonsoft.Json

JavaScriptSerializer

从html，js等内容中提取想要的内容

裸写爬⾍代码

正则

【整理Book】应⽤⼴泛的超强搜索：正则表达式

Python

re模块

Python中的正则表达式：re模块详解

XPath知识总结

Python

【记录】Python中尝试⽤lxml去解析html–在路上

BeautifulSoup

【整理Book】⽹⻚内容提取利器：BeautifulSoupPyQuery

【整理Book】Python⼼得：HTML解析PyQuerypython-goose等

HTML解析

HtmlAgilityPack

保存

裸写爬⾍代码

⾃⼰写代码保存到对应⽂件或数据库中

⽤库写爬⾍代码

⽤库去将数据保存到⽂件或数据库中

⽤爬⾍框架

框架内置接⼝

PySpider⽤内置接⼝，⾃动保存数据到对应数据库中

不同实现⽅式和爬⾍不同步骤的对应关系

下⾯以Python语⾔为例，来解释不⽤爬⾍的实现⽅式和不同步骤之间的对应关系：

下载（⽹⻚）提取（内容）保存（数据）

⾃⼰裸写Python代码

urllib re txt/csv

⽤各种Python库组合

requests BeautifulSoup/lxml csv/pymysql

⽤框架PySpiderrequests(PySpider的self.crawl)

(PySpider内置的)PyQuery

(PySpider内置)各种数据

库(接⼝）

抓包分析

抓包=抓包分析

什么是抓包

不论⽤哪种⽅式去写爬⾍代码，对于下载来说，具体要请求⽹站url是什么，调⽤什么api接⼝，传递什么参数，以

及获取到数据后，⽤什么规则提取出需要的数据等等内容，都需要事先去分析和研究清楚，这个抓取⽹络请求的数据包

的过程，⼀般叫做：抓包

即：

下载

需要访问的⽹⻚url地址或api接⼝是什么

以及传递什么参数

提取

对于返回数据，需要抓取具体哪⼀部分

对应的数据的提取规则是什么

提示：

虽然对于爬⾍的核⼼流程是先要抓包分析搞清楚逻辑，然后才能去写爬⾍代码，不过实际上很多时候，是边分析，边写

代码的。

尤其是对于⼀些复杂的⽹站或app来说，往往是分析的同时，也要写⼀些代码去验证和测试抓取的逻辑是否⾏得通的。

总之，对于爬⾍的流程：

逻辑上是：先抓包分析，再写爬⾍代码

实际上（往往）是：边抓包分析，边写代码

抓包的难度

普通⽹⻚：抓包分析，⼀般⽐较简单

复杂⽹站：对于需要登录才能获取到数据，且加了验证码等做了其他反爬措施和⼿段的⽹站和app，抓包分析起

来，⼀般都很复杂

复杂⽹站的抓包分析和破解，往往⽐（之后的，单纯的）写爬⾍去下载+提取+保存，要难多了

抓包常⽤⼯具

我们要写爬⾍去爬取的数据，从数据源的形态分，⼤概分两类：

⽹站=⽹⻚=⽹站中的各种⽹⻚

app=app中内部发出的请求设计的api接⼝

根据要抓取的数据的源不同，常⽤的⼀些辅助分析⼯具有：

⽹站抓包分析

Chrome的开发者⼯具

快捷键：

抓包分析

Windows:Ctrl+Shift+IMac:Command+Option+I

如何使⽤

官⽹资料：Chrome开发者⼯具

IE的F12

如何使⽤

【整理】各种浏览器中的开发⼈员⼯具DeveloperTools：IE9的F12，Chrome的Ctrl+Shift+J，Firefox的Firebug【总结】浏览器中的开发⼈员⼯具（IE9的F12和Chrome的Ctrl+Shift+I）-⽹⻚分析的利器

【教程】如何利⽤IE9的F12去分析⽹站登陆过程中的复杂的（参数，cookie等）值（的来源）

【教程】⼿把⼿教你如何利⽤⼯具(IE9的F12)去分析模拟登陆⽹站(百度⾸⻚)的内部逻辑过程

Firefox的firebug

app抓包分析

Charles

app抓包利器：Charles通⽤⼯具

Wireshark

Postman

⽤于对于api去设置参数并发送请求测试是否能获取数据

Fiddler

HttpWatcher

具体怎么抓包

先要搞清楚⾃⼰想要抓取什么数据，然后再去⽤⼯具辅助分析出⽹⻚或app等数据源中，如何⼀步步的获取对应数据，

找到期间所要依次访问哪些url或api，传递什么参数，最终获取到所要的数据。

下⾯就来⽤实际例⼦来说明如何抓包。

抓包分析

抓包分析⽹⻚

对于如何抓包分析⽹站⽹⻚类的内容，下⾯⽤具体例⼦来详细解释。

抓包分析⽹⻚

静态⽹⻚

以抓取汽⻋之家中⻋型⻋型数据为例解释如何抓包

下⾯就以，想要抓取汽⻋之家⽹站中的⻋型⻋系数据为例，来解释，如何⽤抓包⼯具辅助分析，依次访问哪些⻚⾯，之

后如何提取，才能得到我们要的数据。

TODO：

⽤Chrome浏览器分析过程，并截图，添加解释。

静态⽹⻚

动态⽹⻚

爬取你要的数据：爬虫技术 -...

Documents

有你我生命不一樣，有你我生命再燃亮，...

pet trade 爬虫類 march 2018 日本における爬虫...

a 国内新闻数据显示网络作家过半90后 ·...

你出你入，耶和華要保護你 -...

lesson 1 hsk standard course 1 · 2019-08-17 · lesson 1...

华艺台湾学术文献数据库 -...

學校通訊2014/01/25 ·...

数据治理与网络安全 · 2018-02-11 · tydb...

2014/01/19 你，不只是你

2050 年，当你老了：中国人口大数据 -...

adwords academy 大数据...

2014中华数据库与运维安全大会 -...

yaowen8900@sina.cn...

省 - ceps.ruc.edu.cn ·...

我们的互动方式 lsdaily@sina.com http...

人教版三上语文《爬天都峰》教学

1 （ 2009· 山东）...

你的心愿我们帮你实现 -...

03. 爬蟲動物的迷思摺頁

當你得知你快要離開這個世界時，...