周世恩/資料分析前的奏曲 : 談資料收集的挑戰

資料分析的前奏曲 : 談資料收集的挑戰

周世恩 @ Datasci.tw 2016/7/16

1

About Me

- 台大工程科學與海洋工程研究所碩士班畢

- 參與奈米科技、天文物理、海洋工程相關數據處理

- 前 QSearch 礦工 (資料工程師、資料分析師、資料科學家)

- 剩下個資 ...... 留給台下各位當做資料收集的練習吧

2

資料收集踩雷分享時間夠還有一些乾貨分享...

3

人力分配

技術挑戰

今日地雷分享比例

4

回顧 FAQ

對於心理學、金融、社會科學研究，當必須研究特定社會現象，

必須用「問卷」來收集資料

(1) 缺乏規模化

(2) 無法測試收集

(3) 無法確認資料是否收集完全

機密性、個資法、缺乏有經驗前輩來給予指引 ...

5

資料工程師能幫什麼忙

透過有技術能力的夥伴、員工，能更有效率地根據資料使用者的需求，操控

電腦、機器人等工具來加速資料的抓取，並再將抓取的原始資料變成

”乾淨”的資料。

6

新手轉職為資料工程師

- 寫程式的能力，著重於 I/O 處理

- 資料庫運用有操作經驗

- 能耐的性子，當程式無法運作時，展現工人智慧

- 熟悉各常見的資料格式與讀取方式

7

資料分析專案流程：

先談流程

8

資料收集 + 前處理資料分析資料應用

先談流程


Data Collection Schema Matching Record Linkage

Data Cleansing

Classification

Data Mining

NER / NLP

Reporting

Ope

ratio

n

9

今日重點

Data Collection Schema Matching

10


Record Linkage

Data Cleansing

Classification

Data Mining

NER / NLP

Reporting

Ope

ratio

n

拜科技之賜

我們擁有先進資料收集工具：


Data Cleansing

Classification

Data Mining

NER / NLP

Reporting

Ope

ratio

n

IoT Sensor Web Crawler Open Data

11

回歸問題面 - Why?

資料運用方向：

優化(節省人力物力能源 ) 尋找機會(風險控管)

提升工作效率市場調查

降低生產成本加強行銷

提昇回購率打壓競爭對手

12

我們要收集什麼資料 - What？

需要PM、銷售端、業務端等資料受惠端提供問題

並與資料工程師討論資料收集來源

13

資料工程師下重手前

1. 資料工程師必須測試資料來源穩定性

2. PM等資料需求者必須要確認資料潛在價值

彼此是否合作愉快：

1. 取決於資料工程師對PM的產業經驗的信任度

2. 以及PM對資料工程師執行力的信賴感

14

你就是那條龍。↑ 結合PM 與工程師於一身

15

以上是人的問題終於可以來到技術端...

16

今日技術重點

資料分析流程：


Data Cleansing

Classification

Data Mining

NER / NLP

Reporting

Ope

ratio

n

17

Technical Challenge

1. Challenges of basic web crawling

2. Challenges of large scale web crawling

3. Challenges of advanced web crawling

- Image/Video data crawling- Revisit policy- Collaborative crawling- Real-time crawling- Coverage estimation- Friendly crawler design

18

Foundation of Web Crawling

- 熟悉 http protocol 等基本網路知識

- 至少熟悉一程式語言

- 能實作基本 Crawler- 熟悉 <html> 格式

- 有效運用 HTML parser (必要時撰寫 regex)

- 多半 Web Crawling 的問題是...萬事起頭難

19

Challenges of Web Crawling

1. 網路問題 (IP 被封鎖、Proxy 沒開啟、Timeout)2. 對方 Server 有限制 User-Agent3. Deep web 問題 (你完全忘了需要登入才能看到)4. <html> parser 寫錯？

5. 回傳格式找不到 Repeated content6. Database 哪種適合？

- Non-relational and schema-less data model- Low latency and high performance- Highly scalable

21

只是收個資料而已...

我們有捷徑：

1. 運用 Sensor Data (各種感測器)2. 運用 API3. 一起鼓吹政府 Open Data

22

學術圈的挑戰

隨著大家胃口被越養越大，做個研究而已，

卻可能在資料採集就花上80%以上的時間，

- 要學術圈養人處理 Web Crawling 實在是太辛苦了

- 有時候也只為了一次性專案

長時間下來學術圈越來越無法負荷大量資料處理能力

23

Technical Challenge





24

Large-Scale Web Crawling

- 基本架構

- 實作細節

- 限制與開發考量

25

Large-Scale Web Crawling - 基本架構

Initial Seeds Initialize frontier

Done

frontiers

26

Large-Scale Web Crawling - 追求方向

方向

1. 提升涵蓋度

2. 提升即時性

3. 提升新鮮度

4. 提升抓取效率

務實管理要求

1. 機器數量控制

2. 網路速度(上下傳)提升

3. 內容變動程度預測

4. 錯誤處理與管理

27

Large ?

28

每日傳輸量設計考量

< 1 GB 一台機器從頭到尾完成

< 10 GB 分散式爬蟲 + 集中儲存

10 GB+ 分散式爬蟲 + 分散式儲存

Challenges of Large-Scale Web Crawling - 實作細節


Done

frontiers

- 使用 PAAS 或用 IAAS + AutoScaling 架設爬蟲叢集- 用 IAAS 雲端服務可能會出現 External IP 不足的問題 ↳ 選一台可對外連線 Instance 架設 Squid

- 其餘機器再設定 Proxy

29



Done

frontiers

- AutoScaling 與 Scheduler 有密切的關係，調整爬蟲資源。- Scheduler 主要工作:(1) 調整抓取順序 (Ordering policy)(2) 調整同步抓取數量 (Concurrent Issue)(3) 確認Instances 是否健康

30



Done

frontiers

- Scheduler 設計注意細節:(1) In-memory or Disk-based Request queue?(2) 插隊機制?(3) 有效壓縮 Queue System 資源使用量(4) 以 Hash Table 取代掉 FIFO queue (5) 重複抓取 (Duplicate Seed Filtering)

31



Done

frontiers

- Scrape 設計注意細節:(1) 建議Scheduler 與寫入資料的機器是獨立的(2) 定時重開或回收未用的資源(3) 需要裝設即時Monitoring Agent (ganglia) 資料傳輸工具建議:Apache Flume, Apache Kafka, Pub/Sub Messaging System

32



Done

frontiers

- Extract Structured Data 設計注意細節:(1) 運用現成的 Parser (xmlparser, json parser,

pyQuery, Apache Tika,...)(2) 建議在 Scheduler 端每送一 Request就夾帶一

flag，以便統計 Missing Rate. (3) 結合 Task Queue System ，當 Scheduler 比較空閒

時將新抓取 Request 加入排程中33



Done

frontiers

- Store Data 設計注意細節:(1) 設計資源統一管理的儲存系統(GFS, HDFS, ...)(2) 建議批次塞入資料來降低網路資源使用

34

海量資料處理工程師

- 熟練雲端運算服務、分散式系統建構

- 分散式資料庫運用有操作經驗

- 網路架構設計或網路性能調教

- 協調管理能力

35

Large-Scale Web Crawling - 限制與開發考量

* 網路問題

(1) 我方下載快，不代表對方上傳快

(2) 網路速度是否不穩定？

(3) 對方是否會因大量 Request 被判定為”DDOS”?(4) IP 被封鎖，如何有效率的準備 IP Pools(5) 資料傳輸成本 ?

36


* 機器管理問題

(1) 運用 Docker ?(2) 機器效能要求 ? (3) 機器資源管理 (4) Scheduler 穩定性

37


* 儲存管理問題

1. 讀寫分離

2. 批次同步

3. 常被讀取的欄位額外用一資料庫來儲存

38

DataDataData

Web Pages

Barrels Schedulerread by


* Seeds 選擇與 Infinite loop detection 問題

(1) 觀察新抓取的文章量與抓取深度的關係

(2) 運用其他公開統計來輔助

39

Technical Challenge





40

- Image/Video Data Crawling: 資料量更大、網路更吃重

- Collaborative Crawling: 多層次的資料收集

- Re-visit Policy: 維持資料新鮮度，怎麼辦?- Real-time Crawling: 維持資料即時性，又沒無限資源，怎麼辦?- Coverage Estimation: 已收集資料有多完整?- Friendly Crawler Design: 你是一個惡意的 Crawler 嗎?

The challenge of advanced web crawling

41

Image/video Crawling

考量到更龐大的網路與儲存資源需求 (圖片傳輸量約為文字~ 28倍)，資源的運用與選

擇更為重要

設計上的考量

(1) 盡可能透過現有 Text Data 來決定此 Image/Video 值得被收集

(2) 根據重要性進行排序，重要的先抓

(3) 用縮圖取代原圖

(4) 盡可能用 Push 取代 Pull (有特定目的才觸發圖片收集，例：圖片上傳)

42

Re-visit Policy

一個連結打開的內容，每次打開時內容可能有變化。為了維持自家資料庫的新鮮度，

必須再訪網頁。相關挑戰：

- 如果我收集了 2 億個網頁，每個都必須再訪更新？

- 多久要再訪一次?- 可否微量更新 (Atomic Update)？

43

Re-visit Policy - 執行方案

從空間上找變化程度

從時間上找變化程度

44

統計各網頁變化量用機器學習工具建立模型

將模型用於預測各網頁變化量

統計各網頁變化頻率用機器學習工具建立模型

將模型用於預測各網頁頻率

Re-visit policy

整合

Collaborative Crawling

原本要爬特別的主題，透視透過 URL +原文相似性探勘，來深度把特定主題的文章抓

下來。但可能這樣的探勘方式得到一堆雜訊。資料需求者增加

- Location- Browsing behaviors- ...

來提升特定主題資料的精準度

45

Collaborative Crawling - 問題面

1. 需要的部份很少很少，但為了追求精準的資料，要求很大很大。Redundant Data 很多

2. 為了加速篩選，篩選器 (Filter) 可能做在 Downloader 元件上

3. 篩選速度要快

其實很難，

最後可能回歸一家抓取團隊統籌負責，再分送給需求者。

46

Real-Time Crawling

通常在媒體、即時交易系統內特別重視。

大家可參考 Google News 的發跡原因。

網頁或目標物的點擊量、閱覽量越高，越可能是潛在 Crawling 對象

透過 URL pattern 或 Text Mining 可預測該網頁或目標物是否是即時分析需要的資

料。

47

Coverage Estimation

48

Friendly Crawler Design

1. Follow robots.txt- Allow or Unallowed? - 是否符合User-Agent 規範

2. 不要故意超過規範的流量 ( e.g., 對方誤判為DDOS )3. 要遵守 API 協定規範或 Protocol 規範

49

要當個友善爬蟲工程師

Thanks for your listening

Contact Info: [email protected]

50

Reference:

1. Pant, Gautam, Padmini Srinivasan, and Filippo Menczer. "Crawling the web." Web Dynamics. Springer Berlin Heidelberg, 2004. 153-177.

2. Ferrara, Emilio, et al. "Web data extraction, applications and techniques: a survey." Knowledge-based systems 70 (2014): 301-323.

3. “Crawling”, http://slideplayer.com/slide/7572783/

51

周世恩/資料分析前的奏曲 : 談資料收集的挑戰

Data & Analytics