hadoop 2.0 之古往今來

22
Hadoop 古往今來 陳威宇

Upload: wei-yu-chen

Post on 16-Aug-2015

198 views

Category:

Software


5 download

TRANSCRIPT

Page 1: Hadoop 2.0 之古往今來

Hadoop 古往今來

陳威宇

Page 2: Hadoop 2.0 之古往今來

Agenda

• Hadoop 的興起

– 成功案例

– 捨我其誰

– 派系爭霸

– 自我介紹

• Hadoop 的挑戰

• Hadoop 的組織再造

– 1.0 到 2.0 進擊

2

Page 3: Hadoop 2.0 之古往今來

Hadoop 興起篇

3 Figure source: https://practicalanalytics.wordpress.com/2011/11/06/explaining-hadoop-to-management-whats-the-big-data-deal/

Page 4: Hadoop 2.0 之古往今來

Hadoop 案例一

Wal-Mart分析顧客商品搜尋行為,找出超越競爭對手的商機

4

延伸閱讀:

Page 5: Hadoop 2.0 之古往今來

Hadoop 案例二

eBay用Hadoop拆解非結構性巨量資料,降低資料倉儲負載

5

延伸閱讀: Hadoop在Yahoo!的應用 Hadoop在eBay的應用 Hadoop在百度的應用 Hadoop在Facebook的應用 Hadoop平臺上的海量資料排序 http://book.51cto.com/art/201110/298604.htm

Page 6: Hadoop 2.0 之古往今來

Hadoop 案例三

Visa快速發現可疑交易,1個月分析時間縮短成13分鐘

6

Page 7: Hadoop 2.0 之古往今來

Hadoop 案例四

台積電派員赴美考取Hadoop證照,尋找影響良率的製程關鍵

7

Page 8: Hadoop 2.0 之古往今來

Big Data 改變大公司,也改變你和我

8 See : http://m.ltn.com.tw/news/life/breakingnews/1059524 See : http://tieba.baidu.com/p/3243853803

九州大學講師縄田健悟領導的研究團隊,發現一份在2004年至2005年間進行的問卷,共有1萬多名日本人和美國人參與調查,清楚記載了受試者的血型、性格描述、對事物的好惡等答題資訊。

出題方是復旦大學社會科學資料研究中心,他們在上海市範圍內找了80個社區、3311個家庭,花了半年時間入戶一對一答題。

1.男人越老越值錢? 2.另一半錢和長相都不重要? 3.教育程度接近時最和諧? 4.結婚前談個純純之愛? 5.婚前同居時間越長,對婚姻滿意度越高? 6.教育程度越高幸福感越強? 7.人生真的需要"贏在起跑線上"? 8."拼爹"才能更上層樓?

1.女大三,抱金磚! 2.生活習慣、性格和智商 3.門當戶對才登對! 4.以結婚為前提交往! 5.試婚有必要! 6.願得一學霸,白首不相離! 7.小時不了,大未必壞! 8."拼媽"更重要!

Page 9: Hadoop 2.0 之古往今來

Why ! 大資料 = Hadoop ?

• 免費 ?

• 儲存大量資料 ?

• 安全 ?

• 平行分散式 ?

• 容錯?

9

可儲存大量資料的技術很多,重點在 : 運算 運算效率的核心在於 : data locality

Figure source: https://cvw.cac.cornell.edu/MapReduce/locality

Page 10: Hadoop 2.0 之古往今來

Hadoop 的派系爭霸

• Hadoop 可比喻為 Linux kernel

– linux kernel : redhat, fedora, centos, debian, ubuntu, .. Etc

• 所以 Hadoop 也有許多的 Distribution

– Apache Community Source ( 源頭)

– Cloudera = Cloudera Distribution Hadoop

– Intel = Intel Distribution for Hadoop

– Oracle = oracle big data appliance

– Hortonworks = Hortonworks Data Platform

– Microsoft HDInsight

– MapR

10

Page 11: Hadoop 2.0 之古往今來

Hadoop 自我介紹

• Apache Hadoop software

– open-source software for reliable, scalable, distributed computing

• 主要系統:

– Hadoop Distributed File System • Self-healing high-bandwidth clustered storage

– MapReduce • Distributed fault-tolerant resource management and

scheduling coupled with a scalable data programming abstraction.

11

Page 12: Hadoop 2.0 之古往今來

Hadoop 1.X MapReduce

• 一個 Master ( jobtracker),多個 Worker (tasktracker)

• Data -> map -> (shuffle & sort ) -> reduce -> result

12 Figure source: https://www.cs.rutgers.edu/~pxk/417/notes/content/mapreduce.html

Page 13: Hadoop 2.0 之古往今來

Hadoop 1.X HDFS

• Namenode 掌管所有資料的定址空間 ( 上限管 4000 nodes; 1千萬個blocks 佔 3GB記憶體 )

13 Figure source: http://www.slideshare.net/EdurekaIN/hadoop-20-architecture-hdfs-federation-namenode-high-availability

Page 14: Hadoop 2.0 之古往今來

Hadoop 1.X 遇到的挑戰

14

我們希望 事實上

儲存篇

(

HD

FS )

• 無論大小,通通進hdfs

• 資料可以任意修改

• 生產在用,當然要 High

Availability

• 一個 namenode 管理資料的定

址空間有限

• 檔案無法再修改

• Single Point Of Failure

運算篇

(

Map

Re

du

ce) • 多種用法

• 圖形運算

• 及時運算

• 資源分配更精確更廣泛

• 只有 batch job

• 文字處理

• 每個batch job 都需讀所有的資

料、一起處理

• 只有一種用法 : Map -> Reduce

Page 15: Hadoop 2.0 之古往今來

Hadoop 組織再造篇

15 Figure source: http://www.slideshare.net/martyhall/hadoop-tutorial-mapreduce-on-yarn-part-1-overview-and-installation/

Page 16: Hadoop 2.0 之古往今來

HDFS 2.0 - HA

• HA

16

Page 17: Hadoop 2.0 之古往今來

HDFS 2.0 - Federation

• Federation

17

Page 18: Hadoop 2.0 之古往今來

MapReduce 2.0 - YARN

• Yet Another Resource Negotiator

• (JT, TT ) => (RM, NM, AM)

• 可非 MapReduce 架構 => Container

18

Page 19: Hadoop 2.0 之古往今來

Hadoop 2.0 總體檢

19

我們希望 事實上 改進

儲存篇

( H

DFS

) • 無論大小,通通進hdfs

• 資料可以任意修改

• 生產在用,當然要

High Availability

• 一個 namenode 管理資

料的定址空間有限

• 檔案無法再修改

• Single Point Of Failure

可透過 federation 延

非 2.0 改進目標

可透過 HA 機制

運算篇

(

Map

Re

du

ce)

• 多種用法

• 圖形運算

• 及時運算

• 資源分配更精確更廣

• 只有 batch job

• 文字處理

• 每個batch job 都需讀所

有的資料、一起處理

• 只有一種用法 : Map ->

Reduce

realtime, interative,..

graphing,…

IN-Memory

container

Page 20: Hadoop 2.0 之古往今來

結語

• 大資料已非僅商業獲利武器,有更多應用貼近你我的生活

• 大資料的重點非儲存,而是分析

• Hadoop 目前是大資料(batch)分析的主流,也是大資料技術的入門磚

• Hadoop 已經演進到第二代,在基礎的條件下,添加更多功能,有更多可期待性

20

Page 21: Hadoop 2.0 之古往今來

backup

Page 22: Hadoop 2.0 之古往今來

22 See : http://www.wx135.com/zh-tw/articles/20150106/54ad2050-37c8-46ac-a9ce-1c5a02734e20.html