雲端運算檔案系統 hdfs

15

Upload: jaunie

Post on 26-Jan-2016

124 views

Category:

Documents


4 download

DESCRIPTION

雲端運算檔案系統 HDFS. 大綱. 什麼是 HDFS ? HDFS 的架構 HDFS 的布建 HDFS 的觀察 HDFS 的瓶頸. 什麼是 HDFS ?. HDFS 全名是 Hadoop Distributed File System Hadoop 是 Apache 的一個子計畫 HDFS 是 Hadoop 的一個子計畫 其本身用 Java 語言撰寫 其程序在 Java Virtual Machine(JVM) 上運行. HDFS 的架構. HDFS Process. 軟體架構. HDFS Program. Namenode - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 雲端運算檔案系統 HDFS
Page 2: 雲端運算檔案系統 HDFS

什麼是 HDFS ? HDFS 的架構 HDFS 的布建 HDFS 的觀察 HDFS 的瓶頸

Page 3: 雲端運算檔案系統 HDFS

HDFS 全名是 Hadoop Distributed File System Hadoop 是 Apache 的一個子計畫 HDFS 是 Hadoop 的一個子計畫 其本身用 Java 語言撰寫 其程序在 Java Virtual Machine(JVM) 上運行

Page 4: 雲端運算檔案系統 HDFS

軟體架構HDFSProgram

HDFSProcess

Page 5: 雲端運算檔案系統 HDFS

Namenode • 負責處理來自 client 端的檔案存取要求• 負責儲存整個 HDFS 中各檔案之 metadata

Secondary Namenode • 協助 Namenode 整併並跟新當中的 metadata• 當 Namenode 掛點時,可手動令其做 Namenode 用

Datanode • 為 data 本身存放之處• 聽取 Namenode 的安排,然後讓 client 存取檔案

Page 6: 雲端運算檔案系統 HDFS

硬體架構

Page 7: 雲端運算檔案系統 HDFS

安裝 Java JDK 下載 hdfs 軟體包並解壓縮• wget

http://ftp.twaren.net/Unix/Web/apache/hadoop/core/hadoop-0.20.1/hadoop-0.20.1.tar.gz

• tar –xvzf hadoop-0.20.1.tar.gz 編輯 namenode 、各 secondary namenode 及

各 datanode 的 /etc/hosts 檔,已令彼此皆有系統中其他主機的 IP 、 domain name 及 hostname對照

設定 conf 資料夾底下 core-site.xml 、 hdfs-site.xml 、 mapred-site.xml 、 masters 、 slaves 及 hadoop-env.sh六個檔案

Page 8: 雲端運算檔案系統 HDFS

masters: 依據 /etc/hosts 填寫各個 secondary namenode 的 hostname 或 IP 或 domain name

slaves: 依據 /etc/hosts 填寫各個 datanode 的hostname 或 IP 或 domain name

hadoop-env.sh: 啟動整個 hdfs 系統所需要讀入或輸出的參數設定

core-site.xml

Page 9: 雲端運算檔案系統 HDFS

hd

fs-site.x

ml

Page 10: 雲端運算檔案系統 HDFS

mapred-site.xml

Page 11: 雲端運算檔案系統 HDFS

在 namenode 產生 ssh 的 rsa 公鑰,然後利用scp 將這把公鑰分享給系統中其他結點,使彼此皆能在不用使用者手動輸入密碼的情況下相互登入做存取操作

在 namenode 利用 scp 將做完設定的軟體資料夾發布給系統中每個結點

在 namenode 下達 hadoop namenode –format 指令將整個 HDFS 格式化 ( 僅用在啟用一個全新的 HDFS)

Page 12: 雲端運算檔案系統 HDFS

執行 start-all.sh

Namenode

SecondaryNamenode

Datanodes

NameNode

SecondaryNameNode

JobTracker

TaskTrackerDataNode

RPC

Page 13: 雲端運算檔案系統 HDFS

整個 hdfs 是否有成功運行起來?• 可用 jps 指令觀察在 JVM 上有哪些程序運行

Page 14: 雲端運算檔案系統 HDFS

• 在瀏覽器上輸入 http://namenode IP:50070

Page 15: 雲端運算檔案系統 HDFS

Namenode fail over 沒有自動化• Solution Hint: daemon

當 Namenode 要服務大量 client 時,可能會令服務品質降低• Solution Hint: multipule namenode? There’s no

solution so far…