使用 ubuntu 架設 hadoop 分散式檔案雲端運算系統

22
班班 : 班班班班 班班 : 班班班 班班 :MA0G0109 使使 Ubuntu 使使 Hadoop 使使使使使使使使 使使使

Upload: althea-kelly

Post on 01-Jan-2016

223 views

Category:

Documents


0 download

DESCRIPTION

使用 Ubuntu 架設 Hadoop 分散式檔案雲端運算系統. 班級 : 碩研資工一甲 姓名 : 葉瑞群 學號 :MA0G0109. Outline. 一 .Hadoop 簡介 二 .Hadoop 架設環境 三 .Hadoop 架設過程 (1)- 基礎設定 四 .Hadoop 架設過程 (2)- 進階設定 五 .Hadoop 架設過程 (3)- 大量架設 六 . 啟動 Hadoop 系統. 一 .Hadoop 簡介. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 使用 Ubuntu 架設 Hadoop 分散式檔案雲端運算系統

班級 : 碩研資工一甲 姓名 : 葉瑞群 學號 :MA0G0109

使用 Ubuntu 架設 Hadoop 分散式檔案雲端運算系統

Page 2: 使用 Ubuntu 架設 Hadoop 分散式檔案雲端運算系統

Outline一 .Hadoop 簡介二 .Hadoop 架設環境三 .Hadoop 架設過程 (1)- 基礎設定四 .Hadoop 架設過程 (2)- 進階設定五 .Hadoop 架設過程 (3)- 大量架設六 . 啟動 Hadoop 系統

2

Page 3: 使用 Ubuntu 架設 Hadoop 分散式檔案雲端運算系統

一 .Hadoop 簡介Hadoop 是 Apache 軟體基金會所研發的開放源

碼平行運算編程工具和分散式檔案系統,與MapReduce 和 Google 檔案系統的概念類似。

Hadoop 包含兩大部分 1.HDFS(Hadoop Distributed File System)2.MapReduce 。

1.HDFS: 分散式檔案系統。2.MapReduce 分散式資料處理模式及執行環境。

3

Page 4: 使用 Ubuntu 架設 Hadoop 分散式檔案雲端運算系統

二 .Hadoop 架設環境

4

必要軟體1.Linux Ubuntu 10.04( 四台電腦環境 )2.Hadoop-0.20.2.tar.gz3.Java jdk-6u29-linux-i586.bin

IP 設定四台電腦都必須設定一組對外 IP ,然後對內架設一個區域網路 (LAN) , 192.168.0.100~103 。

Page 5: 使用 Ubuntu 架設 Hadoop 分散式檔案雲端運算系統

三 . 架設過程 (1)- 基礎設定

5

1. 安裝 Linux Ubuntu 10.042. 安裝其它必要軟體 2-1:$sudo apt-get install sun-java6-jdk 2-2:$sudo apt-get install sun-java6-plugin 2-3:$sudo apt-get install ssh 2-4:$sudo apt-get install openssh-server 2-5:$sudo apt-get install rsync 2-6:$sudo apt-get install vim

Page 6: 使用 Ubuntu 架設 Hadoop 分散式檔案雲端運算系統

三 . 架設過程 (1)- 基礎設定

6

3. 編輯主機設定檔 3-1:$sudo vim /etc/hosts 3-2:127.0.0.1 localhost 192.168.0.100 hdp0 192.168.0.101 hdp1 192.168.0.102 hdp2 192.168.0.103 hdp3

Page 7: 使用 Ubuntu 架設 Hadoop 分散式檔案雲端運算系統

三 . 架設過程 (1)- 基礎設定

7

4. 四台機器要互相 ping 的到5. 建立 SSH 安全免密碼登入 5-1:$ssh-keygen -t rsa -P "" 5-2:$cd /home/hadoop/.ssh 5-3:$cat id_rsa.pub >>

~/.ssh/authorized_keys 5-4:$ssh hdp0( 如果可以不用輸入密碼及代表成

功 ) 5-5:$exit

P.S 以上第 (1) 部分只需針對第一台電腦執行即可。

Page 8: 使用 Ubuntu 架設 Hadoop 分散式檔案雲端運算系統

四 . 架設過程 (2)- 進階設定

8

6. 從 hdp0 複製金鑰給其他電腦 (hdp0) 6-1:$scp ~/.ssh/authorized_keys hdp1:~/.ssh/authorized_keys 6-2:$scp ~/.ssh/authorized_keys hdp2:~/.ssh/authorized_keys 6-3:$scp ~/.ssh/authorized_keys hdp3:~/.ssh/authorized_keys

Page 9: 使用 Ubuntu 架設 Hadoop 分散式檔案雲端運算系統

四 . 架設過程 (2)- 進階設定

9

測試 : 6-4:$ssh hdp1( 免密碼登入 ) 6-5:$ssh hdp2( 免密碼登入 ) 6-6:$ssh hdp3( 免密碼登入 )

如果能夠從第一台電腦使用 ssh 指令登入其他電腦即代表成功。

Page 10: 使用 Ubuntu 架設 Hadoop 分散式檔案雲端運算系統

四 . 架設過程 (2)- 進階設定

10

7. 安裝 Hadoop(hadoop-0.20.2.tar.gz)

7-1: 去 http://apache.cdpa.nsysu.edu.tw//hadoop/common/hadoop-0.20.2/ 下載 Hadoop

7-2:$cp /home/hadoop/download/hadoop-0.20.2.tar.gz /home/hadoop( 複製 )

7-3:$tar zxvf hadoop-0.20.2.tar.gz( 解壓縮 )

Page 11: 使用 Ubuntu 架設 Hadoop 分散式檔案雲端運算系統

四 . 架設過程 (2)- 進階設定

11

8. 雲端系統設定 8-1:$cd ~/hadoop-0.20.2/conf 8-2:$vim masters 8-3:hdp0 8-4:$vim slaves( 編輯此文件為下面格式 ) 8-5:hdp0 hdp1 hdp2 hdp3

Page 12: 使用 Ubuntu 架設 Hadoop 分散式檔案雲端運算系統

四 . 架設過程 (2)- 進階設定

12

9. 安裝 java jdk 到 /home/hadoop 下9-1:http://www.oracle.com/technetwork/

java/javase/downloads/jdk-6u29-download-513648.html

下載 Java SE 6 Update 29 的 JDK 9-2:$cp jdk-6u29-linux-i586.bin

/home/hadoop( 複製 ) 9-3:$chmod +x jdk-6u29-linux-i586.bin( 增加

執行權限 ) 9-4:$./jdk-6u29-linux-i586.bin( 開始安裝 )

Page 13: 使用 Ubuntu 架設 Hadoop 分散式檔案雲端運算系統

四 . 架設過程 (2)- 進階設定

13

10. 設定環境雲端變數 10-1:$cd ~/hadoop-0.20.2/conf 10-2:$vim hadoop-env.sh 10-3: 增加 export

JAVA_HOME=/home/hadoop/jdk1.6.0_29 expoer

HADOOP_HOME=/home/hadoop/hadoop-0.20.2

Page 14: 使用 Ubuntu 架設 Hadoop 分散式檔案雲端運算系統

四 . 架設過程 (2)- 進階設定

14

11. 設定 core-site.xml 檔 - 雲端系統設定檔 11-1:$cd ~/hadoop-0.20.2/conf 11-2:$vim core-site.xml 11-3:<configuration> <property> <name>fs.default.name</name> <value>hdfs://hdp0:9000</value> </property> </configuration>

Page 15: 使用 Ubuntu 架設 Hadoop 分散式檔案雲端運算系統

四 . 架設過程 (2)- 進階設定

15

12. 設定 hdfs-site.xml- 分散式檔案系統設定檔 12-1:$cd ~/hadoop-0.20.2/conf 12-2:$vim hdfs-site.xml 12-3:<configuration> <property> <name>dfs.name.dir</name>

<value>/home/hadoop/dfs/name</value> </property>

Page 16: 使用 Ubuntu 架設 Hadoop 分散式檔案雲端運算系統

四 . 架設過程 (2)- 進階設定

16

<property> <name>dfs.data.dir</name> <value>/home/hadoop/dfs/data</value> </property>

<property> <name>dfs.replication</name> <value>1</value> </property> </configuration>

Page 17: 使用 Ubuntu 架設 Hadoop 分散式檔案雲端運算系統

四 . 架設過程 (2)- 進階設定

17

13. 設定 mapred-site.xml-Map/Reduce 設定檔 13-1:$cd ~/hadoop-0.20.2/conf 13-2:$vim mapred-site.xml 13-3:<configuration> <property> <name>mapred.job.tracker</name> <value>hdp0:9001</value> </property> </configuration>

Page 18: 使用 Ubuntu 架設 Hadoop 分散式檔案雲端運算系統

四 . 架設過程 (2)- 進階設定

18

14. 建立 HDFS 紀錄檔案存放位置 14-1:mkdir -p /home/hadoop/dfs/name 14-2:mkdir -p /home/hadoop/dfs/data

P.S 以上第 (2) 部分只需針對第一台電腦執行即可。

Page 19: 使用 Ubuntu 架設 Hadoop 分散式檔案雲端運算系統

五 . 架設過程 (3)- 大量架設

19

15. 複製 hdp0 的 hadoop-0.20.2 及 jdk1.6.0.29 資料夾以加速雲端建設

15-1:$scp -r /home/hadoop/hadoop-0.20.2 hdp1:/home/hadoop

15-2:$scp -r /home/hadoop/hadoop-0.20.2 hdp2:/home/hadoop

15-3:$scp -r /home/hadoop/hadoop-0.20.2 hdp3:/home/hadoop

15-4:$scp -r /home/hadoop/jdk1.6.0_29 hdp1:/home/hadoop 15-5:$scp -r /home/hadoop/jdk1.6.0_29 hdp2:/home/hadoop 15-6:$scp -r /home/hadoop/jdk1.6.0_29 hdp3:/home/hadoop

P.S. 完成前兩步驟後,往後新增電腦只需從第一台電腦執行此部分即可快速新增完成。

Page 20: 使用 Ubuntu 架設 Hadoop 分散式檔案雲端運算系統

六 . 啟動 Hadoop 系統

20

16. 格式化 Hadoop 雲端系統 18-1:$cd /home/hadoop/hadoop-0.20.2/bin 18.2:$./hadoop namenode –format

17. 啟動雲端系統 19-1:$cd /home/hadoop/hadoop-0.20.2/bin 19-2:$./start-all.sh

Page 21: 使用 Ubuntu 架設 Hadoop 分散式檔案雲端運算系統

六 . 啟動 Hadoop 系統

21

18. 檢視 Hadoop 雲端系統運作情況 20-1:$http://hdp0:50070(NameNode) 20-2:$http://hdp0:50030(JobTracker)

19. 關閉雲端系統 21-1:$cd /home/hadoop/hadoop-0.20.2/bin 21-2:$./stop-all.sh

Page 22: 使用 Ubuntu 架設 Hadoop 分散式檔案雲端運算系統

22

END