ambari運用ツラたん #ambarimeetup

31
Ambari運用ツラたん http://www.yahoo.co.jp/ ヤフー株式会社 データ&サイエンスソリューション統括本部 データプラットフォーム本部 開発2部グリッド 山口 寛 2016年04月28日

Upload: yahoo

Post on 13-Apr-2017

338 views

Category:

Technology


0 download

TRANSCRIPT

Ambari運用ツラたん

http://www.yahoo.co.jp/

ヤフー株式会社

データ&サイエンスソリューション統括本部

データプラットフォーム本部 開発2部グリッド 山口 寛

2016年04月28日

自己紹介

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 2

氏名

山口 寛

業務

- 2015/9 広告レポート機能開発2015/10 - Hadoopクラスタの設計・構築・運用Ambari 歴 : 3ヶ月ぐらい

興味・趣味

DevOps (SD1月号にChatOpsで寄稿)ビール・ダーツ・ボルダリング

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 3

全体で約7000台のHadoop

そのうち約1600台をAmbariで運用!

(※800台/1クラスタ)

今回のお話

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 4

構築・運用時にハマったこと

構築編

Ambariでの構築

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 5

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 6

Master Node / Application

Data Node

Agentの自動インストールコンポーネントの追加

通常構築は簡単!

Ambari Server

Ambariでの構築

クラスタ

デプロイ

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 7

構築中にバージョンアップってしたことありますか?

Ambariでの構築

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 8

AmbariのUpdate手順(ドキュメントより)• Server

• yum clean all • yum info ambari-server• yum upgrade ambari-server

• Agent• yum upgrade ambari-agent

Ambariでの構築

http://docs.hortonworks.com/HDPDocuments/Ambari-2.1.0.0/bk_upgrading_Ambari/content/_upgrade_to_ambari_2.1.html

こちらは公式ドキュメントより抜粋となります。CentOS版をみてみると、Ambariの更新にはServerとAgentの両方が必要なことがわかります。

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 9

Node数

Ambari agent数=

Master Node / Application

Agents

Data Node

Ambariでの構築

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 10

AgentのUpdate手順(一部省略してます)• Server

• yum clean all • yum info ambari-server• yum upgrade ambari-server

• Agent each host• yum upgrade ambari-agent

Ambariでの構築

Agentの更新はすべてのhostで必要なものであり、台数が増えると更新作業も手間になる

Ambariでの構築

全サーバへ更新コマンドって!(ノω・`。)

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 11

対応方法

• ツールの選択肢は沢山存在しています

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 12

etc

何がツラたん?

AmbariのVersion UPなど全台へ反映が必要!

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 13

Agent管理のためのツールが必要!!(´・ω・`)

バージョンアップどうやる?

数百台のhadoopクラスタを管理するためにAmbariを利用しているが、Ambariの更新や管理するためのツールは別途必要となってしまうただし、更新頻度は高いものではないので、現状はfabric

を活用し運用している

運用編

Ambari Serverの負荷って見てます?

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 14

Ambari-Serverの負荷:起動直後

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 15

Ambari-Serverの負荷:時間が経つと

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 16

Ambari-Serverの負荷:時間が経つと

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 17

繰り返されるFGC!

Ambari-Serverの負荷:時間が経つと

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 18

解放されないOld領域!

繰り返されるFGC!

Ambari-Serverの負荷:時間が経つと

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 19

そう!メモリーリークか?!

この状態に近づくと起きること

• WebUIが応答しない

> Ambariでクラスタの状況がわからない!Server

• HeartBeatが途切れだす

> Agentが止まりHostの運用ができない!Agent

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 20

暫定対応方法

Server

Agent

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 21

暫定対応方法

•Ambari-ServerをRestartServer

Agent

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 22

暫定対応方法

•Ambari-ServerをRestartServer

•Ambari-AgentをRestartAgent

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 23

暫定対応方法

•Ambari-ServerをRestartServer

•Ambari-AgentをRestartAgent

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 24

困ったらRestart!(`・Д・´)ドヤッ

原因

• 実際は現在調査中

• Agentとの通信のたびにOld領域が増えている気がする

• Old領域が解放されてなさそう

• Agentが増えると増加しやすい

• jmapみるとalert周りが怪しい

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 25

原因

• 実際は現在調査中

• Agentとの通信のたびにOld領域が増えている気がする

• Old領域が解放されてなさそう

• Agentが増えると増加しやすい

• こちら報告ずみ次回はなんらかの形で解決話をはなしたいです

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 26

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 27

Server運用も当然必須(´・ω・`)

まとめ

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 28

Node増えるとAgentの運用管理がツラい(´・ω・`)

Serverも当然運用管理が必要でツラい(´・ω・`)

Node数が少なければ気にならないかもねb

29Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

E.O.P

ご質問などありましたら個別にお声がけください!

後日確認したこと

発表時に紹介しました、メモリーリークの疑いはメモリーリークではなさそうです。検証中のサーバのためアラートを止めずに作業を行っていました。その結果、Ambariのalert検知が10秒毎に動きサーバAgentからServerへと通知されていました。この処理の負荷によりServerが応答してない状況でした。

Nodeの整理とアラート通知の整理した結果現在は発生しておりません。

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 30