kddiのクラウドサービスを⽀える zabbix · ⾃⼰紹介...
TRANSCRIPT
KDDIのクラウドサービスを⽀えるZabbix
KDDI株式会社プラットフォーム技術部
加藤 真⼈
⾃⼰紹介
KDDI⼊社以来インフラ系サービスの開発を担当。これまでに、お客様のシステムを監視するサービスやKDDI クラウドプラットフォームサービス(KCPS)の前⾝であるバーチャルデータセンターなどを開発。その後、KCPS(KDDIクラウドプラットフォームサービス)の開発を初期メンバーとして参加し、現在は数千台のサーバを⽀えるインフラ設計業務を担当。ODM機器の採⽤や、Open Compute Projectへの参加など積極的にインフラのコモディティ化を推進してる。
KCPSのサービス概要
クラウドシステムでのZabbix設計
キャリアならではのクラウド基盤 「KDDI クラウドプラットフォームサービス」
KCPSの特⻑は、Quality Cloud
1. とめない(⾼可⽤性) 2. まもる (⾼信頼性)3. つながる(⾼接続性)
Copyright © 2016 KDDI Corporation. All Rights Reserved5
インターネット
システムデータ バックアップ
ストレージ RAID
・・・
Active Standby
HA(フェイルオーバー)
インターネット接続
イントラ接続
RAID2重バックアップ
バックアップ
DRサイト
1.とめない:徹底的な冗⻑構成
Copyright © 2016 KDDI Corporation. All Rights Reserved6
物理サーバHAによる冗⻑構成を標準装備
RAIDによる冗⻑構成を標準装備
NW機器の冗⻑構成
NW機器の冗⻑構成
KDDIバックボーン回線
サーバ・ストレージ・ネットワーク機器は完全冗⻑化
稼働実績は99.999%以上
Copyright © 2016 KDDI Corporation. All Rights Reserved7
1.とめない:徹底的な冗⻑構成
99.999982%99.9999% 32秒/年間
99.99999% 3秒/年間
KDDI Cloud Blogで稼働率と故障内訳を公開!
KCPSのお客さま専有サーバ(KCPSでの名称:Premiumサーバ)
スイッチ
Act Act Stb仮想サーバ
Act
ホストサーバ
#1
ストレージ
・・
Act Act Stb仮想サーバ
Stb
ストレージ
#2
・・
別POD
業界最⾼⽔準の可⽤性を有したエクストラアベイラビリティ機能でサーバとストレージの同時故障にも対応
故障ActAct Stb
スイッチ
ホストサーバ
・・・仮想サーバ
Act仮想サーバ
Stb冗⻑化
通常のクラウド基盤サービス
#1
ストレージ
故障
故障
故障
故障
故障
故障
冗⻑化
正常稼動
1.とめない:2x2=4重化も提供
Copyright © 2016 KDDI Corporation. All Rights Reserved8
POD(ポッド)…データーセンター内のラックに相当
「2時間以内に多重故障から復旧」を⽬標故障時は能動通知で「30分以内」を⽬標
Copyright © 2016 KDDI Corporation. All Rights Reserved9
2.まもる:万全の運⽤保守体制
IT管理者をしっかりサポート!
Copyright © 2016 KDDI Corporation. All Rights Reserved10
2.まもる:万全の運⽤保守体制
2.まもる:万全の運⽤保守体制
ワンストップ
B社 イントラネットワーク
A社 クラウドサービス
障害の切り分けが難しい
クラウドとネットワークの提供会社が異なる場合 KCPSの場合
Copyright © 2016 KDDI Corporation. All Rights Reserved11
ネットワークとクラウドのワンストップ提供で
故障発⽣も迅速に解決
iPadiPhone
お客さま環境
外出先のスマートデバイスからクラウドへもセキュアにアクセスマルチクラウド環境でのシームレスな連携
FRE
Copyright © 2016 KDDI Corporation. All Rights Reserved12
3.つながる:ニーズに合わせてどこからでも
KCPSKDDI Flex Remote Accessさまざまな通信デバイス・通信環境からお客さまの社内ネットワークへリモートアクセスできるサービス
専有サーバ 共有サーバオブジェクトストレージ
お客さま環境
yumリポジトリサーバ
WSUSサーバSymantec Endpoint Protection
KMS
イントラネット網内で管理系サーバにつながる
Copyright © 2016 KDDI Corporation. All Rights Reserved13
3.つながる:イントラだけでも便利に使える
システム構成図が⾃動⽣成されるので、構成図が不要
Copyright © 2016 KDDI Corporation. All Rights Reserved14
Quality Cloud を 簡単に使う
HCIオプションetc (物理サーバ)
HCIオプションetc (⽉額98万円〜)
⼤企業
中⼩企業
基幹系・重要システム情報系・周辺システム
Premium (専有サーバ)
Premium (専有サーバ)
Value (共有サーバ)
さまざまなサーバをご⽤意KCPSは⼤企業の周辺システムや中⼩企業の重要システムを中⼼に
利⽤が広がっています。
※表⽰価格はすべて税抜価格です。 ※詳細はKDDIのウェブサイトをご参照ください。
Premium (⽉額27万円〜)
Premium (⽉額27万円〜)
Value (⽉額8千円〜)
Copyright © 2016 KDDI Corporation. All Rights Reserved15
イントラネット(KDDI WVS)との接続料も無料
データ通信料は、インプット/アウトプットとも無料
「HCIオプション」とは
Copyright © 2016 KDDI Corporation. All Rights Reserved16
ビジネスクリティカルなアプリケーションに最適なスペックをプライベートクラウドでご提供
• ⾼機能なHCI機器4ノードをパッケージ化し⽉額モデルでご提供• 必要に応じてノード追加(⽉額30万円/ノード)も可能※ HCIオプション以外でも、データセンターに設置したお客さま指定機器と 仮想サーバを同⼀セグメントで接続することも可能(データセンターコネクト)
New!10⽉提供開始
インターネット
ストレージオブションバックアップオプション
PremiumValue
データストレージ
システムストレージ
バックアップストレージ
オブジェクトストレージ
HCIオプション(データセンター)
すべて同⼀セグメント
で接続可能
「HCI」とは
Copyright © 2016 KDDI Corporation. All Rights Reserved17
物理のプラットフォーム部分をシンプル化し、スケールアップや性能アップをより簡単にしたプラットフォーム
HCIハイパー・コンバージド・インフラストラクチャー
(Hyper-Converged Infrastructure)
Nutanix のソフトウエアを基盤としたHCI アプライアンス「Dell XC シリーズ」
相互DR環境での600ユーザのVDI(仮想デスクトップインフラ)
「Dell XC シリーズ」事例:保険機関 A社さま
XC機能によるバック
アップ
WAN
XC730xd-24 x4node
Desktop x300
Backup x300
Backup x300
• PowerEdge R730xdベースのXCシリーズでシンプルにサーバ仮想化、VDI+DR環境を実現、災害時には⽚系のサイトで全VDIリソースのフェイルオーバーが可能
• Node追加による900ユーザまで拡張、ユーザー数の増加へ柔軟に対応可能• ⾼可⽤性でミッションクリティカルなシステムに適⽤
東京 ⼤阪
CPU :E5-2698 v3 (16core x2)
Memory :320GBSSD(GB) :800GB x4HDD(TB) :1TB x16OS :ESXi+Citirix
仮想サーバ群
XC730xd-24 x4node
検証環境
XC730xd-24 x4node
XC730⼀台あたりのスペック
XC730xd-24 x4node
Desktop x300
Copyright © 2016 KDDI Corporation. All Rights Reserved18
さまざまなストレージもご⽤意
バックアップオブションストレージオプション
インターネット
オブジェクトストレージ
システムストレージ
データストレージ
バックアップストレージ
PremiumValue
Copyright © 2016 KDDI Corporation. All Rights Reserved19
オブジェクトストレージとは
ゲートウェイサーバ
1 2 3 6 1817161514134 5 7 8 9 121110
DC1 DC2 DC3
3 分 散 保 存
東⽇本サイト ⻄⽇本サイト
ゲートウェイサーバで受信したデータを
18分割
分割された各データは、3つの国内DCの複数
サーバへ暗号化の上で分散配置
インターネット
⽉額8,000円(税抜)/TB(サーバ契約必要なし)
Copyright © 2016 KDDI Corporation. All Rights Reserved20
クラウドシステムでのZabbix設計
Copyright © 2015 KDDI Corporation. All Rights Reserved21
国内:4拠点 物理サーバ:数千台 Zabbixサーバ数: 約50台 冗⻑化: あり(Active-Active構成) マルチテナント監視: あり 監視対象機器数: 約27,000台 トリガー数: 約800,000 アイテム数: 約600,000 Zabbixがインストールされているハードウェア: 仮想サーバ及び物理サーバ CPUコア数:4〜16コア(⽤途により異なる) メモリ:16GB〜128GB(⽤途により異なる)
KCPSのシステム規模(関連基盤含む)
システム概要
Copyright © 2015 KDDI Corporation. All Rights Reserved23
CloudStackLOG
解析基盤
状況を整理して連絡
仮想サーバ
「Quality Cloud」を⽀える
Copyright © 2015 KDDI Corporation. All Rights Reserved24
29ヶ⽉連続で、99.999%を達成しています
・変化の激しい仮想サーバの増減に対応した⾃動監視登録・仮想サーバの正常動作と異常動作を⾃動で判断する!!・⾃動化のリスクを⾃動化で守る!・複雑なインフラ環境における詳細な障害影響をどう特定するか?・⼆重障害などの物理障害の破壊⼒はすごい!
クラウド基盤を考慮した監視ポイント
どう ⾃動化の仕組みを取り⼊れるか! どこまで 利⽤シーンを想定できるか!
Zabbixのログ監視機能を使⽤し、CloudStackのAPIログから「仮想サーバ作成コマンド」「KVMホスト追加コマンド」の実⾏を検知し⾃動登録を実現しています。
上記を検知した際に、ZabbixAPIを利⽤したZabbix監視ホスト追加を実⾏するスクリプトを登録したアクションがキックされることで、Zabbix監視ホストを登録します。
仮想サーバ⾃動監視登録
①:ユーザが仮想サーバ/KVMホスト作成
②:APIログ出力
③:ログ監視から①の実行検知
④:アクション実行 監視ホスト登録
CloudStack
ポイント仮想サーバのホスト名はお客様によって適時変更されてしまいます。これに追従する仕組みを取り⼊れ実機との差分が発⽣しないようにしています。
クラウドサービスでは、サービス利⽤者が⾃由に仮想サーバを使⽤するため、仮想サーバ停⽌や再起動時に事前にZabbix監視の無効化やメンテナンス状態へ移⾏が困難です。
このため、icmppingやagent.ping監視を実施の場合、アラートが発報され運⽤負荷が上がります。 監視対象ホストの停⽌や再起動などの処理をAPIログから検知し、該当サーバの監視ステータス(有効/無効)を⾃動で切り替えることで、不要なアラートが発報されないようにしています。
仮想サーバ再起動時の動作を考慮
①:ユーザが仮想サーバ停止/削除/再起動 KVMホストメンテナンス/削除を実行
②:APIログ出力
③:ログ監視から①の実行検知
④:アクション実行 監視ホストのステータスを変更
CloudStack
CloudStackの操作とZabbix設定のリアルタイム連携は前述の通りですが、万が⼀リアルタイム同期に失敗した場合、ユーザが作成した仮想サーバが監視登録されてない状態となる可能性があります。不測の事態に備え、CloudStackAPIおよびZabbixAPIを実⾏し、仮想サーバやホストの設定状態をZabbix監視ホスト設定の状態と⽐較し、差分吸収する夜間同期処理を実施しています。
CloudStack⇔Zabbix監視の登録状態の同期
①:CloudStackAPI を実行
②:ZabbixAPI を実行し 監視ホスト一覧を取得
③:①②の結果を比較し、差分吸収
CloudStack
障害影響を短時間で特定する
Copyright © 2015 KDDI Corporation. All Rights Reserved29
【初報連絡が精度が重要】クラウドシステムにおいて、複雑に変化している仮想レイヤでの障害影響を短時間で把握し、お客様へ連絡することは⾮常に難しい!
Zabbixにて障害を検知する、各種LOGから障害時の影響を瞬時に判断し、影響のあったお客様を特定し初報連絡を⾏っています。
本システムにより、故障発⽣時(⼆重故障を含む)には、30分以内にお客様へ通知を⾏える運⽤を実現し、運⽤効率、習熟度のさらなる向上に努めています。
CloudStack
⼤規模障害を考慮した復旧ツール
Copyright © 2015 KDDI Corporation. All Rights Reserved30
⼆重故障などが発⽣した場合、⼤量のアラームが発⽣し数時間監視が機能しないことがあります。これを考慮した設計が重要となり、発⽣した場合の代替⼿段を事前に準備しておく必要があります。 たとえば、LOG通知をまとめる、Trapの受信制限を⾏うとかの⼿段があります。 Zabbixで検知した結果から、⾃動復旧させるツールなどを利⽤していますが、⾼負荷な状況となった場合にはツールが起動しないことも想定されます。 負荷を考慮することはもちろん、Zabbixとは別で復旧ツールの準備が必要です。
キャリアーグレードの運⽤体制
Copyright © 2015 KDDI Corporation. All Rights Reserved31
⼀旦故障が発⽣しご迷惑をお掛けしたお客様には、故障レポートを作成し、故障原因や対策を明確にすることで、少しでも安⼼してご利⽤を継続頂けるように努めております。勿論、故障を発⽣させないことを第⼀に、今後とも関連部⾨が⼀丸となって取り組んでまいります。
KDDI Cloud Blogクラウドに関する最新の情報を発信
Copyright © 2016 KDDI Corporation. All Rights Reserved32
Quality Cloud