kddiのクラウドサービスを⽀える zabbix · ⾃⼰紹介...

33
KDDIのクラウドサービスを⽀える Zabbix KDDI株式会社 プラットフォーム技術部 加藤 真⼈

Upload: others

Post on 27-May-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

KDDIのクラウドサービスを⽀えるZabbix

KDDI株式会社プラットフォーム技術部

加藤 真⼈

Page 2: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

⾃⼰紹介

KDDI⼊社以来インフラ系サービスの開発を担当。これまでに、お客様のシステムを監視するサービスやKDDI クラウドプラットフォームサービス(KCPS)の前⾝であるバーチャルデータセンターなどを開発。その後、KCPS(KDDIクラウドプラットフォームサービス)の開発を初期メンバーとして参加し、現在は数千台のサーバを⽀えるインフラ設計業務を担当。ODM機器の採⽤や、Open Compute Projectへの参加など積極的にインフラのコモディティ化を推進してる。

Page 3: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

 KCPSのサービス概要

 クラウドシステムでのZabbix設計

Page 4: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

 キャリアならではのクラウド基盤 「KDDI クラウドプラットフォームサービス」

Page 5: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

KCPSの特⻑は、Quality Cloud

1. とめない(⾼可⽤性) 2. まもる (⾼信頼性)3. つながる(⾼接続性)

Copyright © 2016 KDDI Corporation. All Rights Reserved5

Page 6: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

インターネット

システムデータ バックアップ

ストレージ RAID

・・・

Active Standby

  HA(フェイルオーバー)

インターネット接続

イントラ接続

RAID2重バックアップ

バックアップ

DRサイト

1.とめない:徹底的な冗⻑構成

Copyright © 2016 KDDI Corporation. All Rights Reserved6

物理サーバHAによる冗⻑構成を標準装備

RAIDによる冗⻑構成を標準装備

NW機器の冗⻑構成

NW機器の冗⻑構成 

KDDIバックボーン回線

サーバ・ストレージ・ネットワーク機器は完全冗⻑化

Page 7: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

稼働実績は99.999%以上

Copyright © 2016 KDDI Corporation. All Rights Reserved7

1.とめない:徹底的な冗⻑構成

99.999982%99.9999% 32秒/年間

99.99999% 3秒/年間

KDDI Cloud Blogで稼働率と故障内訳を公開!

Page 8: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

KCPSのお客さま専有サーバ(KCPSでの名称:Premiumサーバ)

スイッチ

Act Act Stb仮想サーバ

Act

ホストサーバ

#1

ストレージ

・・

Act Act Stb仮想サーバ

Stb

ストレージ

#2

・・

別POD

業界最⾼⽔準の可⽤性を有したエクストラアベイラビリティ機能でサーバとストレージの同時故障にも対応

故障ActAct Stb

スイッチ

ホストサーバ

・・・仮想サーバ

Act仮想サーバ

Stb冗⻑化

通常のクラウド基盤サービス

#1

ストレージ

故障

故障

故障

故障

故障

故障

冗⻑化

正常稼動

1.とめない:2x2=4重化も提供

Copyright © 2016 KDDI Corporation. All Rights Reserved8

POD(ポッド)…データーセンター内のラックに相当

Page 9: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

「2時間以内に多重故障から復旧」を⽬標故障時は能動通知で「30分以内」を⽬標

Copyright © 2016 KDDI Corporation. All Rights Reserved9

2.まもる:万全の運⽤保守体制

Page 10: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

IT管理者をしっかりサポート!

Copyright © 2016 KDDI Corporation. All Rights Reserved10

2.まもる:万全の運⽤保守体制

Page 11: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

2.まもる:万全の運⽤保守体制

ワンストップ

B社 イントラネットワーク

A社 クラウドサービス

障害の切り分けが難しい

クラウドとネットワークの提供会社が異なる場合 KCPSの場合

Copyright © 2016 KDDI Corporation. All Rights Reserved11

ネットワークとクラウドのワンストップ提供で

故障発⽣も迅速に解決

Page 12: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

iPadiPhone

お客さま環境

外出先のスマートデバイスからクラウドへもセキュアにアクセスマルチクラウド環境でのシームレスな連携

FRE

Copyright © 2016 KDDI Corporation. All Rights Reserved12

3.つながる:ニーズに合わせてどこからでも

KCPSKDDI Flex Remote Accessさまざまな通信デバイス・通信環境からお客さまの社内ネットワークへリモートアクセスできるサービス

Page 13: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

専有サーバ 共有サーバオブジェクトストレージ

お客さま環境

yumリポジトリサーバ

WSUSサーバSymantec Endpoint Protection

KMS

イントラネット網内で管理系サーバにつながる

Copyright © 2016 KDDI Corporation. All Rights Reserved13

3.つながる:イントラだけでも便利に使える

Page 14: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

システム構成図が⾃動⽣成されるので、構成図が不要

Copyright © 2016 KDDI Corporation. All Rights Reserved14

Quality Cloud を 簡単に使う

Page 15: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

HCIオプションetc (物理サーバ)

HCIオプションetc (⽉額98万円〜)

⼤企業

中⼩企業

基幹系・重要システム情報系・周辺システム

Premium (専有サーバ)

Premium (専有サーバ)

Value (共有サーバ)

さまざまなサーバをご⽤意KCPSは⼤企業の周辺システムや中⼩企業の重要システムを中⼼に

利⽤が広がっています。

※表⽰価格はすべて税抜価格です。 ※詳細はKDDIのウェブサイトをご参照ください。

Premium (⽉額27万円〜)

Premium (⽉額27万円〜)

Value (⽉額8千円〜)

Copyright © 2016 KDDI Corporation. All Rights Reserved15

イントラネット(KDDI WVS)との接続料も無料

データ通信料は、インプット/アウトプットとも無料

Page 16: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

「HCIオプション」とは

Copyright © 2016 KDDI Corporation. All Rights Reserved16

ビジネスクリティカルなアプリケーションに最適なスペックをプライベートクラウドでご提供

•  ⾼機能なHCI機器4ノードをパッケージ化し⽉額モデルでご提供•  必要に応じてノード追加(⽉額30万円/ノード)も可能※ HCIオプション以外でも、データセンターに設置したお客さま指定機器と 仮想サーバを同⼀セグメントで接続することも可能(データセンターコネクト)

New!10⽉提供開始

インターネット

ストレージオブションバックアップオプション

PremiumValue

データストレージ

システムストレージ

バックアップストレージ

オブジェクトストレージ

HCIオプション(データセンター)

すべて同⼀セグメント

で接続可能

Page 17: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

「HCI」とは

Copyright © 2016 KDDI Corporation. All Rights Reserved17

物理のプラットフォーム部分をシンプル化し、スケールアップや性能アップをより簡単にしたプラットフォーム

HCIハイパー・コンバージド・インフラストラクチャー

(Hyper-Converged Infrastructure)

Nutanix のソフトウエアを基盤としたHCI アプライアンス「Dell XC シリーズ」

Page 18: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

 相互DR環境での600ユーザのVDI(仮想デスクトップインフラ)

「Dell XC シリーズ」事例:保険機関 A社さま

XC機能によるバック

アップ

WAN

XC730xd-24 x4node

Desktop x300

Backup x300

Backup x300

•  PowerEdge R730xdベースのXCシリーズでシンプルにサーバ仮想化、VDI+DR環境を実現、災害時には⽚系のサイトで全VDIリソースのフェイルオーバーが可能

•  Node追加による900ユーザまで拡張、ユーザー数の増加へ柔軟に対応可能•  ⾼可⽤性でミッションクリティカルなシステムに適⽤

東京 ⼤阪

CPU :E5-2698 v3 (16core x2)

Memory :320GBSSD(GB) :800GB x4HDD(TB) :1TB x16OS :ESXi+Citirix

仮想サーバ群

XC730xd-24 x4node

検証環境

XC730xd-24 x4node

XC730⼀台あたりのスペック

XC730xd-24 x4node

Desktop x300

Copyright © 2016 KDDI Corporation. All Rights Reserved18

Page 19: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

さまざまなストレージもご⽤意

バックアップオブションストレージオプション

インターネット

オブジェクトストレージ

システムストレージ

データストレージ

バックアップストレージ

PremiumValue

Copyright © 2016 KDDI Corporation. All Rights Reserved19

Page 20: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

オブジェクトストレージとは

ゲートウェイサーバ

1 2 3 6 1817161514134 5 7 8 9 121110

DC1 DC2 DC3

3 分 散 保 存

東⽇本サイト ⻄⽇本サイト

ゲートウェイサーバで受信したデータを

18分割

分割された各データは、3つの国内DCの複数

サーバへ暗号化の上で分散配置

インターネット

⽉額8,000円(税抜)/TB(サーバ契約必要なし)

Copyright © 2016 KDDI Corporation. All Rights Reserved20

Page 21: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

クラウドシステムでのZabbix設計

Copyright © 2015 KDDI Corporation. All Rights Reserved21

Page 22: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

 国内:4拠点 物理サーバ:数千台  Zabbixサーバ数: 約50台  冗⻑化: あり(Active-Active構成)  マルチテナント監視: あり  監視対象機器数: 約27,000台  トリガー数: 約800,000  アイテム数: 約600,000  Zabbixがインストールされているハードウェア: 仮想サーバ及び物理サーバ  CPUコア数:4〜16コア(⽤途により異なる)  メモリ:16GB〜128GB(⽤途により異なる)

KCPSのシステム規模(関連基盤含む)

Page 23: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

システム概要

Copyright © 2015 KDDI Corporation. All Rights Reserved23

CloudStackLOG

解析基盤

状況を整理して連絡

仮想サーバ

Page 24: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

「Quality Cloud」を⽀える

Copyright © 2015 KDDI Corporation. All Rights Reserved24

29ヶ⽉連続で、99.999%を達成しています

Page 25: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

・変化の激しい仮想サーバの増減に対応した⾃動監視登録・仮想サーバの正常動作と異常動作を⾃動で判断する!!・⾃動化のリスクを⾃動化で守る!・複雑なインフラ環境における詳細な障害影響をどう特定するか?・⼆重障害などの物理障害の破壊⼒はすごい!

クラウド基盤を考慮した監視ポイント

どう ⾃動化の仕組みを取り⼊れるか! どこまで 利⽤シーンを想定できるか!

Page 26: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

 Zabbixのログ監視機能を使⽤し、CloudStackのAPIログから「仮想サーバ作成コマンド」「KVMホスト追加コマンド」の実⾏を検知し⾃動登録を実現しています。

 上記を検知した際に、ZabbixAPIを利⽤したZabbix監視ホスト追加を実⾏するスクリプトを登録したアクションがキックされることで、Zabbix監視ホストを登録します。

仮想サーバ⾃動監視登録

①:ユーザが仮想サーバ/KVMホスト作成

②:APIログ出力

③:ログ監視から①の実行検知

④:アクション実行  監視ホスト登録

CloudStack

ポイント仮想サーバのホスト名はお客様によって適時変更されてしまいます。これに追従する仕組みを取り⼊れ実機との差分が発⽣しないようにしています。

Page 27: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

 クラウドサービスでは、サービス利⽤者が⾃由に仮想サーバを使⽤するため、仮想サーバ停⽌や再起動時に事前にZabbix監視の無効化やメンテナンス状態へ移⾏が困難です。

 このため、icmppingやagent.ping監視を実施の場合、アラートが発報され運⽤負荷が上がります。  監視対象ホストの停⽌や再起動などの処理をAPIログから検知し、該当サーバの監視ステータス(有効/無効)を⾃動で切り替えることで、不要なアラートが発報されないようにしています。

仮想サーバ再起動時の動作を考慮

①:ユーザが仮想サーバ停止/削除/再起動  KVMホストメンテナンス/削除を実行

②:APIログ出力

③:ログ監視から①の実行検知

④:アクション実行 監視ホストのステータスを変更

CloudStack

Page 28: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

 CloudStackの操作とZabbix設定のリアルタイム連携は前述の通りですが、万が⼀リアルタイム同期に失敗した場合、ユーザが作成した仮想サーバが監視登録されてない状態となる可能性があります。不測の事態に備え、CloudStackAPIおよびZabbixAPIを実⾏し、仮想サーバやホストの設定状態をZabbix監視ホスト設定の状態と⽐較し、差分吸収する夜間同期処理を実施しています。

CloudStack⇔Zabbix監視の登録状態の同期

①:CloudStackAPI を実行

②:ZabbixAPI を実行し  監視ホスト一覧を取得

③:①②の結果を比較し、差分吸収

CloudStack

Page 29: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

障害影響を短時間で特定する

Copyright © 2015 KDDI Corporation. All Rights Reserved29

【初報連絡が精度が重要】クラウドシステムにおいて、複雑に変化している仮想レイヤでの障害影響を短時間で把握し、お客様へ連絡することは⾮常に難しい!

Zabbixにて障害を検知する、各種LOGから障害時の影響を瞬時に判断し、影響のあったお客様を特定し初報連絡を⾏っています。

本システムにより、故障発⽣時(⼆重故障を含む)には、30分以内にお客様へ通知を⾏える運⽤を実現し、運⽤効率、習熟度のさらなる向上に努めています。

CloudStack

Page 30: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

⼤規模障害を考慮した復旧ツール

Copyright © 2015 KDDI Corporation. All Rights Reserved30

⼆重故障などが発⽣した場合、⼤量のアラームが発⽣し数時間監視が機能しないことがあります。これを考慮した設計が重要となり、発⽣した場合の代替⼿段を事前に準備しておく必要があります。 たとえば、LOG通知をまとめる、Trapの受信制限を⾏うとかの⼿段があります。 Zabbixで検知した結果から、⾃動復旧させるツールなどを利⽤していますが、⾼負荷な状況となった場合にはツールが起動しないことも想定されます。 負荷を考慮することはもちろん、Zabbixとは別で復旧ツールの準備が必要です。

Page 31: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

キャリアーグレードの運⽤体制

Copyright © 2015 KDDI Corporation. All Rights Reserved31

⼀旦故障が発⽣しご迷惑をお掛けしたお客様には、故障レポートを作成し、故障原因や対策を明確にすることで、少しでも安⼼してご利⽤を継続頂けるように努めております。勿論、故障を発⽣させないことを第⼀に、今後とも関連部⾨が⼀丸となって取り組んでまいります。

Page 32: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

KDDI Cloud Blogクラウドに関する最新の情報を発信

Copyright © 2016 KDDI Corporation. All Rights Reserved32

Page 33: KDDIのクラウドサービスを⽀える Zabbix · ⾃⼰紹介 kddi⼊社以来インフラ系サービスの開発を担当。 これまでに、お客様のシステムを監視するサービスやkddi

Quality Cloud