デジタル変革を加速するパフォーマンス管理...
TRANSCRIPT
2019年5月29日
デジタル変革を加速するパフォーマンス管理Dynatrace ご紹介
〒108-0014 東京都港区芝4-1-23 三田NNビル22階TEL 03-5445-2651 FAX 03-5484-6663
URL www.shinwart.co.jp
1
Dynatrace ご紹介
【デジタル/クラウド時代】システムは自動運用、ビジネス注力へ
2
オンプレミス IaaS PaaS FaaS/SaaS
自動運用
人海運用
ツール(AI)による運用自動化
モノリステック
インフラを抽象化して、アプリケーションの
イノベーションに注力できるプラットフォームの提供
(Cloud Foundryの目標)
クラウドの目指すゴール
ビジネス/サービス開発に注力
システム/スタック毎の個別運用
安定化(変動最小)を目的にして定型運用
(手順書・目視・ログ確認・報告書・会議)
サービス(SOA)
マイクロサービス
ウォータフォール
アジャイル DevOps
オンプレミスクラウド(IaaS)
コンテナ(PaaS)
開発モデル
IT基盤
デザイン
サーバレス(FaaS)
ファンクション
目視/ログによる人海作業
CI/CD
Dynatrace SaaS/Managed:新世代APMソリューション
3
エンタープライズクラウド
マイクロサービス
コンテナ
自己修復IoT
サーバレス
オーケストレーション
クラウドDevOps
第3世代
第2世代
第1世代 キャズム第3世代への壁
APMからEnterprise Monitoringに進化
Dynatrace社 圧倒的な導入実績
4
フォーチュン100:72社 世界8,000社以上
出典:https://www.dynatrace.com/company/https://www.dynatrace.com/news/blog/strong-growth-largest-market-share-puts-dynatrace-1-aga/
【参考】Dynatrace社 APM業界 No.1
5
出典:https://www.dynatrace.com/news/blog/strong-growth-largest-market-share-puts-dynatrace-1-aga/
マーケットシェア:No.1 成長率:トップレベル
出典:Gartner Magic Quadrant for APM Suites(14 March 2019)
9期連続リーダー
Dynatrace:次世代アプリケーションパフォーマンス管理
6
コンポーネント 対応テクノロジ* ライセンス体系
デジタルユーザ体感サービス
トランザクション
【適応シーン①】ユーザ体感監視ユーザ行動分析
【適応シーン②】サービス性能監視ボトルネック分析
【適応シーン③】インフラ自動監視障害迅速対応
(専用ライセンス)
DEM(セッション課金)
(専用ライセンス)
HOST(メモリ量課金)
(専用ライセンス)
HOSTインフラ(30%)
クラウドインフラストラクチャ
*https://www.dynatrace.com/support/help/deploy-dynatrace/oneagent/supported-technologies/supported-technologies-and-versions/
提供モデル:SaaS(AWS)/Managed(OnP/IaaS)
Dynatrace:フルスタックのデジタルパフォーマンス管理
7
ユーザ行動分析 Webリクエスト分析ユーザアクセス分析
状況/影響自動解析
原因自動分析
問題推移自動記録
ユーザレスポンスコンバージョンレート
ダッシュボード
サービス監視 トランザクション分析 コードレベル分析
サービスレスポンスサービスCPU使用率
サービスフロー分析
サービス/トランザクション
クラウド監視 DB(SQL)監視サーバ監視 プロセス監視
vCenter/ESXホスト ELB/EC2/RDS/EBSLambda/Autoscalng
インフラストラクチャ
CPU/メモリ/トラフッィクリトランス/コネクト
Oracle/MS SQL/MySQLPostgle/Mongo/RDS/
Memcashed/Hadoop等
ユーザ体感(ユーザアクセス/ユーザ行動)
ユーザ体感監視
問題管理
【ダッシュボード例】アプリケーション全体監視
8
アプリケーション視点で全体俯瞰 表示時間帯:直近2時間(30分~72時間等)更 新 間 隔 :1分間隔
問題発生状況(システム全体)
アプリ健全性 サービス健全性 DB健全性 Docker稼働状況
ユーザアクセス数総数と上位アプリ
リクエスト件数上位アプリ
ネットワーク状況トラフック/再送率/接続性
標準機能で作成(10分程度)
【トランザクションのリアルタイム監視】
9
トランザクション(エントリーサービスを起点にした後続の全サービス(プログラム))
の自動追跡/描画と自動監視(性能(処理時間)/健全性(エラー))
【サービスフローの自動識別・描画】サービスがどのように呼び出しされているかを可視化。
【リアルタイムステータス更新】各サービスの処理時間/コール回数/問題発生(赤色表示)を更新。そこからドリルダウンで分析開始
複数のサービスで問題発生中
監視時間帯でサービスの
レスポンス悪化
【フルスタック自動監視】
10
ポイント① システム構成の自動識別と自動描画(パラメータ設定不要)ポイント② 相互の依存関係(水平と垂直)の自動識別と起動記録(72時間)ポイント③ ホスト/プロセス/サービス/アプリをリアルタイム監視(1分更新)ポイント④ 問題発生時は該当箇所が赤色表示に変るポイント⑤ どの要素からも自由自在にドリルダウンして詳細分析
特定ホスト(IaaS/サーバ/仮想)のプロセス/サービス/アプリを自動識別
サービス分析
ホスト分析
ドリルダウン
ドリルダウン
対象システムを複数の監視領域(Zone)に分離して表示可能
選択されたレイヤー(ホスト)の対象と依存関係を自動識別
【サポートテクノロジ】
11
Web Server AP Server Database
Apache HTTP Server Tomcat / TomEE Oracle / RDS
Microsoft IIS IBM WebSphere MS SQL / Azure
IBM HTTP Server Oracle WebLogic MySQL
Oracle HTTP Server JBoss/ Windfly Cassandra
Nginx Glassfish / Jetty MongoDB
Single PageFramework
IBM MQ/Active MA Jedis Redis
クラウド 仮想化/コンテナ CI/CD
AWS VMware Jenkins
AZURE Container Eclipse
Google Cloud Docker Visual Studio
SAP Cloud Kubernetes OpenShift
Alibaba Cloud Cloud Foundry Selenium
開発言語 バージョン
Java 6~9
.NET 3.5SP1~4.72
PHP 5.2~7.2
Node.js* 6.x, 8.x, 10.x, 11.x
Go 1.7.0 ~1.11.0
SDK利用: Python /Ruby/C/C++
OS バージョン
Windows Server2008,2008R2,2012,2012R2,2016
RHEL 5.4~
CentOS 6~
Ubuntu 12.04~
AIX 7.1,7.2
https://www.dynatrace.com/support/help/deploy-dynatrace/oneagent/supported-technologies/oneagent-supported-technologies-and-versions/https://www.dynatrace.com/support/help/setup-and-configuration/oneagent/supported-technologies/oneagent-platform-and-capability-support-matrix/#operating-systems-supported-by-oneagent
*:Google V8のリソース消費が大きいためSDK利用を推奨
【システム構成】監視対象にAgentインストール、SaaS/Managedモデル運用
12
IISPHP.NET
VMware/ESX
Dynatrace ActiveGate(Win/Linux)
開発 運用 ビジネス
ApachePHP
コンテナJava.NET
LinuxWindows
AIX
AWSIaaS/PaaS/
FaaS
OpenStackUbuntu
AzureIaaS/PaaS/
FaaS
構成/稼働/性能データを収集
Dynatrace OneAgent・ホストOSにインストール・導入は超簡単
Browser
JavaScript
Mobile*
専用 Libraly
クライアント
HTMLヘッダにJSを組込
(自動挿入)
ライブラリをAPL組込
(組込は簡単)
(測定地点)世界各地のAWS/Azure
Browser
ロボットScript
リアルユーザモニタリング
Synthetic
ロボット定点監視
設備/Car/…
OpenKit
SOC 2 Type II
IoT
サーバシステム(最大:10万台)
API API
利用クラウド:AWS米国(2ヶ所)・欧州・豪州
自社テナント
計測データ
計測データ
計測データ
コンテナJava.NET
コンテナJava.NET
中継サーバ(無償提供)・ネットワーク通信を圧縮/暗号化・仮想アプライアンスの情報取得
計測データ
対応ツール
*モバイル対応 iOS:6以上/ CocoaPods・Carthage Android:4.0.3~9 (API 15~28)/Gradle
計測データ
13
適用シーン① 顧客満足度向上とデジタル売上増加
ユーザ体感/ユーザ行動のリアルタイム監視&分析
事例:JTB ユーザ体感監視とユーザ行動分析
14
出典:Dynatrace Perform Tokyo 2019 講演資料
事例:JTB ユーザ体感監視とユーザ行動分析
15
出典:Dynatrace Perform Tokyo 2019 講演資料
16
適用シーン② 性能テスト&ボトルネック分析
サービス/トランザクションのリアルタイム監視&分析
【適応シーン②】サービス性能監視&ボトルネック分析
17
(1)システム開発における性能目標の達成
システム開発V字モデル
・UXアクセス全件記録・トランザクション全量記録・テスト結果の即時確認・迅速なボトルネック分析・即座のコードレベル分析
(2)CI/CD・DevOpsサイクルの自動化と高速化
UXテスト(Selenium/Appium)
TPテスト(JMeter/Neotys/LR)
Selenium + QuickBiuld(DevOps) + Dynatrace AWS DevOps(CodePipeline)+ Dynatrace
事例:LANDBAY ~AWS上で新サービスのDevOps、創業数年で有力企業に成長~
18
・英国の住宅ローン市場の投資家向けの融資サービス会社
・2014年、FinTechベンチャーとして創業
・ソーシャルレンディング(ネット利用の融資仲介)サービス
高いサービスレベル:取引は少量/高額クラウドネィティブ:全サービスをAWSで開発・運用マイクロサービス :DevOps、コンテナで稼働アジャイル開発 :1日当たり2~3サービスをリリース
・AWSネイティブなのでITスタック全体を可視化・顧客のユーザ体感/行動をリアルタイムに全件監視・問題原因に関する深いコードレベルの分析・新コード追加時の性能問題を即座に検知・AIによる問題分析でログ作業の時間浪費を削減
(FinTech)ソーシャルレンディング
システム開発
システム監視ソリューションとして、
を導入Dynatraceはピッタリでした。フルスタック監視だけでなく、アプリケーションを深く監視します。クラウドネイテイブのエコシステムです。
Chris Burrell, Head of Tech, Landbay
19
適応シーン③ システム監視と問題分析の自動化
サーバ/クラウド/コンテナ/DBの監視&分析
【適応シーン③】自動監視と障害対応時間の劇的短縮
20
【現状】初動遅延/人海作業/場当たり対策
予兆発生
顧客クレーム
障害認知
問題切分け
原因特定
ECシステムの一般的な障害対応フロー
復旧作業
膨大なログの突合せ多数の関係者が集合障害が再現できない
異常を想定した大きい&固定閾値なので監視が鈍感
発生経緯が複雑対症原因が複数根本原因が不明
3時間~数日30分~数時間
対症対策が大半高い再発リスク
予兆監視
障害認知
影響分析
動的閾値で予兆を検知
AIが即座に分析影響と原因を特定
3分~10分
問題の詳細再生と根本原因の解決
原因特定 根本対策
復旧状況の即時確認
5分
【今後】自動監視/迅速対応/根本対策
3分~5分
【不要になる作業】
・ログ調査/分析・対策/検討会議・障害経過分析・障害影響分析
対応指示
復旧作業
完全自動監視
事例:Westfield Insurance~複雑な保険システムを自動監視、障害対策委員会を廃止~
21
・米国WESTFIELDグループ(銀行・保険)の保険会社
・企業/個人向けに農業・住宅・自動車の保険、資産37億ドル
・商業保険:21州、個人保険:10州、保証サービス:31州
(課題)多数のミドルウェアと連携した200以上のエンタープライズサービスが非常に複雑なITインフラの上で稼働しており、問題特定と原因解決に大変な労力がかかっていた。そこにより高度で複雑な新しい請求管理システムの導入により、問題対応は一層困難になった。
(解決)分散環境における迅速な問題の分類と根本原因の分離のために、アプリケーションパフォーマンス管理(APM)ソリューションを検討し、Dynatraceを採用した。
(Dynatraceで実現された監視と分析)
1.コンポーネントのコードレベルの監視2.ランタイム環境全体の監視3.エンドユーザ体感の監視と分析4.トランザクションの監視とボトルネック分析
(導入効果)・クレーム対応時間をわずか数週間で半減・「障害対策委員会(War Room)」を廃止・システムの完全自動監視を実現
22