正規分布を使ったアノーマリー検知 apacheログ

11
Copyright © 2015 Splun Inc. 正正正正正正正正 正正正正正正正正 Apache 正正正

Upload: takashi-komatsubara

Post on 10-Feb-2017

5.387 views

Category:

Data & Analytics


2 download

TRANSCRIPT

Page 1: 正規分布を使ったアノーマリー検知 Apacheログ

Copyright © 2015 Splunk, Inc.

正規分布を使ったアノーマリー検知Apache ログ編

Page 2: 正規分布を使ったアノーマリー検知 Apacheログ

自己紹介小松原 貴司Splunk 勤務– シニアセールスエンジニア

Page 3: 正規分布を使ったアノーマリー検知 Apacheログ

免責条項このプレゼンテーション中に、弊社は弊社の将来の事象または予想される業績に関する前向きな意見を述べることがあります。弊社は、かかる意見が、現在弊社が知っている要因に基づく弊社の現在の予測および推定を反映するものであることと、実際の事象または結果が著しく異なることがあることを皆さんにご注意いたします。実際の結果が弊社の前向きな意見に含まれるものとは異なるようにさせる重要な要因については、 SECを含む弊社の文書をお調べください。このプレゼンテーションに含まれる前向きな意見は、生のプレゼンテーションの日時において述べられたものです。生のプレゼンテーションの後に見直しが行われた場合、このプレゼンテーションに現在のまたは正確な情報が含まれないことがあります。弊社は、弊社が述べることがある前向きな意見を更新する義務を負いません。また、弊社のロードマップに関する情報で、弊社の一般的な製品方針の概要が示されていますが、この情報は予告なしにいつでも変更されることがあります。これはあくまで参照用であって、契約またはその他の約定に組み込まれないものとします。 Splunk は、記述されている特徴または機能を開発する義務も、かかる特徴または機能を将来のリリースに含める義務も負いません。

3

Page 4: 正規分布を使ったアノーマリー検知 Apacheログ

正規分布と標準偏差

4

Page 5: 正規分布を使ったアノーマリー検知 Apacheログ

μ( 平均 )±{1,2,3}σ( 標準偏差 ) の範囲に収まる

収まるデータの割合

たとえば、右端の白い部分は、「データ > (μ+2σ) 」が成り立つ領域である。

たとえば、左端の白い部分は、「データ < (μ-2σ) 」が成り立つ領域である。

Page 6: 正規分布を使ったアノーマリー検知 Apacheログ

不自然に多量のトラフィックが発生している接続元の国を抽出する

6

Page 7: 正規分布を使ったアノーマリー検知 Apacheログ

利用するサンプルデータ弊社のチュートリアルのデータを利用します。– http://docs.splunk.com/images/Tutorial/tutorialdata.zip

Splunk 6.1 系、 6.2 系、 6.3 系、いずれもご利用いただけます。

Page 8: 正規分布を使ったアノーマリー検知 Apacheログ

極端なケース ( 右側の 2σ 〜 3σ の間の部分 ) を抽出

iplocation で国情報を調べるeventstats を使って、 bytes フィールドに対して、標準偏差、平均を出すwhere 句を使って、 – 「データ (bytes) > 平均 (avg_bytes) + 2 標準偏差 (stdev_bytes) 」が成り立

つイベントを抽出

8

sourcetype=access_combined_wcookie | iplocation clientip | eventstats stdev(bytes) as stdev_bytes, avg(bytes) as avg_bytes by Country | where bytes > avg_bytes+(2*stdev_bytes)

Page 9: 正規分布を使ったアノーマリー検知 Apacheログ

結果 ) 2σ 〜 3σ の間

9

あまり外れたデータはない、ということになります。

Page 10: 正規分布を使ったアノーマリー検知 Apacheログ

結果 ) 1σ> の間

10

μ( 平均 ) からの距離を少しずつ大きくして、アノーマリーなデータを検知していきます

Page 11: 正規分布を使ったアノーマリー検知 Apacheログ

11