正規分布を使ったアノーマリー検知 apacheログ
TRANSCRIPT
Copyright © 2015 Splunk, Inc.
正規分布を使ったアノーマリー検知Apache ログ編
自己紹介小松原 貴司Splunk 勤務– シニアセールスエンジニア
免責条項このプレゼンテーション中に、弊社は弊社の将来の事象または予想される業績に関する前向きな意見を述べることがあります。弊社は、かかる意見が、現在弊社が知っている要因に基づく弊社の現在の予測および推定を反映するものであることと、実際の事象または結果が著しく異なることがあることを皆さんにご注意いたします。実際の結果が弊社の前向きな意見に含まれるものとは異なるようにさせる重要な要因については、 SECを含む弊社の文書をお調べください。このプレゼンテーションに含まれる前向きな意見は、生のプレゼンテーションの日時において述べられたものです。生のプレゼンテーションの後に見直しが行われた場合、このプレゼンテーションに現在のまたは正確な情報が含まれないことがあります。弊社は、弊社が述べることがある前向きな意見を更新する義務を負いません。また、弊社のロードマップに関する情報で、弊社の一般的な製品方針の概要が示されていますが、この情報は予告なしにいつでも変更されることがあります。これはあくまで参照用であって、契約またはその他の約定に組み込まれないものとします。 Splunk は、記述されている特徴または機能を開発する義務も、かかる特徴または機能を将来のリリースに含める義務も負いません。
3
正規分布と標準偏差
4
μ( 平均 )±{1,2,3}σ( 標準偏差 ) の範囲に収まる
収まるデータの割合
たとえば、右端の白い部分は、「データ > (μ+2σ) 」が成り立つ領域である。
たとえば、左端の白い部分は、「データ < (μ-2σ) 」が成り立つ領域である。
不自然に多量のトラフィックが発生している接続元の国を抽出する
6
利用するサンプルデータ弊社のチュートリアルのデータを利用します。– http://docs.splunk.com/images/Tutorial/tutorialdata.zip
Splunk 6.1 系、 6.2 系、 6.3 系、いずれもご利用いただけます。
極端なケース ( 右側の 2σ 〜 3σ の間の部分 ) を抽出
iplocation で国情報を調べるeventstats を使って、 bytes フィールドに対して、標準偏差、平均を出すwhere 句を使って、 – 「データ (bytes) > 平均 (avg_bytes) + 2 標準偏差 (stdev_bytes) 」が成り立
つイベントを抽出
8
sourcetype=access_combined_wcookie | iplocation clientip | eventstats stdev(bytes) as stdev_bytes, avg(bytes) as avg_bytes by Country | where bytes > avg_bytes+(2*stdev_bytes)
結果 ) 2σ 〜 3σ の間
9
あまり外れたデータはない、ということになります。
結果 ) 1σ> の間
10
μ( 平均 ) からの距離を少しずつ大きくして、アノーマリーなデータを検知していきます
11