類似度に基づいた評価データの選別によるマルウェア検知精度の向上
DESCRIPTION
近年マルウェアの高度化が進んでおりパターンマッチング等の従来方式に基づいたマルウェア検知が困難になっている。新たな検知方式として機械学習を適用した手法が提案されており、従来に比べて高い検出率を実現できることが様々な研究により報告されている。一方でこれら機械学習による分類は、一般に学習データと傾向の異なる評価データについては著しく精度が下がることが知られている。そこで本研究では、評価データを学習データとの類似度に基づいて選別することで選別後の評価データに対して高い検出精度を向上させる手法について考察する。TRANSCRIPT
FFRI, Inc.
Fourteenforty Research Institute, Inc.
FFRI, Inc. 株式会社 FFRI http://www.ffri.jp
類似度に基づいた評価データの選別による マルウェア検知精度の向上
村上純一
FFRI, Inc.
• このスライドは CSS/MWS 2013 の発表資料です
– http://www.iwsec.org/css/2013/english/index.html
• 詳細なデータについては、元の論文を参照ください
– http://www.ffri.jp/assets/files/research/research_papers/MWS2013_paper.pdf
• 質問、コメント等は下記までお願いします
はじめに
2
FFRI, Inc.
• 背景
• 課題
• 本研究の目的
• 実験1
• 実験2
• 実験3
• 考察
• まとめ
アジェンダ
3
FFRI, Inc.
背景 – マルウェア及び対策技術の現状
4
マルウェアの急増
標的型攻撃/未知検体
マルウェア生成ツール
難読化ツール
パターン方式の限界
新たな検知方式
ヒューリスティック
クラウド
レピュテーション
機械学習 ビッグデータ
FFRI, Inc.
背景 – 関連研究の概観
5
特徴
静的情報
動的情報
ハイブリッド
適用手法
SVM
Naive bayes
Perceptron, etc.
評価
TPR/FRP, etc.
ROC-curve, etc.
Accuracy, Precision
• 下記要素の組み合わせ、工夫が中心
– 採用する特徴、特徴の加工方法、各種パラメーター設定等
• TPR90%超, FPR1%未満等、比較的良好な結果も
FFRI, Inc.
• 機械学習一般において
– 学習データ/評価データの傾向が著しく異なる場合、 分類精度が著しく低下する(結果はデータ次第)
• マルウェア/正常系ソフトウェアにおいてはどうか?
– 類似性の分布が広い → 学習/評価データで傾向が異なる可能性大
課題
6
? ?
FFRI, Inc.
機械学習によるマルウェア検知の有効性を検討する
①マルウェア群/正常系ソフトウェア群の分布(類似度) 傾向について調査する(実験1)
②分布の違いによる分類精度への影響を調査する (実験2)
③上記結果に基づき、学習データから類似度が低いデータを除外した場合の分類精度の変化について調査、考察する(実験3)
本研究の目的
7
FFRI, Inc.
• FFRI Dataset 2013 / 独自に用意した正常系ソフトウェアを利用
• マルウェア/ 正常系同士の相互の類似度を算出 (Jubatus, MinHash)
• 時系列でのAPIコールの4-gramを特徴として利用
– 例: NtCreateFile_NtWriteFile_NtWriteFile_NtClose: n回 NtSetInformationFile_NtClose_NtClose_NtOpenMutext: m回, etc.
実験1(1/3) – 実験方法
8
マルウェア群
正常系群 A B C ...
A
B
C
...
A B C ...
A ー 0.8 0.52 ...
B ー ー 1.0 ...
C ー ー ー ...
... ー ー ー ー
FFRI, Inc.
• 類似度に閾値を設けてデータをグループ化
実験1(2/3) – 実験方法
9
閾値(0.0 ~ 1.0) 正常系
マルウェア
FFRI, Inc.
実験1(3/3) – 実験結果
10
0%
20%
40%
60%
80%
100%
正常
系
マル
ウェ
ア
正常
系
マル
ウェ
ア
正常
系
マル
ウェ
ア
正常
系
マル
ウェ
ア
正常
系
マル
ウェ
ア
0.8 0.85 0.9 0.95 1
仲間無
仲間有
類似度の閾値
正常系は、マルウェアに対して似たものを見つけ難い
FFRI, Inc.
評
価
学
習
• 学習-評価データの傾向差異は、分類精度にどの程度の影響を与えるか?
• 閾値0.9の状態を2分割し、学習・分類を実施(Jubatus, AROW)
実験2(1/3) – 実験方法
11
正常群
マルウェア群
学習
jubatus
分類
jubatus TPR: ?
FPR: ?
TPR: True Positive Rate FPR: False Positive Rate
FFRI, Inc.
評
価
学
習
実験2(2/3) – 実験方法
12
正常群
マルウェア群
学習
jubatus
分類
jubatus TPR: ?
FPR: ?
• 学習-評価データの傾向差異は、分類精度にどの程度の影響を与えるか?
• 閾値0.9の状態を2分割し、学習・分類を実施(Jubatus, AROW)
FFRI, Inc.
学習データ/評価データの傾向が異なると分類精度が低下する
実験2(3/3) – 実験結果
13
0 50 100 0 1 2 3 4 5
■TPR ■FPR
97.996(仲間有)
81.297(仲間無)
0.624(仲間有)
4.49(仲間無)
-16.699
+3.866
% %
FFRI, Inc.
14
正常(学習) マルウェア(学習)
正常(評価) マルウェア(評価)
分離面
実験3(1/6) - 学習完了状態
マルウェア
正常系
FFRI, Inc.
実験3(2/6) - 分類完了状態
15
正常(学習) マルウェア(学習)
正常(評価) マルウェア(評価)
分離面
FFRI, Inc.
16
FP(誤検知)
FN(見逃し)
正常(学習) マルウェア(学習)
正常(評価) マルウェア(評価)
分離面
実験3(2/6) - 分類完了状態
FFRI, Inc.
実験3(3/6) - 類似度の低い評価データ
17
正常(学習) マルウェア(学習)
正常(評価) マルウェア(評価)
分離面 たまたま正解
FN(見逃し)
FN(見逃し)
除外
FFRI, Inc.
実験3(4/6) - TPRへの影響
18
0.88
0.90
0.92
0.94
0.96
0.98
1.00
0
200
400
600
800
1000
1200
1400
0 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1
TP
FN
TPR
類似度に対する閾値
分類
対象
デー
タ数
分類対象の減少 ∝ TPR向上
FFRI, Inc.
実験3(5/6) - FPRへの影響
19
0.000
0.002
0.004
0.006
0.008
0.010
0.012
0.014
0
500
1000
1500
2000
2500
0 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1
TN
FP
FPR
分類
対象
デー
タ数
類似度に対する閾値
分類対象の減少 ∝ FRP向上
FFRI, Inc.
実験3(6/6) - 分類対象データ数の推移
20
0%
20%
40%
60%
80%
100%
120%
0 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1
マルウェア 正常系ソフトウェア
類似度に対する閾値
分類
対象
デー
タ数
/計評
価デ
ータ
正常系の方がマルウェアに比べて減少率が高い
FFRI, Inc.
• 実際の適用シーン
– マルウェアか正常系か分からないファイルを分類
• 実験3を適用した場合
– 学習データ中に似たものがあれば分類対象に
– 似たものがなければ対象外
• 正解がマルウェアであればFalse Negative(見逃し)
• 正解が正常系であればTrue Negative(結果的に正解)
• 上記より本質的には 「ユニークなマルウェアのTPR」に関する問題 (ユニークなマルウェアは見逃しがちに)
考察(1/3)
21
FFRI, Inc.
• 現状のようにマルウェアが多数の亜種を持つ場合、
– 機械学習によるマルウェア検知は効果が期待できる
• 多数の亜種を持つ = 生成ツール
• 下記の調査が必要ではないか
– マルウェア生成ツールの利用、普及動向
– Anti-Machine Learning detection等の可能性
考察(2/3)
22
FFRI, Inc.
• 対象外としたマルウェアについて
1. 別の特徴を用いた分類を行う
2. データを増やす(ユニーク → 非ユニークへの推移)
3. 機械学習以外の手法による検知を行う
考察(3/3)
23
FFRI, Inc.
• マルウェアと正常系では類似度の分布が異なる(実験1)
• これにより分類精度の悪化が発生する(実験2)
• 類似度の低いデータを除外した場合、 ユニークなマルウェアのTPRが悪化する(実験3)
• 継続的なマルウェア、及び生成ツール等の動向調査が必要
• (正常系ソフトウェアを検知する技術が必要ではないか?)
まとめ
24