Download - 20130318 統計手法勉強会 外れ値検出 FRaC
![Page 1: 20130318 統計手法勉強会 外れ値検出 FRaC](https://reader030.vdocuments.pub/reader030/viewer/2022020123/55a0be7e1a28ab6f5e8b473f/html5/thumbnails/1.jpg)
FRaC: A Feature-Modeling Appraoch for Semi-Supervised and Unsupervised Anomaly Detection.Anomaly Detection Using an Ensemble of Feature Models.
FRaC: Feature Regression and Classification
20130318
Statistical Method Journal
![Page 2: 20130318 統計手法勉強会 外れ値検出 FRaC](https://reader030.vdocuments.pub/reader030/viewer/2022020123/55a0be7e1a28ab6f5e8b473f/html5/thumbnails/2.jpg)
Result
UCI machine learning repositoryRにも数多く収録されているデータセットの図書館 irisR has many data set from this library such as data(iris).
FRaCを用いた学習が一番いい性能である場合が多かった。The number of the situations where FRaC was the best performance method.
![Page 3: 20130318 統計手法勉強会 外れ値検出 FRaC](https://reader030.vdocuments.pub/reader030/viewer/2022020123/55a0be7e1a28ab6f5e8b473f/html5/thumbnails/3.jpg)
機械学習 Machine learning
手元のデータ(訓練データ)からパターンを抽出し、新たなデータ(テストデータ)の回帰・分類をすること。
To extract patterns from existed data (train) and perform regression or classification of new data (test).
![Page 4: 20130318 統計手法勉強会 外れ値検出 FRaC](https://reader030.vdocuments.pub/reader030/viewer/2022020123/55a0be7e1a28ab6f5e8b473f/html5/thumbnails/4.jpg)
教師 (あり / 半あり / なし) 学習Supervised / Semi-supervised / Unsupervised ML
教師あり学習 Supervised ML真偽のラベルがわかるtrainで学習するLearning from train data whose labels T/F are known.
半教師あり学習 Semi-supervised ML真偽の片方のラベルだけがあるtrainで学習するLearning from train data whose labels are either only T/F.
教師なし学習 Unsupervised ML真偽のラベルがわからないtrainで学習するLearning from train data whose labels T/F are unknown.
Anomaly detection
![Page 5: 20130318 統計手法勉強会 外れ値検出 FRaC](https://reader030.vdocuments.pub/reader030/viewer/2022020123/55a0be7e1a28ab6f5e8b473f/html5/thumbnails/5.jpg)
手法 algorithm
距離 distance-basedSVM Support Vector MachineK-nearest neighborK-means clustering
密度 density-basedLOF Local Outlier Factor
他 etcPCA Principal Component AnalysisDecision tree Random Forest
特徴 feature model approachCFA Cross-Feature AnalysisFRaC Feature Regression and Classification
オススメ!! Recommend!!
![Page 6: 20130318 統計手法勉強会 外れ値検出 FRaC](https://reader030.vdocuments.pub/reader030/viewer/2022020123/55a0be7e1a28ab6f5e8b473f/html5/thumbnails/6.jpg)
Example data set
n Dimension vector → one anomaly score[1,] 69.613 129.070 52.111 → a1[2,] 70.670 128.161 52.446 → a2[3,] 72.303 128.450 52.853 → a3…
![Page 7: 20130318 統計手法勉強会 外れ値検出 FRaC](https://reader030.vdocuments.pub/reader030/viewer/2022020123/55a0be7e1a28ab6f5e8b473f/html5/thumbnails/7.jpg)
SVM Support Vector Machine
超平面を引き、各点との距離を最大化する。
Make hyperplane to maximize distance from each data point.
![Page 8: 20130318 統計手法勉強会 外れ値検出 FRaC](https://reader030.vdocuments.pub/reader030/viewer/2022020123/55a0be7e1a28ab6f5e8b473f/html5/thumbnails/8.jpg)
SVM Support Vector Machine
kernlab, e1071
教師なし学習なら、超平面をひいたときに最も離れている点をスコア化する(と思う)。
On unsupervised ML, we quantify the distance from the hyperplane as anomaly score.
![Page 9: 20130318 統計手法勉強会 外れ値検出 FRaC](https://reader030.vdocuments.pub/reader030/viewer/2022020123/55a0be7e1a28ab6f5e8b473f/html5/thumbnails/9.jpg)
SVM classification
何も考えずに分類したとするとこうなる。たぶん半分がT/Fと勝手に設定されている。
If we classify the test data as default settings, result is like this. The half of data are T/F.
Kernel? Tuning?
![Page 10: 20130318 統計手法勉強会 外れ値検出 FRaC](https://reader030.vdocuments.pub/reader030/viewer/2022020123/55a0be7e1a28ab6f5e8b473f/html5/thumbnails/10.jpg)
K-nearest neighbor
FNN
ある点に近いk個の点との距離を考える。
Compute the distance from k points around a certain point.
![Page 11: 20130318 統計手法勉強会 外れ値検出 FRaC](https://reader030.vdocuments.pub/reader030/viewer/2022020123/55a0be7e1a28ab6f5e8b473f/html5/thumbnails/11.jpg)
K-means clustering
kmeans
K個のクラスターを作る。似ているものを集めるので、厳密には外れ値検出ではない。
Make k clusters. Clustering is a method gathering looking-same samples. This is not anomaly detection.
![Page 12: 20130318 統計手法勉強会 外れ値検出 FRaC](https://reader030.vdocuments.pub/reader030/viewer/2022020123/55a0be7e1a28ab6f5e8b473f/html5/thumbnails/12.jpg)
主成分分析 PCA Principal Component Analysis
prcomp
もとの変数を相関のない別の変数にする手続き。
an orthogonal transformation to convert a set of observations of possibly correlated variables into a set of values of linearly uncorrelated variables.
![Page 13: 20130318 統計手法勉強会 外れ値検出 FRaC](https://reader030.vdocuments.pub/reader030/viewer/2022020123/55a0be7e1a28ab6f5e8b473f/html5/thumbnails/13.jpg)
決定木 decision tree
分岐した図。
maps observations about an item to conclusions about the item's target value.
![Page 14: 20130318 統計手法勉強会 外れ値検出 FRaC](https://reader030.vdocuments.pub/reader030/viewer/2022020123/55a0be7e1a28ab6f5e8b473f/html5/thumbnails/14.jpg)
Random Forest
randomForest
決定木をたくさん作る分類器
A classifier to make many decision trees.
![Page 15: 20130318 統計手法勉強会 外れ値検出 FRaC](https://reader030.vdocuments.pub/reader030/viewer/2022020123/55a0be7e1a28ab6f5e8b473f/html5/thumbnails/15.jpg)
LOF Local Outlier Factor
Rlof
ある点のまわりMinPts個の点の密度を計算する。
Compute the density of MinPts points around a certain point.
MinPts = 3
![Page 16: 20130318 統計手法勉強会 外れ値検出 FRaC](https://reader030.vdocuments.pub/reader030/viewer/2022020123/55a0be7e1a28ab6f5e8b473f/html5/thumbnails/16.jpg)
LOF Local Outlier Factor
MinPts = 3
1 付近は同一集団Nomal data are around 1.
Anomaly scoreが大きいと外れ値しかし閾値はわからないAnomal data has large anomaly score but threshold is unknown.
![Page 17: 20130318 統計手法勉強会 外れ値検出 FRaC](https://reader030.vdocuments.pub/reader030/viewer/2022020123/55a0be7e1a28ab6f5e8b473f/html5/thumbnails/17.jpg)
Feature model approach
色々な外れ値検出法から算出されるanomaly scoreを利用する(?)
Combine many anomaly scores computed from other anomaly detection analysis (?).
CFA Cross-Feature Analysis (?)
FRaC Feature Regression and Classification
![Page 18: 20130318 統計手法勉強会 外れ値検出 FRaC](https://reader030.vdocuments.pub/reader030/viewer/2022020123/55a0be7e1a28ab6f5e8b473f/html5/thumbnails/18.jpg)
n Dimension vector → one anomaly score[1,] 69.613 129.070 52.111 → a1[2,] 70.670 128.161 52.446 → a2[3,] 72.303 128.450 52.853 → a3…
尺度でも連続値でもいいNominal or continuous
i 番目を他のデータで予測するPrdict ith data from the others
p番目の予測モデルでの特徴(?) predictor of type
実データと予測との誤差 The total error of a test set
![Page 19: 20130318 統計手法勉強会 外れ値検出 FRaC](https://reader030.vdocuments.pub/reader030/viewer/2022020123/55a0be7e1a28ab6f5e8b473f/html5/thumbnails/19.jpg)
nominal
continuous
Anomaly score
![Page 20: 20130318 統計手法勉強会 外れ値検出 FRaC](https://reader030.vdocuments.pub/reader030/viewer/2022020123/55a0be7e1a28ab6f5e8b473f/html5/thumbnails/20.jpg)
FRaC
色々な手法をパクるのが一番精度がいい(黒)
Decision tree, SVM, decision stump
![Page 21: 20130318 統計手法勉強会 外れ値検出 FRaC](https://reader030.vdocuments.pub/reader030/viewer/2022020123/55a0be7e1a28ab6f5e8b473f/html5/thumbnails/21.jpg)
SVM
LOF
KNN