素人がdeep learningと他の機械学習の性能を比較してみた
TRANSCRIPT
誰よお前?
•ツイッターID: @MOTIVIC_
•株式会社ALBERT 主任研究員
•代数幾何を使って因果推論の研究をしてるよ
•統計ゆるふわ勢
•機械学習はICMLにリジェクトくらったレベルの素人
かじゅある
ゆるふわツイートしてます
2012年位からDEEP LEARNINGが流行ってますね
前回のMLCTのLTでも出てましたし
特徴量抽出も自動でやってくれるので
画像、音声、言語などの分野で大活躍
しているようで
でも画像、音声、言語
のようなデータは扱っ
たことがないから凄さ
がよく分からないお…
だからもっと簡単な
(DEEP LEARNINGが
そもそも必要無さそう
な)データセットで性能
を調べてみたお!
まずは分類問題のHELLO WORLD
IRISデータ
KPIは?
•2-FOLD CROSS VALIDATIONでエラー率を計算
•ランダムにデータを半分に分割して上記の計算を
5,000回繰り返した
•RとH2Oでシミュレーションしたよ
比較した手法
•DEEP LEARNING(DL)
•CART
•RANDOM FOREST(RF)
•EXTREMELY RANDOMIZED TREES (ET)
•SVM
•NEURAL NETWORK(NN)
DEEP LEARNINGのパラメータはどう決めたんだよ?
活性化関数と
DROPOUTの部分
だけイジイジして他
はデフォルトだお
結果
BREAST CANCER データ
BREAST CANCER データ
•サンプルサイズは683
•データはこんな感じ
Clump
Thickness
Uniformity
of Cell
Size
Uniformity
of Cell
Shape
Marginal
Adhesion
Single
Epithelial
Cell Size
Bare
Nuclei
Bland
Chromatin
Normal
NucleoliMitoses Class
1-10 1-10 1-10 1-10 1-10 1-10 1-10 1-10 1-10 良性/
悪性
結果
まとめ
•DEEP LEARNINGは簡単な分類問題でも性能が良かった
•まじめにチューニングすればもっと性能上がると思うよ