入門機械学習6章

18
第 4 第第第第第第第 第第第 2013.07.27 @kzfm

Upload: kazufumi-ohkawa

Post on 10-May-2015

596 views

Category:

Technology


4 download

DESCRIPTION

入門機械学習6章

TRANSCRIPT

Page 1: 入門機械学習6章

第 4 回入門機械学習読書会2013.07.27

@kzfm

Page 2: 入門機械学習6章

6 章 正則化:テキスト回帰

Page 3: 入門機械学習6章

サンプルコードhttps://gist.github.com/kzfm/6093635

Page 4: 入門機械学習6章

線形でないものをどうやって線形回帰するか?

Page 5: 入門機械学習6章

y = f(g(x))

y = f(x) が線形回帰できるような g で変換すればいい

前の例では g = ^2

線形回帰できるように g を決めるだけ

Page 6: 入門機械学習6章

多項式回帰poly 関数を使いましょう

Page 7: 入門機械学習6章

次数を変える

Page 8: 入門機械学習6章

交差検定モデル当てはめを過去のデータの一部を使わずに行い、使わなかったデータでテストする

トレーニング用 テスト用

Page 9: 入門機械学習6章

R でやる場合sample 関数をつかう

> idx <- sample(1:100, 80)> data <- 1:100> idx <- sample(data, 80)> data[idx] [1] 50 46 37 97 17 78 7 38 13 18 76 65 24 44 8 31 82 52 55 26 33 79 67 74 62 59 20 56 72 21[31] 28 57 6 25 30 11 93 90 63 89 80 23 40 16 27 10 77 39 81 4 58 71 48 14 100 51 99 49 5 47[61] 34 61 75 85 3 95 88 69 41 91 70 94 29 12 9 22 42 73 84 64> data[-idx] [1] 1 2 15 19 32 35 36 43 45 53 54 60 66 68 83 86 87 92 96 98

Page 10: 入門機械学習6章

過学習とはモデルが内在する真のパターンではなく、データセットのノイズの一部に当てはまってしまうこと

同じ会社に勤めすぎてその会社以外では通用しないスキルをガッツリ磨いてしまうような実社会のあるあるは、データセットでも起こるわけです

Page 11: 入門機械学習6章

交差検定の例

Page 12: 入門機械学習6章

良いモデルとは?予測精度が高く、かつできるだけ単純なモデル

複雑さの指標を導入してペナルティとして使う各係数の二乗の和 (L2 ノルム )

各係数の絶対値の和 (L1 ノルム)

Page 13: 入門機械学習6章

正則化

Page 14: 入門機械学習6章

もうちょっと知りたい?Lasso 回帰とか Ridge 回帰で調べるとよい(Ridge は次の章で出てきますが )

http://xn--p8ja5bwe1i.jp/wiki/%E3%83%90%E3%82%A4%E3%82%AA%E3%83%BB%E3%83%87%E3%83%BC%E3%82%BF%E3%83%BB%E3%83%9E%E3%82%A4%E3%83%8B%E3%83%B3%E3%82%B0/R%E3%81%A7%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90%E3%81%99%E3%82%8B/

Page 15: 入門機械学習6章

テキスト回帰

Page 16: 入門機械学習6章

ロジスティック回帰ベルヌーイ分布に従う変数の統計的回帰モデルの一種である。連結関数としてロジットを使用する一般化線形モデル (GLM) の一種でもある。ロジスティック回帰は医学や社会科学でよく使われる。

病気 / 健康とかライフイベントとか

Page 17: 入門機械学習6章

結果

Page 18: 入門機械学習6章

6 章まとめ正則化は過学習を防ぐ方法のひとつ

複雑すぎるモデルは危険