はじパタlt section1

29
パターン認識 Rで学ぶデータサイエンス 第1章 2013/06/18

Upload: tadayuki-onishi

Post on 24-May-2015

1.376 views

Category:

Technology


1 download

DESCRIPTION

Rで学ぶデータサイエンス「パターン認識」の第1章

TRANSCRIPT

Page 1: はじパタLT Section1

パターン認識Rで学ぶデータサイエンス

第1章2013/06/18

Page 2: はじパタLT Section1

祝!

#はじパタ 開催!!

祝!

#はじパタ 開催!!

Page 3: はじパタLT Section1

お詫び

Rのコードは出てきません

Page 4: はじパタLT Section1

お詫び2

今日は詳しくは語りません

Page 5: はじパタLT Section1

@kenchan0130_aki

自己紹介

Page 6: はじパタLT Section1

@kenchan0130_aki

学生ニート

自己紹介

Page 7: はじパタLT Section1

@kenchan0130_aki

学生ニート

働いたら負け

自己紹介

Page 8: はじパタLT Section1

@kenchan0130_aki

学生ニート

働いたら負け

自然言語処理

自己紹介

Page 9: はじパタLT Section1

@kenchan0130_aki

学生ニート

働いたら負け

自然言語処理

得意になりたい言語:Ruby

自己紹介

Page 10: はじパタLT Section1

@kenchan0130_aki

学生ニート

働いたら負け

自然言語処理

得意になりたい言語:Ruby 女の子と仲良くなれそう

自己紹介

Page 11: はじパタLT Section1
Page 12: はじパタLT Section1
Page 13: はじパタLT Section1

パターン認識

第1章 判別能力の評価

第2章 k-平均法

第3章 階層的クラスタリング

第4章 混合正規分布モデル

第5章 判別分析

第6章 ロジスティック回帰

第7章 密度推定

第8章 k-近傍法

第9章 学習ベクトル量子化

第10章 決定木

第11章 サポートベクターマシン

第12章 正規化とパス追跡アルゴリズム

第13章 ミニマックス確率マシン

第14章 集団学習

第15章 2値判別から多値判別へ

Page 14: はじパタLT Section1

パターン認識

第1章 判別能力の評価

第2章 k-平均法

第3章 階層的クラスタリング

第4章 混合正規分布モデル

第5章 判別分析

第6章 ロジスティック回帰

第7章 密度推定

第8章 k-近傍法

第9章 学習ベクトル量子化

第10章 決定木

第11章 サポートベクターマシン

第12章 正規化とパス追跡アルゴリズム

第13章 ミニマックス確率マシン

第14章 集団学習

第15章 2値判別から多値判別へ

Page 15: はじパタLT Section1

• 入力された特徴量 からラベル を予測する問題を「判別問題」といいます.

• ラベル を返す判別器   の予測精度を評価したい!

判別能力の評価

Page 16: はじパタLT Section1

何か評価する 指標が欲し い!

Page 17: はじパタLT Section1

• 誤り率• 損失行列による評価• 交差検証法による予測精度の推定• 陽性率, 偽陽性率, ROC曲線, AUC• 適合率, 再現率, F値

各種指標

Page 18: はじパタLT Section1

誤り率

Page 19: はじパタLT Section1

誤り率

n個のデータに対する誤り率は

で計算できます.I[R]は条件Rが真のときは1, それ以外は0となる定義関数

Page 20: はじパタLT Section1

• 学習データに対する誤り率を「訓練誤差」といいます.

• 未知のテストデータに対する誤り率を「予測誤差」といいます.

誤り率

Page 21: はじパタLT Section1

損失行列による評価

Page 22: はじパタLT Section1

• 損失の値を  で表し,   成分とする行列を損失行列とします.

• クラス と判別すべきデータをクラス と誤ってしまったときの損失を表しています.

損失行列による評価

Page 23: はじパタLT Section1

損失行列による評価

損失の平均は以下のように与えられます.

は真のクラスの不確実性を表す同時確率分布

これを最小とするような を割り当てるものとなります.

Page 24: はじパタLT Section1

交互検証法による予測精度の推定

Page 25: はじパタLT Section1

• 学習データを2つに分け, 一方で判別器を推定します.

• 他方でその精度を評価し, 予測誤差を推定します.

• これをk分割して繰り返す方法を「k-交差検証法」と呼びます.

交互検証法による予測精度の推定

Page 26: はじパタLT Section1

陽性率, 偽陽性率, ROC曲線, AUC

陽性率, 偽陽性率, ROC曲線, AUC

Page 27: はじパタLT Section1

• 陽性率は「第1種の過誤」と思ってもらっていいかもです. • 偽陽性率は「第2種の過誤」と思ってもらっていいかもです. (こっちはヤバイやつ)

• 偽陽性率をある一定の値以下に抑えたとき, 陽性率を最大化する判別器を採択します.

• 縦軸を真の陽性率, つまり敏感度, 横軸を偽陽性率, つまり(1-特異度)を尺度としてプロットしたものです.

• AUCはROC曲線下の面積のことです. 分類器の性能の良さを表しています.

陽性率,偽陽性率, ROC曲線, AUC

Page 29: はじパタLT Section1

• 検索結果内に, 実際に目的の情報を含んでいるページの割合が「適合率」です.

• 目的の情報を含んでいるページ全体の中で正しく検索結果の割合が「再現率」です.

適合率, 再現率, F値