machine learning for biginner

41
4 回さくさくテキストマイニング勉強会 初めての機械学習 〜機械が学習するって何?〜 早川 敦士

Upload: atsushi-hayakawa

Post on 28-May-2015

3.300 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Machine learning for biginner

第 4 回さくさくテキストマイニング勉強会

初めての機械学習〜機械が学習するって何?〜

早川 敦士

Page 2: Machine learning for biginner

http://www.slideshare.net/gepuro/に資料が公開されています。

Page 3: Machine learning for biginner

目次

●自己紹介●機械学習とは●学習手順●教師ありテキスト分類器●決定木●単純ベイズ分類器●最大エントロピー分類器●単純ベイズ・最大エントロピー分類器の比較●まとめ●参考資料

Page 4: Machine learning for biginner

目次

●自己紹介●機械学習とは●学習手順●教師ありテキスト分類器●決定木●単純ベイズ分類器●最大エントロピー分類器●単純ベイズ・最大エントロピー分類器の比較●まとめ●参考資料

Page 5: Machine learning for biginner

自己紹介

早川 敦士電気通信大学電気通信学部

システム工学科 三年TwitterID: @gepuro

さくさくテキストマイニング勉強会がきっかけでテキストマイニングを始めました。

統計学や品質管理に興味があります。

Page 6: Machine learning for biginner

自己紹介

はてなダイアリーhttp://d.hatena.ne.jp/gepuro/

所属Microcomputer Making Association

http://wiki.mma.club.uec.ac.jp/hayakawa

ICES (留学生国際交流会)

新入生歓迎実行委員会

DBCLS (ライフサイエンス統合データベースセンター)

Page 7: Machine learning for biginner

目次

●自己紹介●機械学習とは●学習手順●教師ありテキスト分類器●決定木●単純ベイズ分類器●最大エントロピー分類器●単純ベイズ・最大エントロピー分類器の比較●まとめ●参考資料

Page 8: Machine learning for biginner

機械学習とは 〜初めに〜

機械学習については、初めて勉強しました。

名前だけは、よく聞くけど実態がよく分からずにいました。

そろそろ機械学習に挑戦してみたい。

今日は、この場をお借りして機械学習について学んだ事を発表したいと思います。

テキスト分類の学習という点に焦点をあてて話したいと思います。

Page 9: Machine learning for biginner

機械学習とは

まずはwikipedia で調べてみました。

Page 10: Machine learning for biginner

機械学習とは

●機械学習(きかいがくしゅう、 Machine learning )とは、人工知能における研究課題の一つで、人間が自然に行っている学習能力と同様の機能をコンピュータで実現させるための技術・手法のことである。

( wikipedia 機械学習より)

Page 11: Machine learning for biginner

機械学習とは

●機械学習のアルゴリズムは3つの分類がある。

教師あり学習教師なし学習強化学習

Page 12: Machine learning for biginner

機械学習とは

●教師あり学習

事前にデータとラベルを与えて、素性抽出をして、分類器を作成すること。

●例:サポートベクターマシーン、単純ベイズ分類器、ブースティングetc

Page 13: Machine learning for biginner

機械学習とは

●教師なし学習

データの分布など、データ背後にある特徴を見つける学習

●例:クラスター分析、主成分分析、自己組織化マップetc

Page 14: Machine learning for biginner

機械学習とは

●強化学習

ある環境内において、行動によって発生する報酬を元に、現在取るべき行動を決定する方法を学習する

●報酬が最大化するように行動し、これを繰り返して、より良い行動を出来るようにする。

●動的計画法に似ている。

Page 15: Machine learning for biginner

目次

●自己紹介●機械学習とは●学習手順●教師ありテキスト分類器●決定木●単純ベイズ分類器●最大エントロピー分類器●単純ベイズ・最大エントロピー分類器の比較●まとめ●参考資料

Page 16: Machine learning for biginner

学習手順

●機械学習って言うのが、どーいうのか分かったし、どんな風にして教師あり学習を行なっていくのだろうか?

Page 17: Machine learning for biginner

学習手順

●機械学習って言うのが、どーいうのか分かったし、どんな風にして教師あり学習を行なっていくのだろうか?

Page 18: Machine learning for biginner

学習手順

1.正しいラベルが付けられたコーパスを用意する2.コーパスを訓練・検証・テストセットに分割3.訓練セットで素性抽出し、分類器モデル構築4.検証セットで素性の選択・調整をする5.テストセットで分類器を評価する

Page 19: Machine learning for biginner

学習手順

●何故、コーパスを3つに分ける?

a)構築した分類器を正しく評価する為に、テストセットが必要になる。

b)検証セット無しでは、分類器の精度向上の為に使用するコーパスが準備出来無い。

Page 20: Machine learning for biginner

目次

●自己紹介●機械学習とは●学習手順●教師ありテキスト分類器●決定木●単純ベイズ分類器●最大エントロピー分類器●単純ベイズ・最大エントロピー分類器の比較●まとめ●参考資料

Page 21: Machine learning for biginner

教師ありテキスト分類器

●例えば、こんな分類器がある。

文書分類、品詞タグ付け、文分割、対話動作タイプの識別、含意関係の決定 etc

Page 22: Machine learning for biginner

教師ありテキスト分類器

●文書分類:テキストにカテゴリのラベル付け●品詞タグ付け:その単語の品詞タグを選択●文分割:続いてきた文が終了するかどうか判別●対話動作タイプの識別:発言が挨拶、質問、回答、主張、釈明のどのタイプの行動か●含意関係の決定:与えられたテキスト断片が仮説と呼ばれる他のテキストの意味を含むか否か

Page 23: Machine learning for biginner

目次

●自己紹介●機械学習とは●学習手順●教師ありテキスト分類器●決定木●単純ベイズ分類器●最大エントロピー分類器●単純ベイズ・最大エントロピー分類器の比較●まとめ●参考資料

Page 24: Machine learning for biginner

決定木

●入力データのラベル選択のフローチャート

wikipediaより

Page 25: Machine learning for biginner

決定木

●構成要素

●決定節点:素性の値をチェックする

●葉節点:ラベルを割りあてる

●根節点:フローチャートの最初の決定節点

Page 26: Machine learning for biginner

決定木

●決定木の構築

1.節点を一つだけもつ決定株を考える2.どの素性が分類の正答率が高いか3.高頻度で現れるラベルを割りあてる4.決定株をより大きな決定木に育てる

Page 27: Machine learning for biginner

決定木

●決定木の特徴

●単純で分かりやすい●階層構造を持つカテゴリに分類するのに適している●決定着の株にいくほど過学習が起きる●スポーツ、自動車、推理小説など、独立したトピックごとに分類する場合に決定木の上部付近では、限られた分岐しか行えない

Page 28: Machine learning for biginner

目次

●自己紹介●機械学習とは●学習手順●教師ありテキスト分類器●決定木●単純ベイズ分類器●最大エントロピー分類器●単純ベイズ・最大エントロピー分類器の比較●まとめ●参考資料

Page 29: Machine learning for biginner

単純ベイズ分類器

●入力に対してどのラベルを割り当てるか決定するのに、全ての素性が影響する

トーマス・ベイズ (1702年 ~1761年 )

Page 30: Machine learning for biginner

単純ベイズ分類器

●手順

1.ラベルの出現頻度=事前確率を計算する2.それぞれ素性が出現する確率を求める3.ラベル尤度=事前確率x素性の貢献度4.最も高い尤度と推定されるラベルを入力値とする5.このラベルから素性を生成する

Page 31: Machine learning for biginner

目次

●自己紹介●機械学習とは●学習手順●教師ありテキスト分類器●決定木●単純ベイズ分類器●最大エントロピー分類器●単純ベイズ・最大エントロピー分類器の比較●まとめ●参考資料

Page 32: Machine learning for biginner

最大エントロピー分類器

●分類器の性能を最大化するパラメータのセットを探す対数線形モデルとも言う

訓練コーパスの全体尤度を最大化する

Page 33: Machine learning for biginner

最大エントロピー分類器

●考え方

●乱数でパラメータの初期値を決め、最適解に近づくように繰り返す。●最適化否かの判断基準は必ずしも存在しない。●単純ベイズ分類器のモデルを一般化したもの

Page 34: Machine learning for biginner

目次

●自己紹介●機械学習とは●学習手順●教師ありテキスト分類器●決定木●単純ベイズ分類器●最大エントロピー分類器●単純ベイズ・最大エントロピー分類器の比較●まとめ●参考資料

Page 35: Machine learning for biginner

単純ベイズ・最大エントロピー分類器の比較

●単純ベイズ分類器との比較

●単純ベイズ分類器:事前確率と素性・ラベルのペアで素性の貢献度を知る多くのコーパスが必要生成的分類器

●最大エントロピー分類器:素性とラベルの組み合わせが自由少ないコーパスでも可能条件付き分類器

Page 36: Machine learning for biginner

単純ベイズ・最大エントロピー分類器の比較

分かる事 単純ベイズ分類器 最大エントロピー分類器

入力に対しての可能性の高いラベル

○ ○

入力に対してのラベルの尤度 ○ ○

可能性の高い入力値 ○ ☓入力値の尤度 ○ ☓ラベルに対しての入力値の尤度

○ ☓

2つのうち1つの値を持つ入力に対して、可能性の高いラベル

○ ☓

Page 37: Machine learning for biginner

目次

●自己紹介●機械学習とは●学習手順●教師ありテキスト分類器●決定木●単純ベイズ分類器●最大エントロピー分類器●単純ベイズ・最大エントロピー分類器の比較●まとめ●参考資料

Page 38: Machine learning for biginner

まとめ

●機械学習には様々なアルゴリズムがある。

●それぞれに特徴があり、適材適所で使う必要がある。

●学習させる事によって、テキストの分類が出来る。

Page 39: Machine learning for biginner

目次

●自己紹介●機械学習とは●学習手順●教師ありテキスト分類器●決定木●単純ベイズ分類器●最大エントロピー分類器●単純ベイズ・最大エントロピー分類器の比較●まとめ●参考資料

Page 40: Machine learning for biginner

参考資料

出版 O'RELLY 入門 自然言語処理

Steven Bird, Ewan Klein, Edward Loper 著萩原 正人、中山 敬広、水野 貴明 訳

Page 41: Machine learning for biginner

おわり

ご清聴ありがとうございました。