svm を用いた麻雀の打ち手の学習

24
SVM SVM ををををををををををををを ををををををををををををを M2 をををを

Upload: steel-mcfadden

Post on 04-Jan-2016

66 views

Category:

Documents


0 download

DESCRIPTION

SVM を用いた麻雀の打ち手の学習. M2  三木理斗. 発表の流れ. 背景と目的 関連研究 提案手法 実験結果 今後の課題. Section 1. 背景と目的. 背景. 多人数不確定ゲームである麻雀 探索の問題 確率ノードの扱い 上がりから遠ざかる手変わり 評価関数作成の問題 探索打ち切り局面をどう評価するのか. 目的. 麻雀の手牌評価 SVM によって手を直接選択する 探索や評価値を用いなくてもそこそこ良い手を判別できる. Section 2. 関連研究. 手牌評価関数の学習 [ 北川ら , 07]. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: SVM を用いた麻雀の打ち手の学習

SVMSVM を用いた麻雀の打ち手を用いた麻雀の打ち手の学習の学習M2  三木理斗

Page 2: SVM を用いた麻雀の打ち手の学習

発表の流れ発表の流れ1. 背景と目的2. 関連研究3. 提案手法4. 実験結果5. 今後の課題

Page 3: SVM を用いた麻雀の打ち手の学習

背景と目的背景と目的Section 1

Page 4: SVM を用いた麻雀の打ち手の学習

背景背景多人数不確定ゲームである麻雀

探索の問題◦確率ノードの扱い◦上がりから遠ざかる手変わり

評価関数作成の問題◦探索打ち切り局面をどう評価するのか

Page 5: SVM を用いた麻雀の打ち手の学習

目的目的麻雀の手牌評価

SVM によって手を直接選択する◦探索や評価値を用いなくてもそこそこ良い手を判別できる

Page 6: SVM を用いた麻雀の打ち手の学習

関連研究関連研究Section 2

Page 7: SVM を用いた麻雀の打ち手の学習

手牌評価関数の学習 手牌評価関数の学習 [[ 北川ら北川ら , 07] , 07]

牌譜を用いた Bonanza method◦3 層ニューラルネットワーク◦1,532 の boolean 特徴要素

最大一致率 56% ( ツモ局面 )

Page 8: SVM を用いた麻雀の打ち手の学習

提案手法提案手法Section 3

Page 9: SVM を用いた麻雀の打ち手の学習

概要概要手の順位付けを SVM で学習

◦牌譜の手 > 他の手

Page 10: SVM を用いた麻雀の打ち手の学習

Support Vector MachineSupport Vector Machine2 クラスの分類器

bxwxg

)(0)( xg

1)( xg

1)( xg

w1

w1

マージン w2

を最大化

Page 11: SVM を用いた麻雀の打ち手の学習

順位の学習順位の学習順序関係 ( > or < ) を 2 つのクラスとして分類器を作ればよい、が

今回は Ranking SVM を使用

Page 12: SVM を用いた麻雀の打ち手の学習

Ranking SVM [Joachims, Ranking SVM [Joachims, 02]02]検索エンジンのページランクの学習

◦一つの検索クエリに対するページ群のランクを学習

ゲームでは、◦「検索クエリ」⇔「局面」◦「ページ」⇔「打ち手」◦一つの局面に対する手のランクを学習

Page 13: SVM を用いた麻雀の打ち手の学習

特徴要素特徴要素 (1)(1)手牌の構成

◦各牌の所持数◦面子 ( とりうるパターンすべて )◦面子候補 ( とりうるパターンすべて )

木カーネルの葉ノードにあたる

Page 14: SVM を用いた麻雀の打ち手の学習

特徴要素特徴要素 (2)(2)手牌のその他の特徴

◦何回鳴いているか、など自分の状態

◦ドラの所持数、親かどうか、など相手の鳴き牌

◦鳴き面子、確定ドラ数、など場の特徴

◦リーチ、点差、オーラスかどうか、など

約 500 の要素の実数特徴ベクトル

Page 15: SVM を用いた麻雀の打ち手の学習

実験結果実験結果Section 4

Page 16: SVM を用いた麻雀の打ち手の学習

実験実験手のランク付けを学習

◦牌譜の手 > 他の手

分類器によって 1 位と判定された手と牌譜の手との一致率を評価

特徴◦A: 手牌の構成のみ◦B: 全て

Page 17: SVM を用いた麻雀の打ち手の学習

実験データ実験データとつげき東北氏の牌譜

◦100 試合分と 2808 試合分◦4-fold cross validation

学習局面は約 20,000 と約 600,000

◦全プレイヤーの打ち手を使用◦リーチしていない局面◦牌譜の手をランク 2 、それ以外の手をすべてランク 1 とラベル付けした

Page 18: SVM を用いた麻雀の打ち手の学習

実験環境実験環境実装

◦SVMrank http://svmlight.joachims.org/

マシン◦Dual-Core Opteron 2.4GHz * 2◦32GB RAM

Page 19: SVM を用いた麻雀の打ち手の学習

牌譜の手との一致率 牌譜の手との一致率 [%][%]

手牌の構成のみ 全特徴

100 試合分 49.7 50.9

2808 試合分 50.3 51.1

ソフトマージンパラメータ c は 1000

Page 20: SVM を用いた麻雀の打ち手の学習

ソフトマージンパラメータソフトマージンパラメータマージンとエラーのバランスを制御するパラメータ c

cw

L2

2

マージン エラー

分離平面を越えた距離のパラメータ

Page 21: SVM を用いた麻雀の打ち手の学習

パラメータによる変化パラメータによる変化全特徴、 100 試合分

Page 22: SVM を用いた麻雀の打ち手の学習

結論結論線形 SVM で一致率 51%

手牌の構成のみでかなり高い一致率

パラメータの調整でかなり増減

Page 23: SVM を用いた麻雀の打ち手の学習

今後の課題今後の課題Section 5

Page 24: SVM を用いた麻雀の打ち手の学習

今後の課題今後の課題カーネルの利用

特徴の追加◦相手の捨て牌◦手牌の細かい関連

応用◦鳴き局面◦合法手選択

順位の高い手を残して探索など