alphago 囲碁ai master 〜alphagoから何を学ぶのか〜

25
AlphaGo 囲囲 AI Master 囲 AlphaGo 囲囲囲囲囲囲囲囲囲 2017/2 囲囲囲囲囲

Upload: kentaro-imai

Post on 14-Feb-2017

69 views

Category:

Education


0 download

TRANSCRIPT

Page 1: AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

AlphaGo 囲碁 AI Master〜 AlphaGo から何を学ぶのか〜

2017/2 今井健太郎

Page 2: AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

【 AlphaGo 】• 局面の勝率を評価するモデル (value networks) と、着手の勝率を評価するモデル (policy networks) が別々に構築されている• プロの棋譜と、自己対決(強化学習)によりモデル( CNN )の精度を向上させている• 強化済みモデルとモンテカルロ木検索( MCTS )を用いて着手を選択している【今後の展開】• 完全情報ゲームの人工知能を用いた解き方の知見は AlphaGo の取り組みが、一定の示唆を提供している• 2016 年度末から登場した通称: Master ( AlphaGo の改良版)については引き続き注目していく

要旨

Page 3: AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

1. 自己紹介2. 囲碁の基本ルール〜 AlphaGo と絡めて〜3. AlphaGo について4. AlphaGo に注目する意義5. 連絡先

目次

Page 4: AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

1. 自己紹介

Page 5: AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

自己紹介:色々な方が AlphaGo を語っていますが。。【人工知能関連】• 人工知能、ディープラーニングなどの情報を専門的に扱う、「人工知能ビジネス創発サロン」の管理人もやっています【囲碁関連】• 平成 22 年度 全日本囲碁選手権(団体戦)で全国制覇(中学時代は院生)【その他】• 新卒でシンクタンク(野村総研入社)• 最近は途上国ビジネス × 国際協力に特に時間を割いています(こっちの話もしたい!!)

Page 6: AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

2. 囲碁の基本ルール〜 AlphaGo と絡めて〜

Page 7: AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

DeepMind 「囲碁は世界で最も複雑なゲーム」【オセロ】 : ( 探索空間の大きさ : 〜 10 の 60 乗 )– 1997 年 Logistello が世界チャンピオンに勝利【チェス】 : ( 探索空間の大きさ : 〜 10 の 120 乗 )– 1997 年 IBM の Deep Blue が世界チャンピオンに勝越し【将棋】: ( 探索空間の大きさ : 〜 10 の 220 乗 )– 2013 年 4 月 : GPS 将棋が A 級棋士に勝利【囲碁】 : ( 探索空間の大きさ : 〜 10 の 360 乗 )– 2016 年 3 月 : AlphaGo がイ・セドル九段に勝利– 2017 年 1 月 : AlphaGo ( Master )がトッププロに 60 連勝!

Page 8: AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

複雑と言われますが、囲碁は陣取りゲームです【ルール1】• 交互に打って囲った陣地の多い方が勝ちです【ルール 2 】• 先手の方が有利なのでコミ( 6 目半)があります

実はコミの大きさって国や時代によって変わってきたんですよ!私が囲碁を始めた時は 5 目半でした、また中国は 7 目半だったりしますAlphaGo は AlphaGo 同士(同じ力量)での対局を何億局も実施されているはず、コミの大きさや、黒白どちらが有利か統計的回答を得ているはずです

Page 9: AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

囲んだら相手の石を取れますが例外があります【ルール 3 】• 囲んだら相手の石を取れます(終局後取った石の分だけ相手の陣地を減らせます)【ルール 4 】• 例外はコウです(以下のような場合です)、一手他のところに打たないと相手の石を取れません

無限ループしてしまうので

Page 10: AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

• 2016/03/09–15 Google DeepMind Challenge Match第 3 局終了後

AlphaGo はコウに弱いという都市伝説がありました

次戦以降どう戦いますか? 高尾名人 (2017/2 時点 )

・とりあえずコウくらいしか弱点が見つからない・私ならとりあえずコウを仕掛けていきますね!

Page 11: AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

仮説:コウに弱い?(かった)は都市伝説ではないかも【ルール 4 (コウ)】• 一手他のところに打たないと相手の石を取れません!• AlphaGo は、最善手を評価する際、 policy networks を用いています。• コウの場合は、最善手が相手の石を取るという選択肢と policy networksで選択していても、ルール上石を取れないということです。• 今回のように人工知能専門の方と議論になるのが、教師あり学習を考えた際、教師データは大きい順(効率的な順番)に着手しているということで教育させます、但し、コウの場合は通常とは下記の点で異なります。• 論文にもコウのことは特に記載されていませんのでわかりませんが、理論的にコウに強い policy networks の学習は複雑(数が解決しますが)!

コウの場合は二手連続して打った際に大きな手がコウ材になります※補足説明します

コウの場合は、現在最善な着手だけではなく、過去にどこに打ったかを記憶しなくてはいけません※補足説明します

Page 12: AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

自滅はできません(投了しましょう!)【ルール 5 】• 自滅はできません(自分から取られる手は打てません)

白から打てません

黒からは打てますよ!

Page 13: AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

3. AlphaGo について

Page 14: AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

• 人間の脳を模した、ニューラルネットワークを深く(ディープ)にした手法• 特に画像解析や物体認識などで顕著な成果を出し、注目を浴びました• 完全情報ゲームの解き方は、 AlphaGo での知見でほとんど対応できそうです

その前にディープラーニングとは

Page 15: AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

【よくある質問】• 囲碁とかできる人ってめちゃくちゃ先まで読んでるんでしょ!?【弱い囲碁 AI の取り組み】• 片っ端から場合の手を考えて囲碁させます( 10 の 360 乗です!!)【強い囲碁 AI の取り組み】• 強い人の囲碁の記憶を学習させて囲碁させます• 人間が囲碁を習う際の取り組みも後者です、プロの先生の記録(棋譜)を勉強します• 全ての場合の手を考えているわけではなく、強い人は、ほとんど何も考えずにも、この手はないと経験から最善手の候補を絞り込んで打っています

囲碁の強い人とは何か?

Page 16: AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

• どの手が最善手か(一番勝つ可能性が高いのはどの手か?)囲碁におけるディープラーニングの活用

【入力層】 【ディープラーニング】人間の脳に模したモデル(深くすればいいというものでも。。)

【出力層】最善手の候補

候補A : 勝率 70

候補B : 勝率 66

候補C : 勝率 60

Page 17: AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

【二つネットワークが別個に構築される】• 局面の勝率を評価するモデル (value networks)• 着手の勝率を評価するモデル (policy networks)

【人間においても二つが別個の判断から着手が決定される】• 形勢判断(局面の勝率を評価)• 最善手の選択(着手の勝率を評価)形勢が悪い場合、相手に正しく対応されると、本来悪手であっても、形勢判断に基づき、相手のミスする可能性としない可能性、ミスした際としなかった際の形勢判断のバランスで着手が決定されます。

アルファー碁のネットワーク構成

Page 18: AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

【 AlphaGo における CNN(SL Policy network) の構成】• 入力は 48 チャネル (黒石 /白石の位置、石の生き死に・・・ )• 中間層は 13層構成

• 3,000万の盤面データをベースに 50GPU で 3.4 億ステップ、 3週間にわたり学習を続けた結果、プロの指し手を 57.0% の精度で予想することができるようになった。( Mastering the game of Go with deep neural networks and tree search )

アルファー碁の畳み込みニューラルネット(CNN)

Page 19: AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

【教師データ】• インターネット囲碁道場 KGS の六〜九段の棋譜 16万局 (約

3000万局面 )

【自己対戦】• 「 policy network 」同士を対局させて、「 RL policy network

pρ 」を構築• 「 RL policy network pρ 」を 50GPU で 1 日かけて 128万回自己対戦を繰り返して強化学習

• 恐らく、強化学習の部分が最も人と差がつく(違いが明白)になるポイントです( 1 日 128万局は不可能!)

先生はプロ棋士と自分自身

Page 20: AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

【モンテカルロ木検索 MCTS(Monte Carlo tree search) 】• 最善手の探索にはモンテカルロで勝率の高い着手を選びます• いい手でも負けうるので(確率)、調整の変数と勝率を組み合わせて決定

• (w/n) + (2log t/n)1/2 乗 が最大となるものを選びます

• 人工知能囲碁の特徴として多く勝つのではなくて勝率の高い手が選ばれる確率が高い• 自己対決の回数に応じて精度が向上される確率が高い

アルファー碁はモンテカルロ木検索が用いられています

勝率 調整

Page 21: AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

4.AlphaGo に注目する意義

Page 22: AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

【アルファー碁から何を学ぶのか】• 完全情報ゲームにおいては、囲碁という場合の数がほぼ無限に存在するゲームにおいても、少なくとも人間以上には、素敵な回答を人工知能は算出することが可能• そのためには、教師となるデータと、そのデータから構築されたモデルにより自己学習を繰り返すことで、精度をあげることが可能• その際、モンテカルロなど異なるモデルとの複合により、より精度が向上する可能性がある【今後】• 2016 年度末に登場した改良版(通称: Master )は、今までのものを寄せ付けない強さで、モデルの改善点については引き続き注目する

他の分野(特に完全情報ゲーム)に適応可能だから

Page 23: AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

5. 連絡先

Page 24: AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

【連絡先:今井健太郎】※個人の SNS は更新していなく恐縮ですが、直接、ご用事がありましたら、Messenger 、 DM などでお気軽にご連絡頂ければ幸いです。

何か御用がある方はお気軽に

・ https://www.facebook.com/kentaro.imai.90 ・ https://twitter.com/imadon_kentaro

Page 25: AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

参考ニュース( DeepMind より)