game programming seminar - 東京工科大学公式サイト

1

人工知能入門-探索による人工知能-

Lecture 15

何故コンピュータ囲碁は世界ーの人間に勝てるのか？http://www.cloud.teu.ac.jp/public/CSF/grimbergen/AI/

囲碁の評価関数の問題

強いゲームに強力な評価関数の設計が必要ゲーム特有の知識が必要なのでゲームの強い人が必要になる

評価関数の学習はあいう程度できるようになったが、学習対象のパラメータを選択するにはゲームの性質の理解が必要となる• 囲碁の場合：評価が曖昧で、評価関数は作りにくい

モンテカルロ法評価関数がいらない探索方法

勝ち負けの判別ができるところまで探索する• 勝ち負けの判定はゲームのルールで決めるのでルールを実装すれば良い

2

モンテカルロ法の基本ゲームでのモンテカルロ法「ある局面からランダムに手を指し続けたときの勝率を計算し、勝率が高い局面ほど優れた局面と判断する」

3

現在の局面

相手の手番

自分の勝利

相手の勝利

プレイアウト

囲碁でモンテカルロ法が大成功

2016年3月8日～15日:Google DeepMindChallenge Match

Lee Sedol（韓国、トッププロ） vs. AlphaGo（Google開発の囲碁AI）

結果：AlphaGoの4勝1敗（コンピュータの圧勝）

4

AlphaGoは何故そんなに強いか

AlphaGoの内容

UCTによるモンテカルロ法

ランダムシミュレーションの手の選び方を単純なランダムではなく、プロが選ぶ手を高確率に選ぶ

先端ハードウェア• 1,202個のCPUと176個のGPU

ディープラーニング

5

AlphaGoは何故そんなに強いか

ディープラーニング

「プロが選ぶ手」はニューラルネットワークを使って機械学習

学習のためにプロレベルに近いプレイヤーの約16万対局を利用

6

学習

ゲームにおける機械学習コンピュータがプロの棋譜を使って、評価関数を学習する学習のやり方：プロの手を真似する

学習に時間がかかる• 多くにプロの棋譜を何回も繰り返して学習する

7

プロの手コンピュータの手

学習プロの手

コンピュータの手

AlphaGoの問題

Google DeepMind Challenge Match、第4局

AlphaGoは人間が考えられない悪手を連発、Lee Sedolの勝ちになった

AlphaGoの開発者：「原因は分かりません」

8

AlphaGoと人工知能

9

AlphaGoの勝利に対して、人工知能の研究者の反応

「一般的な人工知能もこの方法でできるかもしれない」

Global Challenges Foundation Report

人類を滅亡させるかもしれない12の事象二酸化炭素濃度の上昇核戦争生態系の崩壊世界規模のパンデミック大規模なシステム崩壊巨大隕石の衝突大規模な火山活動合成生物学ナノテクノロジー人工知能未知のリスク劣悪なグローバル・ガバナンス

10

人工知能によって人類の将来

21世紀に人間の能力を超える人工知能が登場する意見１（Stephen Hawking教授）「人間は要らなくなるので人工知能だけが残る」

意見2（I教授）「人間の仕事がなくなる」

11

人工知能によって人類の将来

12

皆さんはどうなると思いますか？

game programming seminar - 東京工科大学公式サイト

Documents