AlphaGo雑感

なんとなくだけど,AlphaGoは実はかなり素直な実装になってるような気がする.以下,推測というか想像.

  • 深層学習を用いた Value NetworkとPolicy Network は紛れもない新技術.Value Networkは従来の評価関数(evaluation function)に相当する.Policy Networkは,たとえばオセロやチェッカーには不要な物.「可能な全ての手」が自明であったから.

One neural network, the “policy network”, predicts the next move, and is used to narrow the search to consider only the moves most likely to lead to a win. The other neural network, the “value network”, is then used to reduce the depth of the search tree -- estimating the winner in each position in place of searching all the way to the end of the game.

http://googleresearch.blogspot.jp/2016/01/alphago-mastering-ancient-game-of-go.html
  • それらを用いて,αβ法やMin-Maxを使った探索を行っているのではないか?ニューラルネットを除けばオセロやチェスで使ったようなのと本質的に同等の処理.
    一手ごとにそれをやるんじゃなくて,十手くらいはモンテカルロでランダムにやって,結果部分をValu Networkで評価するとか,そんな感じだろうか?
  • やってる内容としては,人間の解説者が盤面にパチパチ石を置いて「試しにこれを選んだ時,こうしてここにうって,こうすると,いや思ったほど悪い手じゃないかもしれませんね」「こっちにおいたらどうかな?えっと,...」と判断するのと同じ.毎回思考時間の度にPolicy Networkに従って最大十数手先まで何百何千という手に対してこれをやって,その中からValue Networkで判断して最も良さそうな手を選択する.場合によっては枝刈りもする.その結果だけ見ると,従来の定石にはなかった斬新な一手になる.
  • その結果,「平均的には悪手だけど,このコンテキストにおいては悪くない手」というのも出てくるのだろう.ひょっとしたらイ・セドル九段対策として,積極的にそういう「悪手」の方を選択しているかもしれない.
    悪手も分からん初心者にとっては影響ないけど,悪手も良手も知り尽くしている名人にとっては,思考を混乱させること著しい.
  • 中には本当に悪手を打ってることもあるかもしれないが,「悪手に見えるが,そうじゃないかもしれない」という状況では疑心暗鬼に陥って,毎回熟考しないと方針が決められない.かと言って適当にうつと足下をすくわれる.これは精神的にも思考時間的にも名人を追い詰めることになる.
  • コウ争いについては,10月バージョンで対応済みらしいので,たぶん平気なのでは.*1むしろプログラム的には「コウ争い」とか「詰碁」の方が,「大局観」よりもずっと楽.できてても不思議はない.それが苦手なモンテカルロ碁の方が異質なんだと思う.*2


仮にこの通りだとしても,一口に方針を書くだけなら簡単だけど実現するとなると問題山積みなのは言うまでもない.チューニング一つで,性格もガラリと変わるだろう.仮にアルゴリズムが分かったとしても,人間の棋士ができる簡単な対策がないのも同じだしな.


うーん,やっぱちゃんと論文読まにゃあかんなあ.

nature [Japan] January 28, 2016 Vol. 529 No. 7587 (単号) ゲームプログラミング コンピュータ将棋の進歩 6 -プロ棋士に並ぶ- コンピュータ囲碁 ―モンテカルロ法の理論と実践―

nature [Japan] January 28, 2016 Vol. 529 No. 7587 (単号)

nature [Japan] January 28, 2016 Vol. 529 No. 7587 (単号)

*1:「コウを積極的に活用してみるかに関してはよく分からない。 10月バージョン AlphaGoはコウ争いを立派に行った。 利害得失計算も正確だったし損するコウ材も使わなかった。 起伏があるかは分からないが今回もAlphaGoはコウ争いをよくやり遂げる可能性があるという話だ。 」 http://nitro15.ldblog.jp/archives/47063599.html

*2:「むしろモンテカルロ法囲碁?その発想はなかった,プゲラ」だよねえ.しかも結構強かったというのが,なんとまあ.
「ランダム入れ替えソート」というジョークならあった.O(n!)かな?