Google DeepMindの囲碁ソフト AlphaGoの衝撃


(ゲーム)プログラミングのブレークスルー来たれり?*1

イ・セドル9段との対戦は3月9日(水)から15日(火)にソウルで開催.全対局をYouTubeで生中継.

1)対局は互先で総五対局を打って3月9日1局、10日2局、12日3局、13日4局、15日5局を打つ。
2)五回の対局で3勝以上をおさめた側が優勝して賞金100万ドル(固定為替レートで11億ウォン)を占める。
3)AlphaGoが勝利する場合、賞金はユニセフとSTEM(科学、技術、工学および数学)教育および囲碁関連慈善団体に寄付される。
4)3-0または、3-1で早期に優勝が決定されてもスコアに関係なく五対局を全て打つ。
5)制限時間はそれぞれ2時間であり秒読みは1分3回だ。 また、中国ルールにより進行されてコミ7目半を適用する。
6)対局開始は午後1時であり途中休み時間なしで終局までノンストップで進める。
7)対局場所はソウル、鍾路区(チョンノグ)に所在するフォーシーズンズホテルだ。

http://nitro15.ldblog.jp/archives/46901280.html

nature [Japan] January 28, 2016 Vol. 529 No. 7587 (単号)

nature [Japan] January 28, 2016 Vol. 529 No. 7587 (単号)

表紙の集積回路では、基板上に埋め込まれたコンピューターチップの1つが碁盤になっていて、その譜面は2015年10月5日に行われた中国のプロ棋士樊麾(Fan Hui)(黒)とコンピュータープログラムAlphaGo(白)との間の歴史的な対局の最終局面を示している。この対局では、マス目の数が19 × 19のフル規格である19路盤を使い、しかも置き石というハンディキャップなしの条件で、コンピュータープログラムがプロ棋士に初めて勝利した。1997年、チェス用コンピューターのディープ・ブルーが、当時の世界チャンピオンだったガルリ・カスパロフとの6番勝負で勝利したことは、人工知能の発展における画期的な出来事と見なされてきた。だが、さらなる難問がまだ残っていた。それが、古代からの遊戯の囲碁である。コンピューターの碁を打つレベルは、数十年にわたる改良にもかかわらず、最強のものでさえ、最近までアマチュア棋士程度だった。こうした状況下で今回登場したのが、グーグル・ディープマインド社(英国)が開発したプログラム、AlphaGoである。このプログラムはディープニューラルネットワークを用いて熟練した棋士の思考を模倣しており、自己対局から学習することで、性能をさらに向上させる。AlphaGoは、他の最強の部類の囲碁プログラムとの対局で99%の勝率を達成しており、現在のヨーロッパチャンピオンである樊麾との5回の対戦でも全勝している

http://www.natureasia.com/ja-jp/nature/highlights/71694

掲載されるのはこれみたいだけど,うわ高いよ...*2


ニュースの扱いが小さいが,これ思った以上にでかいニュースじゃね.日本の経営者はよく勉強しておくように.

いずれ学会誌あたりで,専門家が書いた特集記事で詳しく解説してくれるだろう.


オセロもチェス/将棋も,ゲームプログラミングの基本アルゴリズムは大差ない.(評価関数は大きく異なる.)長年のあいだ評価関数,αβ法,Min-Max法などをベースに,計算スピードを上げて深読みする「力業」で強くなってきた.ところが囲碁ではこの手が通用しない.盤面の評価が数値化しにくくて評価関数が作りにくいだけでなく,可能な手の数が多すぎて単純に木を全探索すると膨大な局面を処理する必要が出て,超並列マシンやスパコンを使っていくら計算速度を上げても焼け石に水なのだな.

こういったやり方は囲碁では不可能だ。チェスでは、どの局面でも平均で35通りの打ち方がある。これに対し、縦横19本の線が引かれた盤の上に石を並べて争う囲碁では、打ち方は250通りだ。そしてその250の打ち方それぞれについて次の250があり、これが続いていく。ハサビスが指摘するように、囲碁では宇宙に存在する原子よりたくさんの手数があるのだ。


だから何か大きなブレークスルーが無い限り,単純な力業だけではチェスのようには強くなれないだろうと長い間言われてきた.


そこでニューラルネットを使って,基本的なアルゴリズムレベルから変更したのがAlphaGoらしい.

  • One neural network, the “policy network”, predicts the next move, and is used to narrow the search to consider only the moves most likely to lead to a win.
  • The other neural network, the value network”, is then used to reduce the depth of the search tree -- estimating the winner in each position in place of searching all the way to the end of the game.

定石データベースの様な機能を持つ policy networkで次の有望な手だけに絞り込んだ探索木を作り,評価関数のような機能を持つ value network でその局面の善し悪しの判定を行うようだ.*3学習にはGoogleクラウドの膨大な計算能力を使ってるのは言うまでもない.

これだけでも見ててゾクゾクしてくる.

Because the methods we have used are general purpose, our hope is that one day they could be extended to help us address some of society’s toughest and most pressing problems, from climate modelling to complex disease analysis.

とまあデカい夢を語っているわけだが,これもあながちホラではないと思う.


基本は汎用的な手法なので,今後いろんな分野に応用されて,有り様を変えていくというのは十分考えられると思う.*4 海の向こう側では,ここにビジネスチャンスを感じて動き始めているプログラマーや起業家たちだっているかもしれない.そしてまた日本はここでも敗者となるのだ.


ほとんど「未来の二つの顔」や「HAL」な世界観だなあ.*5

未来の二つの顔 (創元SF文庫)

未来の二つの顔 (創元SF文庫)

「だが,コンピュータをプログラムすることだって労働だぜ」とダイアーが指摘した.「それに,もっと複雑な仕事をさせようと思えば,だんだん骨の折れる労働になる.それなら,コンピューターに自分でプログラムを作らせては,どうしていけないんだい?」
「彼等には,プログラムが解こうとする問題が理解できないもの」
「そのとおり」ダイアーは満足げに頷いた.「彼らが問題を理解できないのは,理解する能力が与えられていないからだ.彼らには,どんな新生児にもあるような物事を認識してそれを結びつけるような基礎的な能力がない……厳密にはHESPER装置が現れるまでなかったんだ.しかし,仮にFISEを教育して,現実世界の概念を十分にのみこませ,独力で確実に常識的な決定が可能になるようにできたとしよう.そうすれば今度は彼に専門教育を施して − そうだな,製鋼か何かにしようか − 製鉄所を効率良く運営するために心得ておかねばならない知識をすっかり頭に入れさせることができる.それから彼を,例えば製鉄所のマネをする別のコンピューターに繋いで,しばらく練習させる.彼は頭がいいので経験から学ぶことができるし,コンピューターだから飲み込みが早い.間もなく,この分野にいるどのチームよりもずっと優れた有能な支配人ができあがることになる.

「もっと正確に言えば,プログラミング方式の一つなんだ."Heuristic Self-Programming Extensible Routine(ヒューリスティック自己プログラミング拡張ルーティン)"の頭文字だ − つまり,先へ進みながら学ぶことのできる構造を作っている一組の相関プログラムだ」
「どこが違うのかよく分からないわ」
「程度の問題なんだよ」と彼は言った.「HESPERシステムは,特定の種類の応用のために専門化されたものなんだ.HESPERシステムは一定期間のうちに例えばチェスを指すことに最適化するように設定できる.勝負を重ねるにつれて上手になって,しまいには人間には太刀打ちできなくなるんだ.もっとも,有能なのはそれだけだ.ところが,FISEのような機械には,(以下略)」

HAL(ハル)伝説―2001年コンピュータの夢と現実

HAL(ハル)伝説―2001年コンピュータの夢と現実

ハサビスは、こうした手法が科学研究を加速させることもできると考えている。科学者たちが、実を結びそうな研究分野に狙いを定めることのできるAIシステムと協力する未来だ。「AIは人間よりはるかに大量のデータを処理し、物事をより効率的なやり方で構造的に洞察することができます。これは人間の専門家にはできないかもしれません」。彼は続ける。「AIが、研究を前に進めるための画期的な方向性を指し示す可能性だってありえます」

http://wired.jp/2016/01/31/huge-breakthrough-google-ai/

Bioinformaticsなんてそういう用語が作られてるくらいだし.ITが技術革新を加速するという実例は既にある.




対戦動画は,全五戦の全ての対戦が作られてるようだ.



ゲームプログラミング

ゲームプログラミング

コンピュータ将棋の進歩 6 -プロ棋士に並ぶ-

コンピュータ将棋の進歩 6 -プロ棋士に並ぶ-

はたして「コンピュータ囲碁の進歩」は出るのだろうか.

コンピュータ囲碁 ―モンテカルロ法の理論と実践―

コンピュータ囲碁 ―モンテカルロ法の理論と実践―

ある意味これがそうなのかな?


ちなみにMin-Max法やαβ法ならこっちにも載ってた.なにせ古典的アルゴリズムだから.持ってるけど知らなかった人は開いてみると参考になるかも.

アルゴリズムクイックリファレンス

アルゴリズムクイックリファレンス

その二版.

Algorithms in a Nutshell: A Practical Guide

Algorithms in a Nutshell: A Practical Guide

ほぼ画面キャプチャのみ.ゲームプログラミングの原点かな.



注目のイ・セドル戦については,今回は必ずしも勝たなくてもいいような.例えば

  • 今年:2対3でAlphaGoの負け.
  • イ・セドルは賞金100万ドルを獲得.富と名誉を手に入れる.
  • AlphaGoは負けたものの,AlphaGoはトッププロに匹敵する強さがあると全世界にアピールする.
  • 両者,翌年の再戦を約束して閉会.

みたいな形の方が丸く収まりそう.

イ・セドル氏には,いわばAlphaGoの宣伝に協力してもらう形なのだから,報酬くらいは渡しても罰は当たらない.しかしプロなのだから報酬を渡すなら正々堂々と戦い,勝利して賞金として渡さなければ意味がない.八百長や残念賞では,むしろ相手に失礼だ.*6


囲碁ニュースまとめブログ nitro15

http://nitro15.ldblog.jp/tag/AlphaGo

「【韓国話題】 「どちら側が人工知能なの?」グーグル人工知能'AlphaGo'のニュースを聞いた中国囲碁第一人者柯潔の反応」

http://nitro15.ldblog.jp/archives/46693657.html

この報せに接したコ・ジェは“白黒を確認しないで人工知能AlphaGoと樊麾2段の棋譜を見た。 どちらが人工知能でどちらが樊麾2段なのか分からなかった。 人と人が打ったように見えた”としながら“(AlphaGoは)捨てる所は捨てて退く所は退く、とても均衡的な棋風だった。 以前に日本人工知能囲碁プログラムゼン(zen)は時々突然におかしな手を打ったりもしたがAlphaGoからは全くそのような面を見つけてみることはできなかった。 どこが重要なのか知っていたし流れも切れなかった。 本当にすごい。”と話した。

チェ・キュビョン9段も"AlphaGoがプロ棋士らと相手にするには2〜3子を先に置いて打つ置き碁が適当に見える"と評価してコンピュータがプロ棋士の壁を越えるのはまだ時期尚早だと話した。 国内専門家たちは概してこのようにイ・セドルの勝利を予想した。

コ・ジェは“私が見るにプロ入段直前の実力だ。 たとえプロ水準に達することができていなくてもプロにとても近接した実力だ。 どちらが人工知能プログラムなのか見違えるという自体がとても驚くべき事だ。 五対局だけで短所をよく捜し出すことができなかったがこれは相手の樊麾2段がまともに実力発揮をできなかったためであるようだ。”と評価した。

今回の対決の最も重要な勝負要件は対局条件だ。 対局条件がまだ決まっていなくて議論中であることが分かった。 公正性を期するためには一般世界対局と同一に時間制限、コミなどに対する規定が同じでなければならないだろう。

AlphaGoにとっては読み時間は5分でも30分でもほとんど同じだろう。 だが、イ・セドルには非常に異なる事だ。 もし早碁で打つならばイ・セドルが不利で制限時間が長いならばイ・セドルに多少有利なこともある。

人間の限界に挑戦するというために一般的な世界大会と同じ時間で進行されるものと見られる。

あんちべ!「厚みと模様とAlphaGo」

http://antibayesian.hateblo.jp/entry/2016/01/29/002445

よく囲碁のプログラムを作成するのが難しい理由として、「盤面が広いから」を挙げられることがあります。

「(開いてるところなら)どこに置いてもいいから」もあると思う.

理由の1つとしてはその通りなのですが、囲碁の難しさは計算量だけではありません。難しい理由のもう一つ、そして私が最大の理由だと考えるのは、「評価関数がわかりにくいから」です。囲碁にはチェスのように「クイーンはポーンより重要」だとか、「単なる移動よりかは相手の駒を取る動きの方がより重要*2」だとか、そういうわかりやすい評価基準がなかなかありません。

A級リーグ指し手1号「AlphaGoが誇大広告ぎみな件」

http://aleag.cocolog-nifty.com/blog/2016/01/alphago-21ae.html

そういう側面もあるかなとは思うけど.

  • 条件を変更した時に,誰にどの程度有利になるかは千差万別.
  • 「本気出せば勝てたはず」は,所詮は負け惜しみ.「明日から本気出す」と大差ない.*7
  • レーティングが上がるとは「思えない」と思うのは勝手だが,それを証明するには実際に戦ってみるのが一番.
  • 結局は勝敗が全て.実際に世界チャンピオンと勝負して勝てばAlphaGoの強さは本物だし,負ければそれまで.しょせん今回のは小手調べ.本気を出したAlphaGoの実力は,3月に予定されてるイ・セドル9段(?)との対局を見た方が早い.*8
  • 「世界で初めてプロ棋士に勝ったコンピュータ」としてニュースになってるが,そもそもGoogleが売りにしてるのはそこじゃない.ダシにされたプロには悪いが,Googleのターゲットは深層学習を使ったAlphaGoで世界チャンピオンを倒すことじゃね?*9
  • マシンパワーを追加しただけで勝てるなら苦労はない.*10
  • 「将棋の人だから,囲碁のことはよくわかってない」みたいなご意見も.
  • 棋譜を見た囲碁の達人たちからは「今までの囲碁プログラムとは全く違う」「どちらが人間が打ったか棋譜からでは分からない」みたいな意見が多い.


特にマシンパワーについては,マシンパワーを100倍やそこら上げても焼け石に水なのが囲碁(や他のゲームプログラミング)の難しい所.

これに対し、縦横19本の線が引かれた盤の上に石を並べて争う囲碁では、打ち方は250通りだ。そしてその250の打ち方それぞれについて次の250があり、これが続いていく。

極論すれば,250倍の性能のマシンを持ってきても,力業ではせいぜいもう一手深く読める(たとえば読めるのが3手から4手になる)だけ.しかも評価関数の精度が低かったから,それだけではあまり役に立たない.

モンテカルロ碁の場合はもう少し複雑になるけれど,「マシンパワーを10倍にしたから2倍の強さになる」というほど単純なものではあるまい.

村上深のブログ(脱サラ→囲碁界の住人)

棋譜について解説アリ.

....素人なので,よく(全く)分かりません.

全五回分の棋譜はこちらが便利: http://www.perfectsky.net/blog/?p=289

三村囲碁jp (囲碁棋士九段)

http://mimura15.jp/alphago%E6%A3%8B%E8%AD%9C%E6%84%9F%E6%83%B3

「初めてプロに勝った」とされているのが正しい表現かどうかは置いておいて、飛躍的にレベルアップした事は間違いない。かなり人間のトッププレーヤーに近づいたと思う。

打ち筋が非常に自然なのも特徴で、棋譜を見ていて人間が打っているのと違いを感じない。

私はコンピュータプラグラムについて知識が無いので、打たれた碁の内容について感想を書く。

一言で言えば従来のものより飛躍的に進歩し人間のトップ選手にかなり近づいている。

まだ人間を越えては無さそうだが、恐ろしいのは1日100万局自分同士で対局し、自分で強くなれる仕組みがあるとの事だ。

100万局って人間の一生の何回分だ・・時間の流れ、スピードが違いすぎる。

この対局が行われた10月から3月までの間に、相当レベルアップしてくるだろう。

非常に地味な碁で、これだけ見れば両者大したことは無いと感じさせられる。しかしこれはfanさんの作戦だろう。

これだけ平板な進行の中にもAlphaGoはいくつか目を見張る強さを見せた。とりあえず私にはハッキリしたミスが見つからなかった。

Twitter

適当に摘まみ食い.











ID: deepmindはAlphaGoの世を忍ぶ仮の姿か?

とりあえず眉唾物だと思っていたが,

http://gokifu.net/t.php?s=6041454344472038
もし本当だったら面白い.

要するに,凄く強くないと挑戦を受けてもらえなくて「強くなってから出直してこい」と言われるってこと?
本当に強いソフトだったら,これがAlphaGoであるという説にも信憑性が出てくる.強いソフトの開発者なら嘘をついてAlphaGoのフリをするメリットがないから.




しかも読み切ると凄く早くなると言うことなので,コンピューター プログラムであること.かなり強くて,プログラムとしては史上最強レベル(らしい)ことを鑑みると,とりあえず本物と仮定してよさそう.



余談「ニューロコンピュータ」ブーム

Amazonで「ニューロコンピュータ」で書籍を探すと,1990年前後に集中している.この頃が(第一次?)ニューロコンピュータ ブームだったんだろなあ.

ニューロコンピュータ革命 (講談社ビジネス)

ニューロコンピュータ革命 (講談社ビジネス)

ニューロコンピュータの基礎

ニューロコンピュータの基礎

ニューロコンピュータの現状と将来

ニューロコンピュータの現状と将来

ニューラルネットワーク―コレクション

ニューラルネットワーク―コレクション

「ニューロファジイ掃除機」とかも…….*11


「ニューロコンピュータで囲碁も攻略できるんじゃね?」みたいな発想は当時からあったと思うけど,実際に攻略するにはざっと四半世紀かかったわけだ.


余談2:機動警察パトレイバー

パトレイバーのピースメーカー(1989年)もこの頃だっけ.

「歩く特許」と呼ばれるほどに最新技術を随所に使用し、人間の神経を模した「ニューロン・ネットワーク・システム」を搭載している。五味丘務巡査部長、結城巡査達ら第一小隊隊員によってシステムは人間が注意しなくても機体が自動的に周囲の障害物を避けて損害を最低限に抑えるように成長したが、その反面レイバーの行動自体を少なからず制限(目標が一般住宅などを背にすると攻撃的な行動をとれない)する事になり、それを敵に利用されると、ニューロン・ネットワーク・システムが稼働中のレイバーは行動さえできなくなる、ある意味「諸刃の剣」でもある。

漫画版のAVR-0のHOS-SADと得られるメリットは似ているが、ニューロン・ネットワーク・システムはピースメーカー本体のみで完結しているシステムであり、より完成に近づいているといえる。

http://ja.wikipedia.org/wiki/%E6%A9%9F%E5%8B%95%E8%AD%A6%E5%AF%9F%E3%83%91%E3%83%88%E3%83%AC%E3%82%A4%E3%83%90%E3%83%BC%E3%81%AE%E7%99%BB%E5%A0%B4%E3%83%A1%E3%82%AB#.E3.83.94.E3.83.BC.E3.82.B9.E3.83.A1.E3.83.BC.E3.82.AB.E3.83.BC


http://www.b-ch.com/ttl/index.php?ttl_c=922

ディープラーニング強化学習と呼ばれるテクノロジー、その他の手法とを融合させたディープマインドの技術は、現実世界でロボットが肉体作業を学んだり周囲の環境に対応したりできるようになる未来への道を指し示している。「ロボティクスにうまく調和するんですよ」とハサビスは言う。

http://wired.jp/2016/01/31/huge-breakthrough-google-ai/

*1:名前は「アルファ碁」の意かな?アルファ……そーゆー名前のCPUもあったなあ... https://ja.wikipedia.org/wiki/DEC_Alpha

*2:すでに売り切れたみたいだが,PDF(3300円)ならオンラインから入手可能な模様.

*3:そういえばvalueには「評価する,値踏みする」の意味もあったな.

*4:モンテカルロ碁は,囲碁の特製に強く依存していて汎用性はない.

*5:さすがにFISEやHESPERほどに賢くはないので,どんなデータをどのように処理するか,目標は何をどのように設定するかなどなど,全部手取り足取り教えてあげなければならないけどね.

*6:そういえば賞金100万ドルって,このランクのプロからするとどのくらいの金額なんだろう?平均より上?下?

*7:AlphaGoの方も,もっと強い人間でも倒せる可能性もまだあるんだが...

*8:つまり今回の発表は「予告編」だと思うのよね.「こんだけ強くなったので,次のチャンピオン戦をお楽しみに!」その結果,予定通りに世界中の囲碁関係者とゲームプログラミング関係者の注目を集めたんじゃない?

*9:「ZENだって,本気出せばプロの端くれとなら互角に戦えたはずだ!明日から本気出す!」「AlphaGoは既に世界トッププロに挑戦状叩きつけましたが,何か?本気出したAlphaGoならチャンピオンにだって勝てる.」くらいの意識のズレがあるように思う.

*10:アスキーでコンピューターオセロをやってた頃から,どんだけマシンパワーが上がってると思ってるのよ.極論すれば「今の100倍のマシンパワーを用意すれば人間に勝てる」くらいなら,とうの昔に勝ってたって.

*11:たかが掃除機で意味あるのかよとは思った.プラズマクラスターマイナスイオンよりはマシ?