AlphaGo,その後

AlphaGo関連記事.メモ的に

nitro15

http://nitro15.ldblog.jp/tag/AlphaGo

「【AlphaGo】イ・セドル人工知能に拍手喝采を送る キム・ソンリョン9段の観戦記」

http://nitro15.ldblog.jp/archives/47114669.html

人間が考えにくい手が多かったし中盤に移って計算能力は人間の水準では耐え難いほどであった。 その上に得た事があるならば人工知能も失敗を見せるということ。

それが計算された失敗なのか、でなければ本当にエラーなのかを区別する事も難しかった。 人間の感情が排除された、あたかも株式プログラム売買技法と同様の損切りのような感じで打つ時もあって、反対に果敢に少しだけ利益報告を見て他に移る姿も見る事ができた。

「【AlphaGo】AlphaGo世界ランキング2位」

http://nitro15.ldblog.jp/archives/47114523.html

Go Ratingsのランキングは非公式であり、囲碁にはまだ公式的な世界ランキングがない。

AlphaGoは13日まで4位だったが5局に勝って順位を引き上げた。 イ・セドルは3520点で5位に押し出された。 一方1位には中国のコ・ジェ9段(3621点)、3位にはパク・ジョンファン9段(3569点)、4位には日本の井山裕太9段(3545点)が位置した。

「【AlphaGo】「体重7kg落ちて……AlphaGo次は超えることができる 」世紀の対局イ・セドル単独インタビュー」

http://nitro15.ldblog.jp/archives/47123395.html

彼は"初めには有利に組んだが勝ちたいという欲が出て別の方法で打ってしまった」とし「その後形勢は悪くなかったが、AlphaGoが好きな単調な局面に変わり、流れが変わった」と述べた。

今回の対局を通じ、今後囲碁を打つ姿勢もたくさん変わることだと言った。彼は「これから定石ではなく、人間の感覚に合わないと打たなかった手法や状況の詳細については細かいことを読む力が必要だと感じた」とし「私たちが今までは超えることができた相手が、多くの話題を投げてくれた相手」と述べた。

「【AlphaGo】イ・セドルvsAlphaGo秘話、無条件で勝つことだと思って再対局の契約はしなかった」

http://nitro15.ldblog.jp/archives/47122482.html

グーグルがイ・セドルに100万ドルをかけて五番勝負を提案した時、多くの囲碁界の人々はイ・セドルの途方もない幸運に驚いた。中国古力との十番勝負の勝利で10億を稼いだイ・セドルがグーグルが掲げた賞金10億をまた持っていくと考えた。

だが、事実その時、囲碁界は気を付ける必要があった。世界最高企業というグーグルが自分たちの最終ボス(エリック・シュミット)と共同創業者(セルゲイ・ブリン)まで韓国に呼び入れて試合を行う時それなりに準備ができていたという事実を。

公開された表によればイ・セドルとAlphaGoの1局が進行された去る9日、713.53ドルであったグーグルの株価が2局が進行された12日には744.87ドルで4.39%上昇した。これは韓価10兆8700億ウォンに該当する金額で今回のイ・セドルとAlphaGoに対決に対する全世界の人々の関心を一目で現わす数値だ。

事実今回のチャレンジマッチ契約書に再対決に対する内容があった。 グーグルはAlphaGoがイ・セドルに敗れる場合、必ず再対決をしなければならないと主張した。それで契約書もそのように作成された。だが、当時私たちはイ・セドル9段が敗れると思わなかったために再対決に対する内容を契約書に入れなかった。今になって考えれば本当に惜しい部分だ。”と打ち明けた。

「【AlphaGo】AlphaGoの父デミス「ありがとうタイジェム!」Googleディープマインド デミスCEO、タイジェムチャン・ソンギェ部長と記念撮影」

http://nitro15.ldblog.jp/archives/47123702.html

だが、9段昇段に成功してdeepmindの成績は垂直上昇する。 都合103対局試合をおこなったdeepmindは72勝31敗で勝率70%に肉迫する成果を上げる。

AlphaGoの開発者のうちの1人でありタイジェム約6〜7段棋力であるAja HunagのIDだとGoogleディープマインドで公式に認めたdeepmindがもし人が打ったのなら不可能な成績だ。

8段の成績より9段昇段後勝率が良くなるというのは常識的に有り得ないことであるためだ。

この段階でdeepmindはおそらく飛躍的な発展があったものと推測される。

一方タイジェムではイ・セドルvsAlphaGo対決の余波で最近人工知能囲碁プログラムが大きい関心を受けているのと関連して3月1ヶ月の間タイジェム対局室で人工知能との対決を無料でオープンする。

これはAlphaGoと打てるって意味なのかな?打ったら打ったで,DeepMind社に貴重な研究資料を提供する結果になるかもしれんけど.


「【AlphaGo】イ・セドル、彼はなぜ特別なのか-奇抜な思いつきと勝負気質」

http://nitro15.ldblog.jp/archives/47106607.html

「【AlphaGo】感情のないAlphaGoの前で…イ・セドルは'謙虚の手'を学んだ」

http://nitro15.ldblog.jp/archives/47105765.html

「【AlphaGo】樊麾「イ・セドル、途方もない圧迫でも一発飛ばして」」

http://nitro15.ldblog.jp/archives/47105652.html

「【AlphaGo】イ・セドルvsAlphaGo全5局棋譜まとめ」

http://nitro15.ldblog.jp/archives/47106863.html

Wired「「またこれから学ぶことが増えました」AlphaGoとイ・セドルが、囲碁にもたらしたもの、AIにもたらしたもの」

http://wired.jp/2016/03/16/final-round/

「過去、自分が本当に囲碁を楽しんでいるのかどうかを疑問に思ったこともあったのですが、今回のAlphaGoとの対局は5戦ともすべて楽しむことができました。AlphaGoとの対局で、わたしは古い考え方に少し疑問をもったような気がします。またこれから学ぶことが増えましたね」

Wired「なぜ「囲碁」だったのか。なぜ「10年かかる」と言われていたのか──AlphaGo前日譚」

http://wired.jp/2016/03/15/the-mystery-of-go/
ゲームプログラミングにおける囲碁の難しさに関する解説記事.

チェスよりも単純なように思えるが、実際はそうではない。Deep Blueがカスパロフを打ち負かしていたころ、囲碁最強のプログラムは、素人を脅かすことすらできなかった。その後、カスパロフが自宅用のパソコンにすら負けるのではないかというほどコンピューターが大きく進化したにもかかわらず、達人レヴェルの囲碁プログラム開発は、人工知能の世界における最大の難問のひとつであり続けている。

可能な打ち手の数は、そのゲームの「分岐因子」、つまり一手あたりに可能な打ち方の平均数に直接影響する。チェスの分岐因子は35、囲碁は250だ。分岐因子の数が多いゲームは、例えば「ミニマックス」といった古典的な探索アルゴリズムの処理手順に極めて大きな負担がかかる。

同様に、特定の盤面から優劣の判断を下す過程も謎めいている。例えばチェスで10手打った時点で、一方がナイトを失い、もう一方がナイトを持ったままであれば、どちらが優勢かは明白だ。しかし囲碁ではそうはいかず、黒模様が大きくても安心できない理由や、白が「味が悪い」という理由はうまく説明できない。そうしたことはプロの棋士には明白だが、うまく数値化できない限り、コンピューターには把握できない。そして対局中盤での優劣の判断を行う有効な手段がない限り、世界中のボードゲームの探索アルゴリズムとして使われるアルファベータ法は最善の一手を導き出すことができない。

問題はそれだけではない。囲碁のありえないほど多い分岐因子と広大な状態空間(想定される盤面状態)の前では、アルファベータ法をどれだけ向上させてもまったく歯が立たない。対局における平均的な着手数(チェス40手、囲碁200手)を考えても、コンピューター囲碁の夢は無駄骨に終わるように思える。

ITMedia「盤上で探す「神の一手」 人間と人工知能が紡ぐ思考」

http://www.itmedia.co.jp/pcuser/articles/1603/16/news024.html

盤上の中央に置かれた相手の石と石の間に、自分の石を打ち込むワリコミ。「何これ?」「いやあこれは……妙手を通り越して、セドル九段の精神状態が心配になるレベルなんですが……」。まったく検討に上がっていなかった一手に、解説の棋士たちは困惑を隠さない。しかし、検討を深めていくと「これは恐ろしい手。正しく対応しないと形勢が逆転する」という評価に変わっていった。

 結論から言えば、この見方は正しかった。

「AlphaGoは自分がうまく進めていると思っていたのに、87手目の段階では混乱している。厳しい状況だ」「79手目(=白78の直後にAlphaGoが返した手)で失敗した。しかし、そのことに気付いたのは87手目付近だ」

これはAlphaGoが一手ごとに表示する「評価値」(どちらのプレイヤーの形勢が良いか)を見ての発言だ。つまり、セドル九段の一手はAlphaGoの読みの中にもなかった、あるいは読んでいたが手の価値を正しく評価できていなかったということになる。ハサビス氏が後日明かしたところによると、AlphaGoはこの手が選ばれる可能性を「1万分の1未満」と考えていたようだ。

しかし、コンピュータは往々にしてそうした指針を無視し(というか、最初から指針など持ち合わせていない)、「流れの中にはない手」を指す。これが人間にとっては大きな違和感となって映るわけだ。このようにしてコンピュータは「人間の盲点になりやすい」手を放つ。

棋理の正体とはつまり、「多くの人にとって受け入れやすい先入観」のことだ。「ほとんどの場合そうしておけばうまくいく」という感覚の集積だ。上達するにはこの感覚を身に着けることが必須となるが、ここで言う「ほとんど」とか「〜に決まっている」というところがクセ者で、真にトップレベルの戦いになると、こうした棋理の存在が時折邪魔になる。「いかに棋理を捨て去るか」という戦いになることがあるのだ。

現在は疑われていない定石/定跡や棋理の“外”に、実はたくさんの宝物が埋まっている。コンピュータが次々に見せる「人間には理解の及ばない手」は、そうした可能性を我々に提示する。

日経ビジネス「AIの「人間超え」、その時トップ囲碁棋士は」

http://business.nikkeibp.co.jp/atcl/report/15/110879/031600283/
いかにもな文系っぽい,典型的機械音痴の非科学的な記事になってると思う.

番組をご覧頂いた方には申し訳ないが、私の解説は間違えていたことになる。局面が進むにつれて徐々にアルファ碁の有利が鮮明になり、結局そのまま勝利したからだ。とても不思議な感覚だった。

 終局後、何度も棋譜を並べ直して考え、そして見えてきた結論がある。この手はアルファ碁(黒)による「勝ちました」、すなわちここで試合は事実上終了という宣言だったのだ。

それはニューラルネットを買いかぶりすぎだと思う.*1

ニューラルネットの形勢評価がそこまで神がかったものだとは思えないから.そう見えるのはあくまで結果論では.

「なんとなくこの辺が良さそうと思って打つ.なんとなくこっちが良さそうと思って手を進める.終わってみたら何故か勝っちゃった」.たぶんそんな感じ.

78手目の「ワリコミ」と呼ばれる手だ。迫力満点の手だが、実は人間同士の対局であればそれほど怖い手とは言えない。既に黒(アルファ碁)の優位は揺るぎない状況になってしまっているため、リスクを犯さずに妥協しても白はお手上げだ。

つまり,人間にとっては悪手であり,「あまり使わない手」だったってことだよね?なので学習に使った棋譜には「存在しない手」だったかもしれない.だとすれば学習されてないのも当然だ.

もちろん、正確なところはアルファ碁の中を覗いてみなければ分からない。だが、私はこの局面特有の状況が、コンピューターのキャパシティーを超えたのではないかと推測している。

キャパシティーを越える」の意味が不明だが,人間でいう「テンパってる」というのを言いたいんだろう.おそらくそういうことはない.コンピューターは焦らないし,そもそも何も考えてない.ただ手順通りに「計算する」だけだ.人間のいう意味で「テンパってる」なら,より多くの計算時間をかけるだけだ.*2

 李九段のワリコミに正確に対応するには、左右にある弱点を考慮しながら正解手順を読み切ることが必要だ。トッププロにとっては十分に可能な作業だし、もし危なそうなら妥協すればよい。だが、アルファ碁にはどちらの着手も選択することができなかった。

 そして、現時点で不利な状況に陥っているとアルファ碁が判断した時から、別人のようになった。まるで初心者のような手を打ち出し、損を重ねていったのだ。そして、李九段は唯一の勝利を手に入れることになった。

たしか上記ITメディアの記事やインタビューにあったけど,「不利な状況にある」という正しい状況認識ができていないんですよ.

デミス・ハサビス博士はKBSとあるインタビューでもう少し詳しくこの内容を説明した。 “イ・セドル9段の手 78をAlphaGoのPolicy networkは1万分の1の確率で見た。 予測する事が難しい手だったので他のラインに入った。 Value networkもポジション評価で行ったり来たりした。”と話した。Policy networkとValue networkで対応しにくくしたということだ。

http://nitro15.ldblog.jp/archives/47095977.html

局面判断のアルゴリズムが人間とは異なるので,人間なら初心者でも分かることが分からなかったりする.たぶんそういう話.

その他

nature [Japan] January 28, 2016 Vol. 529 No. 7587 (単号)

nature [Japan] January 28, 2016 Vol. 529 No. 7587 (単号)

*1:こういう人たちがデスマを産む.「奴ら...プログラムを魔法と勘違いしてるわ...」

*2:そういう「心理状態」を対戦相手に読まれにくくするために,計算が速く終わってもしばらくSleepして無駄な時間を稼ぐことは可能だが,たぶんまだそういう小手先のテクニックは使ってないと思う.