Google翻訳(和英)がニューラルネットで改善?

メモ.

和英機能がニューラルネットベースになって,翻訳品質が向上したらしい.*1

一見すごくこなれた英文を出すようにはなってる.しかし予想してたことだが,細かい部分のミスは多いようなので,作られた英文が正しいかどうかは確認作業は必要だろう.


追記.後日公式発表が出た.「本日、この新システムを英語、フランス語、ドイツ語、スペイン語ポルトガル語、中国語、日本語、韓国語、トルコ語の計 8 言語を対象に提供開始します。」

  • id:Murakami 翻訳は文脈を理解しないといけないので、ここに書いてあるとおりには行かないでしょう。法隆寺はすごい人だ」が法隆寺さんという人について言っているのか、お寺の人混みについて言っているのか、それが文脈です。
http://b.hatena.ne.jp/entry/d.hatena.ne.jp/shi3z/20161011/1476129642

法隆寺は凄い人だ」→ "Horyuji is an amazing person"
「東京駅は凄い人だ」→ "Tokyo station is a terrible person"

出力直前の処理は、ニューラル機械翻訳が犯す誤りを見るとよくわかる。例えば、英日翻訳で、「Tunisia」を「ノルウェー」と翻訳するといった不思議な間違いが生じる。「チュニジア」も「ノルウェー」も地名としてテキスト中で同じように振る舞うから、連続空間上で近くに配置され、つい間違えてしまうのだろう。

http://rekken.g.hatena.ne.jp/murawaki/20161017/p1

後で示す「関ヶ原に米軍が参戦」もこの失敗の一つだろう.

「彼女はよく大学時代の恋人を思い出す」→ "She often recalls her lover in college days"
「彼女はよく大学時代の友人を思い出す」→ "She often recalls college friends"

実践 日本人の英語 (岩波新書)

実践 日本人の英語 (岩波新書)


しかし、ここまでだった。

次にぼくは、「父」と「母」を入れ替え、「父は、母が誕生日を忘れたので、怒っている。」を翻訳してみた。

「父は,母が誕生日を忘れたので,怒っている.」→ "My father is angry because my mother forgot her birthday."

「誕生日」を「母の誕生日」と解釈している。
最初の文でうまくいっていたのは偶然だった。

http://d.hatena.ne.jp/takeda25/20161112/1478956128

関ヶ原に米軍が参加

しかし,西軍は宇喜多,石田,小西,大谷とその参加の部隊がそれぞれの持ち場を護って各個に戦っているだけで部隊感の連携が取れているとは言えなかった.

However, the U.S. army was not able to say that cooperation between the units was achieved only by Utaka, Ishida, Konishi, Otani and its troops fighting each of them by defending their own.

http://blog.livedoor.jp/itsoku/archives/49986379.html

たしかに米軍は「西側」だけどさ.このくらいハッキリ間違えてくれれば間違いだと気づくけど,微妙な間違いだと見落とす危険が大.*2


あるある日記「「ファミコンミニ」に惹かれるのは誰なのか」 ( http://toyokeizai.net/articles/-/140157 ) で試してみた.*3

そこでだんな君、方向転換。「じゃぁ、パソコン買って!コンピュータの勉強するから!」だんな君のお母さん、コンピュータなら将来役に立つと思ったようで、パソコン買ってあげることにしたそうです。

買ってもらったパソコンで自分が遊ぶゲームを作るために必死で勉強。当時の愛読書はもちろん『マイコンBASICマガジン』。そのおかげか、今ではちゃんとITエンジニアになっているので、当時のお母さまの判断は正しかったのかもしれません。

So anyone, turn it. "Well, buy a personal computer! I will study computers!" It seems that everyone's mother, computer thought it would be useful in the future, so he decided to buy a personal computer.

I desperately studied to make a game I play on the computer I bought. Of course, the favorite reading of the time "microcomputer BASIC magazine". Thanks to that, now I am an IT engineer properly, so my mother's judgment at that time may have been right.

  • まず「だんな(君)」を,Youの類義語としてとらえているようだ.この場合の旦那は「筆者の夫」の意味なのは文脈上明らかなのに,それが分かってない.*4 *5
  • パソコンを買ったのは誰なのか,パソコンで勉強したのは誰なのか,そのおかげでITエンジニアになったのは誰なのか.全部代名詞でごまかしてるけど,文脈を理解してないので間違えてる.もし登場人物が全部男性単数だったら,イライザ的な誤訳に気づかないかもしれないが,男性と女性,単数と複数が入り交じってるとボロが出るのは時間の問題.
    また誰なのか明らかでない場合は,代名詞でIを使うことが多い傾向にあるようにも見える.
  • "buy a personal computer!"と"I will study computers!"の間に論理的な繋がりを明示すべき.文脈上「パソコンを買ってくれた『ならば』,パソコンを勉強をする.」というのは明らか.
  • 「(古いパソコン上で)ゲームで遊んだ」のは昔の話なのだから,playは過去形になるのでは?そのあとのboughtも過去完了か?*6
  • "computer thought"はコンピューターが主語になってない?「コンピューター(の知識)が将来役に立つと,夫の母が考えた」であって,コンピューターは考えてない.
  • 「方向転換」はこれでいいのか?ネイティブの語感的にはどうなんだろう.

今の機械翻訳が文章を全く理解してないという特徴が顕著に表れてる.



少し文章を変更してみた.

そこでは、方針を変更した。「じゃぁ、パソコン買って!コンピュータの勉強するから!」夫の母は、コンピュータなら将来役に立つと思ったようで、夫の母は息子にパソコンを買ってあげることにしたそうです。

夫は買ってもらったパソコンで自分が遊ぶゲームを作るために必死で勉強。夫の当時の愛読書はもちろん『マイコンBASICマガジン』。そのおかげか、夫は今ではちゃんとITエンジニアになっているので、夫のお母さまの当時の判断は正しかったのかもしれません。

Her husband changed his policy. "Well, buy a PC and study computers!" My husband's mother seemed to think that the computer would be useful in the future, and her husband's mother decided to buy a computer for his son.

My husband desperately studied to make a game he plays on his personal computer he bought. Of course my husband's a favorite reading, "Microcomputer BASIC magazine". Because of that, my husband has now become an IT engineer properly, so my husband's mothers' judgment at that time may have been right.

機械翻訳を使うちょっとしたテクニックの一つだろうね.英語わかんない人は,最低でもそういうテクニックを覚えないと危険だろう.


コロケーションや,英和辞典で言えば「英和活用大辞典」が担ってきたような機能を,機械翻訳に取り込んだ感じだろうか.

新編 英和活用大辞典―英語を書くための38万例

新編 英和活用大辞典―英語を書くための38万例

*7

全般として大きく改善されたんだとは思うが,それでもまだまだ完璧にはほど遠いという感じ.多国語対応の機械翻訳としては立派だし,ホテルやレストランなら便利に使えると思うけどね.


ニュース記事の翻訳なんてさせると,けっこう見出しとかはボロボロになる.*8 *9 短文ならいいんだが、長文だと主語と述語の対応とか,否定のしかたとかわりとボロが出る.単語と熟語だけは丸暗記したけど文法を勉強しなかった中高生が書くとこんな感じになるのではないだろうか.


Amazonとかも,もろに文脈依存な単語だなあ.密林なのかAmazon.comなのか,それとも仮面ライダーなのか.しかもAmazon.com仮面ライダーとコラボしてたりするし.

http://b.hatena.ne.jp/entry/d.hatena.ne.jp/takeda25/20161112/1478956128

  • id:houyhnhm 厄介なのは、不自然さが減ったので、間違ってても気付きにくく、延々と間違ったままのデータが蓄積されていく事。
  • id:filinion おそらくGoogleマシンは何も「思考」してはいないし、誕生日が何かすら知らない。ただ、人間どもが「誕生日を忘れた」を訳す時、「he forgot her birthday」になるケースが多いのを知っていて、それを真似しているだけだ…。
  • id:timetrain なるほど、統計的傾向というのがモロに出ている。理解しているわけではなく、可能性が高いものを追求しているわけだ。
  • id:abracadabra321 文系らしい。推論なんかしてないよ。機械学習という言葉を使う前に自分で理解を。
  • id:tail_y 個人的に僕が求める機械翻訳は、この文章を入れた時に「鞄というのは誰の鞄ですか?」と聞き返してくるような、そういう機械翻訳
  • id:th_6295 先日北米に送ったメールで「日本人が休みなので機械翻訳掛けてみたけどさっぱりでしたw」って言われたばかりだ。日本人が特に相手に伝わらない口語を使ってるのも事実でもう少しAIフレンドリーになるべきかも。

推理小説とか難しそう.あっさりネタバレしちゃったり,逆に誤訳のせいであとの推理と矛盾したりするから.

同様にジョークとか駄洒落の類も難しい.

  • id:skel これだけ翻訳の難しさを説いている傍で携帯翻訳デバイスとか大ボラぶち上げてる会社があることに断絶というか絶望を感じる。 http://iamili.com/ja/

あ,イヤホン型以外にも,でっちあげてる会社あったんだ...

http://tabi-labo.com/262958/ear-translator/
http://getnews.jp/archives/1467526

http://b.hatena.ne.jp/entry/s/japan.googleblog.com/2016/11/google.html

  • id:Cujo 20161118時点「加藤一二三九段⇒Kato kazuzo」なんだこれ?/修正案の提案はしてみた。。。。。。

うわー.悪夢のようだ.w
単語の区切りを誤認した上に,「一男」とか「一雄」みたいな名前の学習結果から,「『一二三九段』という名前の読みも『かずお』である可能性が高い」と統計的に類推したんじゃあるまいか.難読人名はまだまだ経験不足とみた.*10

  1. 加藤は名字の一つ。
  2. 「一二三九」は漢数字。「1239」と同じ。
  3. 「一二三」も漢数字「123」だが,まれに人名としても使われる.同様に「一」という名前もある.
  4. 「段」は将棋などのランクを表す単位で,普通は10段まで.負数は存在しない.
  5. しかし「段」を階段の段数として使った場合は,上限は遙かに大きくなる.「39段」はもちろん「239段」もありえなくない.

などの知識があって,「加藤 一二三九 段」や「加藤 一 二三九段」では意味を成さないので「加藤 一二三 九段」だろうと予測できないと正解には辿り着けない.ディープラーニングはこれを統計的に処理するわけだから,なおのこと面倒.

名字も数字っぽい名前だと,さらに厄介だ.せめて三と九の間にスペース入れろと.*11

  • id:etr Webページ翻訳がまだみたいなので,コピペして翻訳している。主にテスラ情報。
  • id:moyacab ウェブページ翻訳まだですか?

ページ翻訳って,URLを入力してページ全体を訳す奴?普通にURLを入力して「翻訳」ってすればやってくれるが.

ブラウザ拡張を使うという手もある
https://addons.mozilla.org/ja/firefox/addon/google-translator-for-firefox/


@ITディープラーニングは万能ではない:AIとは何か、人工知能学会会長が語った常識と誤解」

http://www.atmarkit.co.jp/ait/articles/1611/11/news054.html
ついでにメモ.

何を「人工知能」と呼ぶかについて、学者の間で意見が統一されているわけではない。


そういえば,こんなのもあった.

*1:英文和訳も改善された??英和については情報が錯綜していてよくわからん.改善してるようにも見えるが,実はコッソリABテストとかしてる段階なのかもしれない.

*2:逆にファイナルカウントダウンみたいなタイムスリップものだと,真珠湾攻撃原子力空母が参加できたりするから,正確な翻訳には文脈理解がとても重要.

ファイナル・カウントダウン [Blu-ray]

ファイナル・カウントダウン [Blu-ray]

*3:この文章で試してみたのには深い意味は無い.たまたま読んでいて,私,夫,夫の母の昔話と現在の話が混ざっているので,テストに向いてるかと思ったから.自分で作っても良いけど,テストを前提で創作すると,どうしても不自然になる恐れがあった.

*4:子供に対するパパ/ママなんかも危険かもしれない.「こころ」における「先生」はどうだろう.

*5:「御手洗はどこだ?」「御手洗君なら、昼飯食いに学食に行きました」みたいな会話なら御手洗は人の名前だと文脈で分かる.だが今のGoogle翻訳だとトイレ(restroom)だと勘違いしかねない.機械翻訳で「大仏」を「おさらぎさん」と勘違いした事例はニュースにもなってた.

*6:おの辺りの誤訳を放置すると,「夫が子供時代に買ってもらったパソコン上で動くようにつくったゲームを,私は今遊んでる」という意味にもなりかねない.さすがにファミコン時代のパソコンが今も現役だったら,文章中でそれに触れないわけがあるまい.

*7:でかくて高価な辞書なので,個人所有してた人は少ないと思う.電子辞書で英語中心のハイエンド機には搭載されているので,使いたい人はそっちの方で探した方が賢明かも.

*8:短い文章でしばしば内容が省略され,説明が本文でなされる.本文を見れば明らかなことは必ずしも書かない.時には二つの意味をかけた駄洒落になってたりもするなどが理由か.人間なら本文もチラ見して内容を理解するが,今の機械翻訳はそういうことをやってない.

*9:「テスラを巻き込んだ Fatal Crash」なのに「墜落」って訳語はどうなのよ.こに文脈で言う「テスラ」が自動車メーカーでありその車両を表すということを理解してない.

*10:そこはネイティブでも辛いけどさ.それこそいわゆるDQNネームなんて絶対に読めないって.

*11:その場合でさえも「かとうはじめ 23歳 9段」みたいな誤認識の可能性はあるのだけど.