もう一つは、コンピューター自身が取り込んだ情報から自分の行動を調整し、人間の要望に添った答えを自律的に出すようにする方法だ。これを「機械学習」という。さまざまな種類がある機械学習の中で、望む結果に対して報酬を与え、学習させる方法が、強化学習だ。Q56には強化学習をするAIが搭載されているのだという。

「Q56は、ゲームをプレーしながら、1秒間に15枚、ゲーム画面を取り込んでいます。この画面から自分の行動やまわりの状況(敵の動きや攻撃の有無など)を『原因』とし、敵にやられたかやられなかったかを『結果』として、どんな原因がどんな結果をもたらすかのデータを蓄積しています」(中野渡さん)

 原因と結果の道筋は、無数にある。Q56は、自分の行動がもたらした結果に対し、「敵の攻撃を避けて生き残ると、報酬がもらえる」という条件に沿って、道筋に重みづけをする。失敗すればその道筋の優先度は下がり、最終的にはより生き残りやすい道筋へと最適化されていく。やがて、「スーパーゼビウスで生き残ること」に特化したQ56の「脳」が完成する。

「最初はやられてばかりでしたが、最近はどんどん上手になって、たまに人間が思いつかないような『神業』を見せてくれることもありますよ」(中野渡さん)

「Q56を通じてめざしているのは、AIとは何かを、たくさんの人に直感的にわかってもらい、愛着を持ってもらうことです」と、中野渡さん。

 Q56は何度もゲームオーバーになりながら、生き延びるために最適な方法を探していく。この積み重ねそのものが、学習の過程なのだ。Q56はこれを体現するロボットとして、今後もイベントなどで公開される予定だ。日々進化し続けているので、イベント中に突然動きがよくなり、それまでクリアできなかった場面をクリアできるようになることもあるという。Q56を見て、子どもたちは大喜び。ゆかいな姿やしぐさのみならず、自分と同じように失敗したり、成長したりするから、親近感がわくのかもしれない。

NEXT「キーワード:強化学習」とは?
1 2 3