AIはどこで誤るのか? ゲームによって解き明かす「判断」のメカニズム

松崎 公紀MATSUZAKI Kiminori

専門分野

ゲーム情報学
深層強化学習
プログラミング方法論

詳しくはこちら


 人工知能(AI)はいま、囲碁や将棋の世界だけでなく、文章生成や画像認識など多様な分野で人間を凌ぐ成果を挙げている。一方で、「なぜその結論に至ったのか」を説明しにくいブラックボックス問題はいまだ解決されていない。さらに、AIが人間よりも正確に答えを導き出せる時代になった今、「何をもって正解とするのか」「どのように評価すべきか」という根本的な問いも浮かび上がっている。
 こうした難題に、身近なゲームを通して数理的に挑んでいるのが、松崎公紀教授だ。スマートフォンで人気だったパズルゲーム「2048」を題材に、AIがどのように学び、どこで誤るのかを、わかりやすく可視化しようとしている。
現実社会に通じる「不確実性の世界」へ

 松崎教授の研究人生は、もともと多数の計算機を協調させて問題を高速に解く「並列プログラミング」から始まった。そこでは理論と効率化を突き詰めることが主な研究ターゲットだったが、2009年の本学着任をきっかけに、新たな方向を模索し始めた。

「抽象度の高い並列計算だけでは、学生にとってとっつきにくく、遠い存在になりがちです。せっかくなら学生が楽しみながら取り組める新たなテーマはないか。そのときに目をつけたのが、ゲームでした。ルールが明確で、結果が数値で返ってくるゲームなら、学びの入口にも研究の土台にも最適だと考えたんです」と振り返る。

 こうして、ゲームを単なる娯楽ではなく、AIの性能を正確に評価し、思考過程や問題点を可視化するための研究基盤としてとらえる「ゲーム情報学」へと舵を切った。

 着任当時、将棋や囲碁のように盤面の情報がすべて見える「完全情報ゲーム」ではすでに世界的な研究が進んでいた。そこで松崎教授が目を向けたのは、サイコロのようなランダム性や、トランプのように相手のカードが見えない状況など、運や隠れた情報が絡む「不完全情報ゲーム」の世界だった。

「2009年の時点で、将棋の研究は十分に成熟しており、囲碁の研究もかなり進んでいました。だからこそ、あえて手薄な領域を狙ったんです。不完全・不確実な情報のもとでどう判断するか。これは現実社会に通じるテーマなんですよ」

完全解析された理想の実験場を構築

 その"不確実性"という性質を、より定量的に扱うために選んだのが、世界的に知られるパズルゲーム「2048」だ。4×4の盤面上でタイルを上下左右にスライドし、同じ数字を合体させてより大きな数を作っていく。新しいタイルの出現位置や数はランダムに決まるため、運と戦略の両方が問われる。

 松崎教授らは、このゲームを3×3の小さな盤面に縮小した「ミニ2048」を用い、AIの判断の仕組みを詳しく分析することにした。まず着手したのは、ゲームそのものを理論的に解き明かす作業である。ゲーム中に現れ得るすべての局面を洗い出し、各場面での最善の一手と、そこから期待できる得点を計算。約4100万通りに及ぶ膨大な状態の「真の評価値」を求め、局面ごとの見込み点を網羅したデータベースを構築した。

 この"完全解析"によって、AIの判断を"真の正解つき"で検証できる理想的な実験環境が整った。AIは強化学習の過程で、「この状況は良い」「あの状況は悪い」と自ら評価値を付けながら最適な行動を学んでいく。そのスコアを真の値と一つひとつ照らし合わせることで、AIがいつ、どこで、どの程度誤った判断をしているのかを定量的に把握できるようになったのだ。

「多くのゲームAI研究は最終的な勝敗や平均スコアを指標にしますが、私は途中で何が起きているかを見たい。『なぜその判断をしたのか』を説明できるようにしたいんです」と語る。

 完全解析データをもとに、すべての局面で最適な手を選ぶ"パーフェクトプレイヤー"を作成し、1万回のプレイを分析したところ、生存率が大きく低下する"難所"が複数あることが判明。また、真値のデータに人工的なノイズを加えて検証すると、誤差が大きいほどスコアが下がるという明確な関係が得られた。AIが各局面を評価する「評価関数」の正確さこそが、AIの実力を決定づける要因であることを裏付けたのだ。

 続いて、2048やオセロでも実績のある「N-tupleネットワーク」を用い、構造や条件を変えて学習させたAIプレイヤーを比較したところ、設定が異なっても誤差の傾向はほぼ共通しており、特にゲーム終盤で誤差が増大することが確認された。AIが苦手とする"終盤の壁"がはっきりと浮かび上がったのだ。

 この研究から、AIの性能を決める「評価関数」の学習にまだまだ改善の余地があると分かってきた。

★_X0A4941.jpg

AIはなぜ"自信過剰"になるのか?

 AIの判断を測る基盤が整うと、次に見えてきたのは、"探索と活用のバランス"の難しさだった。未知の手を積極的に試すほど新しい発見は得やすいが、誤りも増える。逆に、慣れたやり方ばかりを繰り返せば、学びは頭打ちになる。このジレンマをどう制御するかは、強化学習の世界でも重要なテーマである。

 これに対して最先端の2048プレイヤでは、未知の局面に高い初期評価を与えて試行を促す「楽観的初期化」が用いられていた。しかし、ミニ2048で検証すると、序盤の探索促進には有効でも、その効果は限定的であることが判明した。AIが自らの予測を過信し、誤った判断を繰り返してしまっていたのである。

 そこで松崎教授らは、探索を促進する、質とタイミングを重視する設計に転換。過去にあまり選ばれていない手を優先する方法などを慎重に導入したところ、学習は安定し、スコアも向上した。「2048では探索は不要で自信過剰なAIがよい」という通説を覆し、適切な探索を加えることでAIの学習成果を向上させられるという新たな視点を提示したのである。

 さらに、ミニ2048を用いた真の評価値との比較から、新たに「過大評価」という課題にも焦点を当てた。2048のプレイヤ開発では、盤面の回転や反転といった対称性を利用する効率化手法が用いられている。ところが、これが思わぬ副作用をもたらしていることを発見した。対称性のもとでは、とくに序盤ではどの手を選んでもスコア差が小さいため、AIが「どれも正しい」と思い込みやすい傾向がある。こうした条件が重なることで、AIは自分の"成功体験"を過信し、過大評価を引き起こしてしまうのである。

 この問題の解決策として、松崎教授らは、2つの独立したネットワークが互いに学習を補正し合うことで過大評価を抑えるDouble Q学習という手法を導入した。実験の結果、確かに過大評価は抑制されたものの、今度は逆に評価が全体的に低めにずれる「過小評価」の傾向が確認された。AIがリスクを避け、安全側に寄った意思決定を行うようになった。つまり、慎重すぎるAIが生まれてしまったのだ。これは従来のゲーム木探索と組み合わせるのに不適切な性質である

 自信過剰を正すと今度は臆病になるーーこの揺らぎを完全解析という確かな基盤の上で定量的に可視化できた意義は大きい。AIの学習過程に潜む判断の偏りが、より具体的にとらえられつつある。

世界最強ゲームAI「AlphaZero」の常識を問い直す

 こうして、AIの考え方を一つひとつ解きほぐしてきた松崎教授。次に見据えるのは、Google DeepMindが開発した世界最強のゲームAI「AlphaZero」の強さの理由を問うことだ。

 AlphaZeroは、強化学習・ニューラルネットワーク・モンテカルロ木探索(MCTS)という3つの技術を融合した革新的手法で、将棋や囲碁、チェスでトッププロをはるかに越える強さを達成したことで知られている。しかし、その強さの根拠については、いまだ明確に説明されていない。

「AlphaZeroは非常に優れていますが、"なぜ強いのか"という問いに正面から取り組んだ研究はほとんどありません。私たちは理論的な裏付けをもとに、その構造を一つずつ検証していきたいと考えています」

 松崎教授らによるミニ2048を用いた一連の分析からは、探索が必ずしも正しい方向に導くとは限らず、評価関数のバイアス制御こそが性能を決める鍵であることが見えてきた。これは、「ニューラルネットワークとMCTSの組み合わせが最強」というAlphaZeroの設計思想とされてきた定説の一面を明らかにする成果と言える。

「AlphaZeroの開発者たちは、"ニューラルネットワークは非線形な計算を行うため、MCTSとの組み合わせが最適だ"と説明しています。でも、それが本当に唯一の最適解なのかは誰も確かめていない。その"なぜ"を明らかにしたいんです」

 一方で松崎教授は、こうした基礎研究と並行して「世界最強の2048プレイヤーを作る」という挑戦も続けている。現在の世界記録は62万5000点。松崎研究室のAIプレイヤーはすでに58万7000点に到達し、記録更新は目前だという。

「理論を積み上げる研究も大切ですが、世界一をめざす実践的な目標があると、学生たちのモチベーションもぐっと上がるんです」と笑う。

 AIの理論的な課題の解明と、世界記録更新への挑戦。二つのアプローチを並行させることで、研究はより深く、より確かな方向へと進んでいる。

★_X0A5006.jpg

社会に還元できるゲームAIをめざして

 松崎教授の研究は、ゲームという枠を超えて、AIの知能の根幹に迫ろうとする挑戦である。現実社会のように先の見えない状況で、どうすれば合理的な判断が可能になるのか。その答えを、ゲームという小さな世界の中で追い続けている。

「2048の多くの局面では、明らかなミスでなければどの方向を選んでも大きな問題は起きません。しかし、盤面がタイルで埋まりかける終盤では、一手の判断ミスが即座にゲームオーバーにつながります。つまり、普段は単純でも、時折極めて難しい局面がある。この構造は、私たちが生きる現実の世界とよく似ています。たとえば自動運転では、ほとんどの運転は単調な操作ですが、突発的に子どもが飛び出してきたときなど、瞬時の判断が求められます。現実社会でも、多くの判断は単純ですが、時に訪れる"難所"こそが重要なんです」

 医療現場で複数の選択肢から最善を選ぶときや、災害時に限られた情報で行動を決めるとき、あるいは金融市場で瞬時にリスクを判断するときーーそうした"めったに起きないが極めて重要な場面"こそ、AIの真価が問われる局面なのだ。

 そして松崎教授は現在、学内に新設された「ゲームAI深化研究センター」のセンター長として、AIと社会をつなぐ新しい応用領域を構想している。

「完全解析でAIの原理を突き詰めたあとにめざすのは、"社会に還元できるゲーム"です。実社会の問題も、ルールを定めて得点化してしまえば、ゲームとしてとらえ直すことができます」

 学内外の研究者と連携しながら、ゲームの枠組みを応用し、複雑な現象をAIが理解できる形に翻訳することで、社会課題の解決につなげようというのだ。その応用先として考えているのが、「材料化学」や「神経科学」といった分野である。

「たとえば材料科学では、物理的な制約をゲームのルールと見なし、材料の性質を得点として評価すれば、最適な材料を探す問題は"高得点をめざすプレイ"と同じ構造になります。つまり、『軽くて強い素材を見つける』ことを、AIにとってのゲームクリアとして学ばせることができるんです。また、脳の働きを数理モデルとして再現する神経科学の研究でも、AIが『どんなときに誤るのか』という知見が生きてきます」

 ゲームで得た"失敗の法則"をもとに、AIがより人間らしい学習過程を持つよう設計することも可能になる。そこで重要になるのが、これまでに明らかにしてきたAIの落とし穴を、あらかじめ潰しておくことだ。

「特定の状況でAIが失敗しやすいパターンを理解し、それを回避する設計を施すことで、より信頼性の高い結果を得ることができます。つまり、社会実装に向けては、こうしたリスクを先に取り除いておくことが欠かせません。身近なゲームから導き出されたAIの特性が、将来きっと人間社会を支える力になると信じています」

 ミニ2048という一見シンプルなゲームの中に、AIの知能の本質を探り、その知見を社会の課題解決へとつなげる。松崎教授の研究は、AIがなぜ強いのかを問い直すと同時に、人間社会の中でより信頼され、ともに判断できる存在へと進化するための可能性を切り拓く試みでもある。

★_X0A5049.jpg

掲載日:2026年1月/取材日:2025年10月