はじめに
Wall Street Journalが2026年1月22日に報じた内容によれば、1990年代のゲーム「ポケモン」がAIモデルの性能評価に広く使われるようになっています。Anthropic、OpenAI、Googleといった主要AIラボが、Twitch上でAIモデルがポケモンをプレイする様子をライブ配信し、機械学習コミュニティの注目を集めています。本稿では、なぜポケモンがAIベンチマークとして選ばれているのか、その技術的な意義と各社の取り組みについて解説します。
参考記事
- タイトル: How Playing Pokémon Became the Ultimate Test of AI’s Intelligence
- 著者: Isabelle Bousquette
- 発行元: Wall Street Journal
- 発行日: 2026年1月22日
- URL: https://www.wsj.com/articles/how-playing-pokemon-became-the-ultimate-test-of-ais-intelligence-1409dea5
要点
- 初代ポケモン(Game Boy版)が、Anthropic、OpenAI、Googleの主要AIラボでベンチマークゲームとして採用されている
- 従来のベンチマークと異なり、長期にわたる推論、意思決定、目標達成のプロセスを追跡できる点が評価されている
- Twitchでの「Claude Plays Pokémon」「GPT Plays Pokémon」「Gemini Plays Pokémon」のストリーム配信は、合計で数十万件のコメントを集めている
- GPTとGeminiは既に初代ポケモンをクリア済みだが、Claude Opus 4.5は現在挑戦中である
- AIエージェントを支援する「ハーネス」と呼ばれるソフトウェアの開発にも、ポケモンプレイが役立っている
詳細解説
ポケモンがAIベンチマークとして注目される背景
Wall Street Journalによれば、シリコンバレーの主要AIラボの間で、任天堂の初代ポケモンゲーム(Game Boy版)がAIモデルの能力を測る新たな方法として広がっています。ポケモンブルーでは、プレイヤーは迷路を進み、ポケモンを捕まえ、ジムリーダーと戦ってバッジを獲得する必要があります。
ゲームを使ったAI評価には歴史があり、10年前にはGoogleのAlphaGoが囲碁の世界チャンピオンに勝利し、ポーカー、チェス、そして最近ではMinecraftなどもAIテストに使われてきました。GoogleのKaggleは2025年8月、競技ゲームを通じてAIモデルを評価するオープンソースプラットフォーム「Game Arena」を立ち上げ、初のイベントではチェストーナメントが開催され、OpenAIのo3モデルが優勝しています。このように、ゲームはAI開発において、モデルの戦略的思考や長期的計画能力を測る有効な手段として確立されています。
主要AIラボの取り組み
Anthropicの応用AI責任者であるDavid Hershey氏は、2025年2月にTwitchで「Claude Plays Pokémon」のストリームを開始しました。これが、OpenAIとGoogleのモデルを使った類似ストリームの先駆けとなっています。「GPT Plays Pokémon」と「Gemini Plays Pokémon」は、当初は独立系開発者によって作られましたが、後に各ラボからの支援を受けています。
Wall Street Journalによれば、Claude、GPT、Geminiがポケモンをプレイする様子を配信するTwitchストリームは、合計で数十万件のコメントを集めており、モデルがリアルタイムで進捗を報告しています。実際、Claudeのストリームでは「待って!分かった!x=11の壁にy=10-12の開口部がある」といった分析が投稿されています。
OpenAIの従業員は一時期、オフィスのテレビでGPTのポケモンストリームを流していました。GoogleのCEOであるSundar Pichai氏は、2025年のGoogle I/Oカンファレンスのステージ上でGeminiの勝利を称賛し、Googleは最近の正式レポートにもGeminiのポケモン進捗の詳細を含めています。また、Anthropicは業界カンファレンスで「Claude Plays Pokémon」のブースを設置することが多く、そのストリームはファンアートを生み出し、社内のSlackチャンネルではスタッフがClaudeのゲーム内での成果を祝福しています。
従来のベンチマークとの違い
カーネギーメロン大学言語技術研究所の准教授であるGraham Neubig氏によれば、従来のベンチマークシステムは通常、モデルに個別の質問をして個々の回答を評価するものでした。
一方、ポケモンは長期にわたるモデルの推論、意思決定、目標への進捗を追跡できる点が異なります。これは、現在ユーザーがAIに求めているタスクのタイプにより近い評価方法と言えます。AIエージェントの実用化が進む中、単発の質問応答だけでなく、複数のステップを経て最終目標を達成する能力の評価が重要になっています。
ゲームの技術的な難しさ
ポケモンでは、プレイヤーは既存のポケモンを育てるか、新しいポケモンを捕まえてコアトレーナーに勝てるチームを作るかを決める必要があります。また、多数の迷路やパズルがあり、これらがAIモデルにとって最大の課題となることが多いとされています。
Hershey氏によれば、「ポケモンが楽しく、機械学習コミュニティの関心を集めている理由は、PongやこれまでAI評価に使われてきた他のゲームと比べて、制約が少ないからです。コンピュータプログラムにとって、かなり難しい問題です」と説明しています。従来のゲームベンチマークは、比較的単純なルールと限定された選択肢の中での評価でしたが、ポケモンは探索、戦略、リソース管理など多様な要素を含むため、より包括的なAI能力の評価が可能になります。
ハーネス開発への応用
Hershey氏によれば、Claudeにポケモンをプレイさせることは、AIエージェントをより効果的に機能させるための周辺ソフトウェア、いわゆる「ハーネス」の構築を学ぶ演習にもなっています。例えば、Claudeがゲームのプレイ過程で学んだ重要な情報を追跡できるメモリシステムを構築したとのことです。
「ハーネス」とは、AIモデル自体ではなく、モデルの能力を最大限に引き出すための支援システムを指します。記憶管理、状態追跡、エラー処理などの機能を含み、実際のビジネス環境でAIエージェントを展開する際にも必要となる技術です。Anthropicの顧客と直接協力してClaudeを展開する仕事をしているHershey氏は、ポケモンから学んだベストプラクティスを頻繁に共有していると述べています。
現在の進捗状況と今後の展開
Wall Street Journalによれば、Claudeの新しいバージョンはゲームへの対処が改善されていますが、まだクリアには至っていません。最新のClaude Opus 4.5は現在、Twitch上でライブ挑戦中です。
一方、GPTとGeminiは既に初代ポケモンゲームをクリアしていますが、これは開発者が構築したハーネスの違いによる部分もあると考えられます。ハーネスの設計によって、同じAIモデルでもパフォーマンスが大きく変わる可能性があることを示唆しています。
「Gemini Plays Pokémon」と「GPT Plays Pokémon」のストリームを構築したフリーランス開発者のJoel Zhang氏とJonathan Verron氏によれば、現在GoogleとOpenAIのモデルは両方とも、様々なポケモン続編ゲームに挑戦しています。Verron氏は「これは今のAIにとって完璧なゲームです。他のゲームも考えてみましたが、ポケモンほど良い例は見つかりませんでした」と述べています。
まとめ
初代ポケモンがAIモデルのベンチマークとして注目されている背景には、長期的な推論と意思決定能力を評価できるという技術的な利点があります。主要AIラボが競うようにポケモンに挑戦し、その様子がTwitchで配信されることで、機械学習コミュニティ全体の関心も高まっています。また、ゲームプレイを通じて得られるハーネス開発のノウハウは、実際のAIエージェント展開にも応用されており、単なるベンチマークを超えた実用的価値があると考えられます。
