［開発者向け］4つのAIコーディングエージェントで「マインスイーパー」再現テストを実施——最も優秀だったのは?

2025-12-21

はじめに

　米ITメディアArs Technicaが2025年12月20日、OpenAI Codex、Anthropic Claude Code、Google Gemini CLI、Mistral Vibeの4つのAIコーディングエージェントに対して、古典的なWindowsゲーム「マインスイーパー」の再現を依頼し、その結果を盲検評価した記事を公開しました。本稿では、各エージェントの実装品質、プレゼンテーション、コーディング速度の比較結果について解説します。

参考記事

タイトル: We asked four AI coding agents to rebuild Minesweeper—the results were explosive
著者: Kyle Orland and Benj Edwards
発行元: Ars Technica
発行日: 2025年12月20日
URL: https://arstechnica.com/ai/2025/12/the-ars-technica-ai-coding-agent-test-minesweeper-edition/

要点

4つの主要AIコーディングエージェント(OpenAI Codex、Claude Code、Gemini CLI、Mistral Vibe)に対し、「マインスイーパーのウェブ版再現」という統一タスクが与えられた
OpenAI Codexが最高評価(9/10)を獲得し、唯一「コーディング」機能を実装した点が高く評価された
Claude Code(Opus 4.5)は最速のコーディング速度(5分未満)を記録し、洗練されたプレゼンテーションで7/10の評価を得た
Google Gemini CLIは動作するゲームを生成できず、「ワンショット」テストでは完全に失敗した(0/10)
テスト結果は、現在のAIコーディングエージェントが人間のスキルを補完するツールとして機能するものの、完全な代替にはなっていないことを示している

詳細解説

テストの設計と評価方法

　Ars Technicaによれば、今回のテストでは各AIエージェントに対して「標準的なWindowsゲームを再現し、サプライズとなる楽しいゲームプレイ機能を実装し、モバイルタッチスクリーン対応を含む、フル機能のマインスイーパーのウェブ版を音響効果付きで作成せよ」という統一的なプロンプトが与えられました。

　評価は盲検方式で実施され、マインスイーパーの専門家であるKyle Orland氏が、どのモデルがどのコードを生成したかを知らされないまま各実装を評価しました。このテスト設計の特徴は、AIが生成したコードに対して人間によるデバッグや修正を一切加えない「ワンショット」形式を採用した点です。実際の開発現場では、AIが生成したコードは通常、人間のエンジニアによるレビューや調整を経るため、このテストは各エージェントの「生の能力」を測定するものと言えます。

　マインスイーパーが選ばれた理由は、数行のコードで済む簡単なタスクではないものの、多数の複雑に連動する部品を必要とするほど高度でもない「中程度の複雑さ」を持つためです。また、インターネット上に多数の実装例が存在する著名なゲームであるため、パターンマッチングを得意とするLLMにとって有利な条件となっています。

　なお、実際に生成されたゲームはWeb上に公開されており、自分自身でその再現度に関して体験することができます。

以下、使われたツールとその点数、およびURLとなります。

Mistral Vibe: 4/10：https://www.bxfoundry.com/minesweeper/2/
OpenAI Codex: 9/10：https://www.bxfoundry.com/minesweeper/1/
Anthropic Claude Code: 7/10：https://www.bxfoundry.com/minesweeper/3/
Google Gemini CLI: 0/10(不完全)：https://www.bxfoundry.com/minesweeper/4/

Mistral Vibe: 4/10

　Ars Technicaの評価では、Mistral Vibeは基本的な機能を正しく実装したものの、重要な要素が欠けていました。最も大きな問題は「コーディング」機能の未実装です。コーディングとは、上級マインスイーパープレイヤーが使用する技術で、すでに十分な数の地雷がフラグ付けされている数字の周囲のすべてのマスを素早くクリアする機能を指します。この機能がないと、ゲームプレイが不格好に感じられると指摘されています。

　また、何も機能しない「カスタム」難易度ボタンが含まれており、モデルがカスタマイズ可能なボードサイズの概念は理解したものの、実装方法が分からなかったことを示唆しています。モバイル対応は動作するものの、フラグをマークするための長押し操作が難しく、理想的なインターフェースとは言えませんでした。

　プレゼンテーション面では、プロンプトで明示的に要求されていた音響効果が実装されていませんでした。ただし、オリジナルのWindowsマインスイーパーにも音はなかったため、これは理解できる範囲の省略とされています。

　「楽しい」機能としては、ゲーム完了時にグリッド上に虹色の背景パターンを追加する機能が実装されていましたが、評価者はより充実した機能を期待していたようです。

　コーディング体験については、オープンウェイトモデルとして予想以上に良好に機能したとされています。ただし、4つの中で3番目に遅く、最終的な結果も優れたものではありませんでした。この性能は、より多くの時間とトレーニングを経れば、将来的に非常に有能なAIコーディングエージェントに発展する可能性を示唆していると考えられます。

OpenAI Codex: 9/10

　OpenAI Codexは最高評価を獲得しました。Ars Technicaによれば、このエージェントは重要な「コーディング」機能を実装しただけでなく、PCとモバイルブラウザの両方でその使用方法に関する画面上の指示も含めました。

　さらに、フラグでマスをマークする際に「?」マークを循環させるオプションも実装されており、これは多くの人間のマインスイーパークローン作成者でさえ見逃す可能性がある難解な機能とされています。モバイル版では、指を長押ししてフラグをマークするオプションが実装され、テストした中で最も楽しいハンドヘルド版となりました。

　プレゼンテーション面では、昔ながらの顔文字スマイリーフェースボタンが魅力的とされ、特に爆発時に赤く色付けされた「X(」が表示される点が評価されました。一方、プレイフィールドのグラフィックスは、明らかになった地雷に単純な「*」、フラグ付きタイルに醜い赤い「F」を使用しており、あまり印象的ではなかったようです。

　音響効果は1980年代後半の古いPCを思い起こさせるビープ音とブープ音でしたが、オフにするオプションが提供されている点が評価されています。

　「楽しい」機能として実装された「サプライズ: ラッキースイープボーナス」は、ボタンをクリックすると利用可能な場合に無料の安全なタイルを提供します。これは、どちらのタイルも同じように地雷である可能性が高い2つのタイル間で推測を強いられる状況で有用と考えられます。ただし、この機能は大きなカスケード状の安全タイルを1回のクリックで見つけた後にのみ提供されるため、「勝ちをさらに勝たせる」ボタンとして機能し、リスクと報酬の良好なバランスを提供する機能としてはやや奇妙とされています。

　コーディング体験については、Claude Codeと同様の機能(ローカルコマンド、権限管理、進行状況を示す興味深いアニメーション)を備えた優れたターミナルインターフェースを持っていますが、機能的なゲームをコーディングするのにClaude Codeの約2倍の時間がかかったことが報告されています。この長い生成時間が、強力な結果に貢献した可能性があると考えられます。

Anthropic Claude Code: 7/10

　Claude Code(Opus 4.5使用)は、Ars Technicaによれば、ゲームプレイの基本を正しく実装したものの、効率的なマインスイーパープレイを可能にする重要なコーディング機能が欠けていました。記事では、これを『スーパーマリオブラザーズ』でランボタンがない、または『オカリナ・オブ・タイム』でZターゲティングがないことに例え、「一言で言えば: 受け入れられない」と評価されています。

　モバイル版の「フラグモード」トグルは完全に機能するものの、使用がやや不格好で、大きなゲームサイズでボードの一部が視覚的にカットオフされる問題がありました。

　一方、プレゼンテーション面では、テストした中で最も洗練されたバージョンとされています。「顔」ボタンに可愛い絵文字を使用し、美しい爆弾とフラグのグラフィックス、シンプルながら効果的な音響効果により、他のバージョンよりもプロフェッショナルな外観となっています。

　ただし、いくつかの奇妙なプレゼンテーション上の問題も指摘されています。例えば、「初心者」グリッドには列間に奇妙な隙間があり、各マスの境界線とフラグのグラフィックスが特にパワーモード使用時に奇妙に灰色になることがあります。

　「楽しい」機能として実装された「パワーモード」ボタンは、マインスイーパーの核となる公式を興味深い方法で変更するいくつかの楽しいパワーアップを提供します。特に「シールド」パワー(誤った推測から保護)と「ブラスト」パワー(クリックした場所で大きなタイルカスケードを保証)が好評でした。一方、「X線」パワーは数秒間すべての爆弾を明らかにするため、素早いプレイヤーやスクリーンショットの巧みな使用によって簡単に悪用される可能性があり、「フリーズ」パワーは単に数秒間時計を止めるだけでかなり退屈とされています。

　ゲームはこれらの新しいパワーをキャンディーのように配布するため、パワーモードをアクティブにすると、エキスパートレベルのボードでも比較的簡単になります。単に「パワーモード」を選択するだけで、ゲーム開始直後にいくつかの安全なマスがマークされ、さらに簡単になります。したがって、これらのパワーは「楽しい」ものの、特にバランスが取れているとは感じられないと評価されています。

　コーディング体験については、テストした4つのモデルの中で最も快適なターミナルインターフェース体験と最速の全体的なコーディング体験を提供しました。Ars Technicaによれば、Opus 4.5は5分未満で動作するマインスイーパーを生成しました。Codexは少なくとも2倍の時間がかかり、Mistralは約3〜4倍の時間がかかり、Geminiは2つの動作しない結果を得るのに数時間の調整が必要だったとされています。

　なお、Claude CodeはSonnet 4.5も使用できますが、経験上、結果はそれほど充実したものではないとのことです。この速度と品質のバランスは、実用的な開発作業において重要な要素と考えられます。

Google Gemini CLI: 0/10(不完全)

　Google Gemini CLIは、Ars Technicaの評価で完全に失敗しました。クリック可能ないくつかの灰色のボックスは生成されたものの、プレイフィールドが欠落しており、ゲームとして機能しませんでした。エージェントとの対話的なトラブルシューティングによって問題が修正された可能性はありますが、「ワンショット」テストとしてはモデルは完全に失敗したと評価されています。

　コーディング体験については、テストした4つのコーディングエージェントの中で最も問題が多かったとされています。計画を立てた後、使用可能なコードを生成するのが非常に遅く(試行ごとに約1時間)、モデルはWAVファイルの音響効果を手動で作成しようとして行き詰まり、Reactの外部ライブラリといくつかの他の過度に複雑な依存関係を要求し続けました。結果は単に機能しませんでした。

　実際、評価者は規則を曲げてGeminiに2回目のチャンスを与え、ゲームがHTML5を使用すべきであると指定しました。モデルが再びコードを書き始めたとき、音響効果を作成しようとして再び行き詰まりました。評価者がWebAudioフレームワークの使用を提案しましたが(他のAIコーディングエージェントは使用できたようです)、結果は機能しませんでした。

　他のテストしたモデルとは異なり、Gemini CLIは異なるタスクに3つの異なるLLMを使用するハイブリッドシステムを使用しているようです(評価者が支払ったGoogleアカウントのレベルでは、Gemini 2.5 Flash Lite、2.5 Flash、2.5 Proが利用可能でした)。コーディングセッションを完了してCLIインターフェースを終了すると、どのモデルが何を行ったかの読み出しが提供されます。

　ただし、この場合、結果が機能しなかったため重要ではありませんでした。なお、Gemini 3コーディングモデルは、ここでテストされなかった他のサブスクリプションプランで利用可能です。そのため、テストのこの部分はGoogle CLIにとって「不完全」と見なすことができると記載されています。

テスト結果が示す示唆

　Ars Technicaによれば、OpenAI Codexがこのテストで勝利を収めました。その理由の大部分は、ゲームプレイオプションとしてコーディングを含む唯一のモデルだったことにあります。しかし、Claude Codeも強力なプレゼンテーションの装飾と迅速な生成時間で際立っていました。Mistral Vibeは大きく一歩後退しており、Gemini 2.5に基づくGoogle CLIはワンショットテストで完全に失敗しました。

　記事では、経験豊富なコーダーがエージェントとの双方向のコード編集会話を通じて、確実により良い結果を得ることができると指摘されています。ただし、これらの結果は、比較的簡単なタスクに対する非常に短いプロンプトでも、これらのモデルの一部がどれほど有能であるかを示しています。

　全体的な経験は、現在のコーディングエージェントが人間のスキルを置き換えるのではなく、補強する対話的なツールとして最もよく機能するという考えを一般的に強化するものと結論付けられています。この評価は、AIコーディングツールの現在の位置づけを理解する上で重要な視点と言えます。

まとめ

　Ars Technicaの比較テストでは、OpenAI Codexが最高評価を獲得し、Claude Codeが速度と品質のバランスで優れた結果を示しました。一方、Google Gemini CLIは動作するコードを生成できず、AIコーディングエージェントの能力に大きな差があることが明らかになりました。現段階では、これらのツールは人間のスキルを補完する役割として最も効果的に機能すると考えられます。今後の技術発展により、より自律的なコード生成が可能になるのか、注目されます。