はじめに
OpenAIは、応答前により長く思考するように訓練された「oシリーズ」の最新モデルとして、「OpenAI o3」および「OpenAI o4-mini」を発表しました。本稿では、これらのモデルがAIエンジニアにとってどのような意味を持つのか、技術的な側面に焦点を当てて詳細に解説します。特に、ツール連携能力の向上と推論能力の進化が重要なポイントとなります。
引用元情報
- 記事タイトル: Introducing OpenAI o3 and o4-mini
- 発行日: 2025年4月16日
- 参照元URL: https://openai.com/index/introducing-o3-and-o4-mini/
要点
- o3モデル: OpenAI史上最も強力な推論モデル。コーディング、数学、科学、視覚認識などで最高性能(SOTA)を達成。特に画像、チャート、グラフィックの分析に優れる。
- o4-miniモデル: 高速かつコスト効率に優れた小型モデル。数学、コーディング、視覚タスクで高い性能を発揮。特にAIME(米国数学招待試験)ベンチマークで顕著な成績。
- エージェント的なツール利用: 初めて、ChatGPT内の全ツール(Web検索、ファイル分析、画像生成、視覚入力の推論など)を自律的に組み合わせて使用可能になった。いつ、どのようにツールを使うべきかを推論する能力を持つ。
- 強化学習のスケール: 大規模な強化学習により、トレーニング計算量と推論時間の両方をスケールさせ、性能向上を実現。ツール使用のタイミングと方法も強化学習で学習。
- 視覚推論の進化: 画像を思考プロセスに直接統合可能に。画像を見て理解するだけでなく、画像と共に思考することで、視覚と言語を組み合わせた新しい問題解決が可能に。
- 安全性: 生物学的脅威、マルウェア生成、ジェイルブレイクなどの分野で安全トレーニングデータを再構築し、拒否性能を向上。システムレベルの緩和策も開発。
- Codex CLI: ターミナルから実行できる軽量コーディングエージェントの実験的提供(オープンソース)。
詳細解説
1. oシリーズとは:推論に特化したモデル群
今回発表されたo3とo4-miniは、OpenAIの「oシリーズ」に属します。このシリーズは、従来のGPTシリーズが持つ自然な会話能力に加え、応答を生成する前により深く、長く「考える」こと、すなわち高度な推論を行う能力に特化して訓練されています。これにより、複雑な問題に対して、より詳細で思慮深い回答を生成することを目指しています。
2. o3:最先端の推論能力
o3は、現時点でOpenAIがリリースした中で最も強力な推論モデルと位置付けられています。
ベンチマーク性能:
コーディングコンテストのCodeforces、ソフトウェアエンジニアリングタスクのSWE-bench(モデル固有のカスタム足場なし)、マルチモーダル理解のMMMUといった主要なベンチマークで新たなSOTA(State-of-the-Art: 最高水準)を達成しています。これは、コーディング、数学、科学といった分野での卓越した能力を示唆します。


得意分野:
多面的な分析を必要とする複雑なクエリや、答えがすぐには明らかにならない問題に適しています。特に、画像、チャート、グラフィックなどの視覚情報の分析能力が大幅に向上しています。
エラー削減:
外部専門家による評価では、困難な実世界のタスクにおいて、前モデルo1と比較して重大なエラーが20%少ないと報告されています。特にプログラミング、ビジネス/コンサルティング、創造的なアイデア出しの分野で優れています。
3. o4-mini:高速・高効率な推論
o4-miniは、速度とコスト効率に最適化された小型モデルですが、そのサイズとコストに見合わないほどの高い性能、特に数学、コーディング、視覚タスクで注目すべき結果を出しています。
ベンチマーク性能:
AIME 2024および2025(米国数学招待試験)において、ベンチマークされたモデルの中で最高のパフォーマンスを達成しました。特に、Pythonインタプリタへのアクセスが許可された場合、AIME 2025で99.5% pass@1(1回の試行での合格率)という驚異的なスコアを記録しています。これは、ツールを効果的に活用する能力の高さを示しています。
汎用性:
STEM(科学・技術・工学・数学)以外のタスクや、データサイエンスのようなドメインでも、前モデルo3-miniを上回る性能を示します。
高スループット:
効率性により、o3よりも大幅に高い使用制限をサポートしており、推論能力が役立つ大量・高スループットのユースケースに適しています。

4. エージェント的なツール利用の実現
o3とo4-miniにおける最も画期的な進歩の一つが、エージェント的なツール利用です。これは、モデルが単にツールを使えるだけでなく、問題解決のためにどのツールをいつ、どのように使うべきかを自律的に判断し、組み合わせて実行できることを意味します。
利用可能なツール:
ChatGPT内の全てのツール(Web検索、アップロードされたファイルやデータのPythonによる分析、視覚入力の詳細な推論、画像生成など)を連携させることが可能です。
推論に基づくツール選択:
モデルは、望ましい結果を得るためにツールを展開するタイミングと方法を推論します。例えば、「カリフォルニアの夏のエネルギー使用量は昨年と比較してどうなるか?」という問いに対し、モデルはWebで公共データを検索し、Pythonコードを書いて予測を構築し、グラフや画像を生成し、予測の背後にある要因を説明するといった、複数のツール呼び出しを連鎖させることができます。必要に応じて情報を評価し、追加情報が必要な場合は検索クエリを変えて再試行するなど、柔軟な戦略をとることができます。
意義:
これにより、モデルの内部知識だけでは対応できない最新情報へのアクセス、複数のステップにわたる推論、多様なモダリティ(テキスト、画像、コードなど)にまたがる統合的な出力生成が必要な、より複雑でオープンエンドなタスクへの対応能力が飛躍的に向上しました。
5. 強化学習による能力向上
o3の開発を通じて、GPTシリーズの事前学習で見られた「より多くの計算量=より良い性能」という傾向が、大規模な強化学習(RL)においても同様に観察されました。RLにおける計算量と推論時間をスケールさせることで、明確な性能向上が確認されています。
ツール利用の学習:
モデルがツールを使う方法だけでなく、いつ使うべきかを推論する能力も強化学習によって教え込まれました。
思考時間の重要性:
同じレイテンシとコストであればo3はo1より高性能であり、さらに思考時間を長く許容すれば性能が向上し続けることが検証されています。これは、推論プロセスの深さが性能に直結することを示唆します。
6. 視覚と言語の融合:画像と共に思考する
これらの新モデルは、画像を思考プロセス(Chain of Thought)に直接統合できる初めてのモデルです。単に画像の内容を認識するだけでなく、画像情報を使って推論を進めることができます。
高度な画像解釈:
ホワイトボードの写真、教科書の図、手書きのスケッチなどを、たとえ画像がぼやけていたり、反転していたり、低品質であっても解釈できます。
動的な画像操作:
ツール利用と組み合わせることで、推論プロセスの一部として画像を回転、ズーム、変換するなど、動的に操作することも可能です。
新しい問題解決:
これにより、視覚的推論とテキスト的推論を融合させた、従来は不可能だった新しいクラスの問題解決が可能になります。

7. 安全性の強化
モデル能力の向上に伴い、安全性への取り組みも強化されています。
トレーニングデータの刷新:
生物学的脅威(バイオリスク)、マルウェア生成、ジェイルブレイクといった分野で、新たな拒否プロンプトを追加し、安全トレーニングデータを完全に再構築しました。これにより、内部の拒否ベンチマークで高い性能を達成しています。
システムレベルの緩和策:
フロンティアリスク領域における危険なプロンプトを検出するため、人間が記述した解釈可能な安全仕様に基づいて動作する推論LLMモニターを開発しました。バイオリスクにおいては、人間のレッドチームによるテスト会話の約99%を検出することに成功しています。
Preparedness Framework:
更新されたPreparedness Frameworkに基づき、生物・化学、サイバーセキュリティ、AI自己改善の3分野で評価され、両モデルとも「高」リスク閾値を下回っていると判断されました。

8. Codex CLI:ターミナルでの実験的エージェント
新たな実験として、ターミナルから実行できる軽量コーディングエージェント「Codex CLI」が発表され、オープンソースで公開されました(github.com/openai/codex)。ローカルのコードにアクセスし、スクリーンショットやスケッチをモデルに渡すことで、マルチモーダルな推論能力をコマンドラインから活用できます。
まとめ
OpenAI o3およびo4-miniは、単なる性能向上に留まらず、AIがツールを自律的に活用し、視覚情報を含む複雑な情報を深く推論する能力において大きな飛躍を遂げました。特に、エージェント的なツール利用は、AIがより能動的に、人間の指示に基づいて複雑なタスクを独立して実行できるようになる未来を示唆しています。
AIエンジニアにとっては、これらのモデルが提供する高度な推論能力、マルチモーダル処理能力、そして柔軟なツール連携機能を理解し、活用することで、これまで不可能だったアプリケーションやワークフローを構築できる可能性が広がります。今後のoシリーズとGPTシリーズの能力統合により、自然な対話能力と高度な問題解決能力を兼ね備えた、さらに強力なAIの登場が期待されます。
コメント