はじめに
Anthropic社が2025年11月25日、最新モデル「Claude Opus 4.5」を発表しました。コーディング、エージェント、コンピュータユース(computer use)において世界最高レベルの性能を記録し、深い調査やスプレッドシート操作などの日常的なタスクでも大幅な改善を実現しています。本稿では、Claude Opus 4.5の技術的特徴と性能評価、安全性への取り組み、開発者プラットフォームの機能拡張について解説します。
参考記事
- タイトル: Introducing Claude Opus 4.5
- 発行元: Anthropic
- 発行日: 2025年11月25日
- URL: https://www.anthropic.com/news/claude-opus-4-5
・本稿中の画像に関しては特に明示がない場合、引用元記事より引用しております。
・記載されている情報は、投稿日までに確認された内容となります。正確な情報に関しては、各種公式HPを参照するようお願い致します。
・内容に関してはあくまで執筆者の認識であり、誤っている場合があります。引用元記事を確認するようお願い致します。
要点
- Claude Opus 4.5は、SWE-bench Verifiedをはじめとする実世界のソフトウェアエンジニアリングテストで最高スコアを記録した
- 価格は$5/$25 per million tokensに設定され、Opusレベルの能力がより多くのユーザーに利用可能になった
- プロンプトインジェクション攻撃への耐性が業界のフロンティアモデルの中で最も高く、安全性が大幅に向上している
- 新たに導入されたeffortパラメータにより、開発者はタスクに応じて時間・コストの最小化と能力の最大化を選択できる
- Claude Code、Claude for Chrome、Claude for Excelなどのプロダクトがアップデートされ、長時間実行タスクへの対応が強化された
詳細解説
コーディング性能の飛躍的向上
Anthropicによれば、Claude Opus 4.5は実世界のソフトウェアエンジニアリングテストにおいて最高水準の性能を達成しました。特にSWE-bench Verifiedでは、Gemini 3やGPT-5.1などの競合モデルを上回る結果を記録しています。

SWE-bench Verifiedは、GitHubのissueに基づいた実際のソフトウェアエンジニアリングタスクを評価する標準的なベンチマークです。このベンチマークでの高スコアは、実務レベルのコーディング能力を示す重要な指標と考えられます。
興味深い事例として、Anthropicは社内の性能エンジニアリング候補者向けに設計された難度の高い試験にOpus 4.5を適用しました。2時間の制限時間内で、Opus 4.5はこれまでのどの人間候補者よりも高いスコアを記録したとのことです。ただし、この結果は技術的能力と時間制約下での判断力を評価するものであり、協調性やコミュニケーション能力、長年の経験から培われる直感などの重要なスキルは測定していません。
多言語プログラミングとベンチマーク性能
Claude Opus 4.5は、コーディング以外の領域でも広範な性能向上を実現しています。視覚認識、推論、数学的能力が前世代モデルより改善され、多くの領域で最高水準を記録しました。

SWE-bench Multilingualでは、8つのプログラミング言語のうち7つでトップスコアを獲得しています。これは、Python以外の言語でも高品質なコード生成が可能であることを示しています。
また、エージェント能力の標準的なベンチマークであるτ-benchにおいて、Opus 4.5は興味深い挙動を示しました。航空会社のカスタマーサービスエージェントとして顧客を支援するシナリオで、ベーシックエコノミーチケットは変更不可という制約がある中、Opus 4.5は「まずキャビンクラスをアップグレードしてから、フライトを変更する」という創造的な解決策を見出しました。この解答はベンチマークの想定外であったため技術的には「失敗」とスコアされましたが、実用的な問題解決能力の高さを示す事例と言えます。
安全性とアライメントの強化
Anthropicは、Claude Opus 4.5を「これまでリリースした中で最も堅牢にアライメントされたモデル」と位置づけています。「concerning behavior(懸念される行動)」スコアは前世代モデルと比較して大幅に改善されています。

このスコアは、人間による悪用への協力と、モデルが自発的に行う望ましくない行動の両方を含む、広範な不整合行動を測定する指標です。継続的な改善により、Claude 4シリーズは安全性の面でも着実に進化していると考えられます。
特筆すべきは、プロンプトインジェクション攻撃への耐性です。プロンプトインジェクションは、悪意のある指示を密かに注入してモデルを有害な行動に導く攻撃手法であり、実用システムにおける重大なセキュリティリスクとなっています。Opus 4.5は業界のフロンティアモデルの中で最も攻撃されにくいことを意味します。

この評価は、Gray Swanによって開発・実施された非常に強力なプロンプトインジェクション攻撃のみを含むベンチマークに基づいています。重要なタスクにClaudeを使用する顧客にとって、ハッカーやサイバー犯罪者による悪意ある攻撃に対する耐性は、安心して導入できる重要な要素となります。
effortパラメータの導入と効率性
Claude APIに新たに追加されたeffortパラメータは、開発者にタスクごとの最適化の選択肢を提供します。タスクによって、時間とコストの最小化を優先すべき場合と、能力の最大化を優先すべき場合があるという実務的なニーズに応えるものです。
Anthropicの測定によれば、中程度のeffortレベルに設定したOpus 4.5は、Sonnet 4.5の最高スコアと同等の性能をSWE-bench Verifiedで達成しながら、出力トークンを76%削減しました。最高effortレベルでは、Sonnet 4.5を4.3ポイント上回りながら、トークン使用量は48%削減されています。

モデルが賢くなるにつれて、より少ないステップで問題を解決できるようになります。バックトラックの減少、冗長な探索の削減、簡潔な推論などにより、Opus 4.5は前世代モデルより大幅に少ないトークンで同等以上の結果を達成できるとのことです。
開発者は、effortコントロール、コンテキスト圧縮、高度なツール使用を組み合わせることで、Claude Opus 4.5をより長時間実行し、より多くのタスクをこなし、介入を減らすことができます。Anthropicのテストによれば、これらの技術の組み合わせにより、深い調査評価タスクでOpus 4.5の性能が約15ポイント向上しました。
コンテキスト管理とマルチエージェントシステム
Anthropicによれば、コンテキスト管理とメモリ機能はエージェント的タスクの性能を劇的に向上させるとのことです。Opus 4.5は、サブエージェントのチームを効果的に管理する能力も備えており、複雑で協調性の高いマルチエージェントシステムの構築が可能になります。
このマルチエージェント構成は、大規模なタスクを複数の専門化されたエージェントに分割し、それぞれが並行して作業を進める形態を想定していると考えられます。例えば、あるエージェントがバグ修正を担当し、別のエージェントがGitHubで調査を行い、さらに別のエージェントがドキュメントを更新するといった協調動作が可能になります。
Developer Platformは時間をかけて、より組み合わせ可能な構造へと進化しているとのことです。Anthropicは、開発者が効率性、ツール使用、コンテキスト管理を完全にコントロールしながら、必要なものを正確に構築できる構成要素を提供することを目指しています。
プロダクトアップデートと利用制限の変更
Claude Codeは、Developer Platformのアップグレードが統合された形を示すプロダクトです。Opus 4.5により、Plan Modeがより正確な計画を構築し、より徹底的に実行するようになりました。Claudeは事前に明確化のための質問を行い、実行前にユーザーが編集可能なplan.mdファイルを構築します。
また、Claude Codeはデスクトップアプリでも利用可能になり、複数のローカル・リモートセッションを並行実行できるようになりました。これにより、複数のエージェントを同時に起動し、異なるタスクを並行処理することが可能です。
コンシューマー向けのClaudeアプリでは、長い会話が制限に達することがなくなりました。Claudeは必要に応じて以前のコンテキストを自動的に要約し、会話を継続できます。また、Claude for Chrome(MaxユーザーはブラウザタブをまたいでClaudeにタスクを処理させることができる)が全Maxユーザーに提供開始され、Claude for Excel(10月に発表)もMax、Team、Enterpriseユーザーにベータアクセスが拡大されました。
利用制限については、Opus 4.5へのアクセス権を持つClaudeおよびClaude Codeユーザーに対して、Opus固有の上限が撤廃されました。MaxおよびTeam Premiumユーザーの全体的な利用制限も引き上げられ、以前Sonnetで利用できたのとほぼ同数のOpusトークンを使用できるようになったとのことです。
まとめ
Claude Opus 4.5は、コーディング、エージェント、コンピュータユースにおいて世界最高レベルの性能を達成し、同時に安全性とアライメントも大幅に強化されました。effortパラメータの導入により開発者は用途に応じた最適化が可能になり、価格設定の見直しによりOpusレベルの能力がより広範なユーザーに届くようになりました。実用的なエージェントシステムの構築において、重要な選択肢の一つになると思います。
