［論文解説］AIはAI研究を再現できるのか？OpenAIによる最先端ベンチマーク「PaperBench」徹底解説!

2025-04-06

はじめに

　近年、人工知能（AI）の進化は目覚ましいものがあり、様々な分野でその能力が発揮されています。もしAIが人間の手を借りずに、自ら最先端の機械学習の研究論文を理解し、その実験を再現できるようになったとしたら、科学技術の発展は飛躍的に加速するでしょう。これは非常に魅力的な未来である一方、AIの能力が急速に発展することに対する注意深い検討も必要とされています。

　このような背景のもと、OpenAIの研究者たちは、AIエージェントが最先端のAI研究をどれだけ自律的に再現できるのかを評価するための新しいベンチマーク「PaperBench」を開発し、論文「PaperBench: Evaluating AI’s Ability to Replicate AI Research」で発表しました。PaperBenchは、モデルの自律性を評価するOpenAIのPreparedness Frameworkや、AnthropicのResponsible Scaling Policy、Google DeepMindのFrontier Safety Frameworkといった、AIの安全性に関する研究においても重要な役割を果たすと期待されています。

　本記事では、PaperBenchがどのようなもので、AIエージェントにどのようなタスクを課し、どのように評価するのかを詳しく解説していきます。

参照論文

論文タイトル: PaperBench: Evaluating Scientific Papers’ Factuality with Large Language Models
参照元URL: https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf
発行日: 2025年4月2日

要点

最先端AI研究の再現: PaperBenchは、2024年の機械学習の国際会議ICMLで発表された注目の研究論文（SpotlightおよびOral論文）20件を対象としています。これらの論文は、深層強化学習、ロバスト性、確率的メソッドなど、12の異なるICMLトピックを網羅しています。
自律的なタスク遂行能力の評価: AIエージェントには、与えられた論文の内容を理解し、実験に必要なコードベースをゼロから開発し、実際に実験を実行・監視・トラブルシューティングを行うことが求められます。これは、人間の専門家でも最低数日を要する非常に困難なタスクです。
著者承認済みの詳細な評価ルーブリック: 各論文には、その再現に必要なすべての結果を詳細に記述した、著者によって承認されたルーブリックが用意されています。ルーブリックは階層構造になっており、再現タスクはより細かなサブタスクに分解され、部分的な進捗も評価できるようになっています。PaperBench全体で、8,316もの個別に評価可能なタスクが含まれています。
LLMベースの自動評価システム: 複雑なML研究論文の評価には多大な時間と専門知識が必要となるため、PaperBenchではLLM（大規模言語モデル）ベースの自動評価システム「SimpleJudge」を開発しました。この自動評価システムの性能は、人間による評価との比較によって検証されています。
初期実験結果: いくつかの最先端モデルをPaperBenchで評価した結果、最も高い性能を示したClaude 3.5 Sonnet (New) であっても、平均再現スコアは21.0%にとどまりました。また、ML分野の博士号取得者による人間のベースラインと比較しても、現時点ではAIモデルは人間を上回る性能を示せていません。
軽量版ベンチマーク「PaperBench Code-Dev」: より広範なコミュニティがアクセスしやすいように、コード開発に焦点を当てた軽量版「PaperBench Code-Dev」も公開されています。

詳細解説

ここからは、PaperBenchの各要素についてより詳しく解説していきます。

1. 導入

　PaperBenchは、AIエージェントが最先端のAI研究を再現する能力を評価するために導入されたベンチマークです。これは、自律的に機械学習（ML）の研究論文を再現できるAIエージェントが、機械学習の進歩を加速させる可能性があるという期待感と、同時にそのようなAI能力の開発が安全であることを保証するための慎重な研究の必要性から生まれました。PaperBenchは、OpenAIのPreparedness Framework、AnthropicのResponsible Scaling Policy、そしてGoogle DeepMindのFrontier Safety Frameworkにおけるモデルの自律的な能力を測る指標としても利用できると考えられています。

　PaperBenchの基本的な設定では、コードを自律的に記述し実行できるAIエージェントを評価対象としています。ベンチマークに含まれる各ML研究論文に対して、エージェントには論文の内容が提示され、論文の経験的な貢献を再現することが求められます。完全な再現には、論文の理解はもちろんのこと、全ての実験を実装するためのコードベースをゼロから開発し、これらの実験を実行、監視し、必要に応じてトラブルシューティングを行うことが含まれます。一般的に、これらの再現タスクは非常に難易度が高く、人間の専門家でも最低数日間の作業を要します。

　PaperBenchのデータセットは、2024年のInternational Conference on Machine Learning（ICML）で発表された20件のSpotlightおよびOral論文で構成されています。これらの論文は、深層強化学習、ロバスト性、確率的手法など、12の異なるICMLトピックにわたっています。各論文には、手動で作成されたルーブリックが付属しており、論文の完全な再現に必要な全てのアウトカムが詳細に指定されています。その結果、PaperBench全体で8,316個の個別に採点可能なアウトカムが存在します。特筆すべき点として、PaperBenchに含まれる各ルーブリックは、そのICML論文の原著者の一人によって共同開発されており、評価の質と正確性が保証されています。ルーブリックは階層的な構造を持っており、アウトカムをより細かいサブアウトカムに分解できるため、論文の再現に向けた部分的な進捗状況を非常に細かく測定することが可能です。

　機械学習の研究論文の複雑さを考慮すると、単一の再現試行を評価するだけでも、人間の専門家が数十時間を要することがわかりました。この採点プロセスを効率化するために、PaperBenchではLLMベースの審査員（judge）が導入されています。また、この自動審査員の性能を評価するために、補助的な評価ベンチマークであるJudgeEvalも開発されています。JudgeEvalにおいて最高の性能を示したLLMベースの審査員は、o3-miniというモデルをカスタムな足場（scaffolding）と組み合わせて使用しており、F1スコア0.83を達成しています。この結果は、この自動審査員が人間の専門家の代わりとして妥当であることを示唆しています。

　PaperBenchを用いた最先端モデルの評価では、AIエージェントがML研究論文の再現において非自明な能力を示すことが確認されています。AnthropicのClaude 3.5 Sonnet (New)というモデルは、シンプルなエージェントの足場を用いた場合、PaperBenchで平均21.0%のスコアを達成しました。一方、同じ3論文のサブセットで、ML分野の博士号取得者による人間のベースライン（3回の試行のうち最高の結果）は48時間の努力の末に41.4%を達成しており、OpenAIのo1というモデルが同じサブセットで達成した26.6%と比較しても、現時点ではモデルが人間の性能を上回るには至っていないことが示されています。さらに、PaperBenchのより軽量なバリアントであるPaperBench Code-Devでは、o1が43.4%のスコアを達成しています。

　PaperBenchの主な貢献は以下の通りです:

20件のML研究論文と著者承認済みのルーブリック、そしてLLMベースの審査員を用いた自動採点ワークフローを含むベンチマーク「PaperBench」を開発したこと。
セットアップと評価をより幅広いコミュニティにアクセス可能にするため、PaperBenchの一部の要件を緩和した、より軽量なバリアント「PaperBench Code-Dev」を提供したこと。
人間の専門家によって採点された提出物のデータセットであり、自動審査員の開発と評価のための補助的な評価として使用できる「JudgeEval」を開発したこと。
最先端モデルのPaperBenchにおける評価結果を得たこと。長期的なタスクとML R&Dを実施する複数の最先端AIエージェントの能力の評価が可能になったこと。

　PaperBenchの各サンプルでは、評価対象となるエージェント（候補者）に論文と、論文の不明点を明確にするための補遺（addendum）が提供されます。候補者は、論文の経験的結果を再現するために必要な全てのコードを含むリポジトリを提出物として作成する必要があります。このリポジトリのルートにはreproduce.shというファイルが含まれており、これが全ての必要なコードを実行するためのエントリーポイントとなります。提出物が論文の経験的結果を再現した場合に、その提出物は論文を首尾よく再現したと見なされます。

　重要な点として、エージェントは論文の著者のオリジナルのコードベース（もし存在する場合）を使用または閲覧することを禁じられています。これにより、既存の研究コードを使用する能力ではなく、複雑な実験をゼロからコーディングし実行するエージェントの能力を測定することが保証されます。

　PaperBenchは、AIエージェントが最先端のML研究をどの程度自律的に再現できるかを評価するための、挑戦的で現実的なベンチマークとなることを目指しています。

2. 論文基準（PaperBench）

　PaperBenchは、AIエージェントのAI研究再現能力を評価するためのベンチマークです。Figure 1は、PaperBenchの全体的な流れを視覚的に示しています。

2.1. タスク

　PaperBenchの各サンプルにおいて、評価対象となるAIエージェント（候補）には、研究論文と、論文に関する追加の明確化情報が提供されます。候補は、論文の実験結果を再現するために必要なすべてのコードを含むリポジトリを作成し、提出する必要があります。このリポジトリのルートには、「reproduce.sh」という実行スクリプトが含まれていなければなりません。このスクリプトを実行することで、論文に報告されている実験結果が再現されることが、完全な再現とみなされます。一般的に、各再現タスクは非常に困難であり、人間の専門家でも最低数日の作業を要します。

　候補は、評価基準への過剰適合を防ぐため、試行中にルーブリックを見ることはできません。何を再現する必要があるかは、論文から推測する必要があります。重要な点として、エージェントは論文の著者による元のコードベース（もし存在する場合）を使用または閲覧することは禁止されています。これにより、既存の研究コードを利用する能力ではなく、複雑な実験をゼロからコーディングし、実行するエージェントの能力を測定することができます。

2.2. 再現

　提出されたコードベースが実際に論文の結果を再現するかどうかは、新鮮な環境で実行することによって検証されます。候補によるタスク試行が終了すると、その提出物はUbuntu 24.04イメージが実行され、A10 GPUにアクセス可能なクリーンな仮想マシンにコピーされます。そこで提出物の再現スクリプトが実行され、完全に新しい状態から結果が生成されます。この実行により、結果やプロットなどのファイルが出力されるとともに、「reproduce.log」というログファイルも生成されます。この結果、更新された提出物フォルダが「実行済み提出物」として扱われます。

　このように、再現ステップを候補の実行とは別に設計することで、再現の信頼性を高め、候補がタスク実行時に結果をハードコーディングするのを防ぐことができます。

2.3. 評価

　PaperBenchに含まれる各論文には、完全な論文再現のための評価基準を明記したルーブリックが付属しています。ルーブリックは要件の木構造として構成されており、各葉ノードは単一の明確な合格/不合格基準を指定しています（Figure 2を参照）。各ノードには、その重要度に応じて手動で重みが付けられています。葉ノードの基準に対して、審査員（後述）は提出物がその要件を満たしているかどうかを評価し、満たしていれば1、満たしていなければ0のバイナリスコアを割り当てます。

　すべての葉ノードが評価されると、親ノードには、その子ノードのスコアの重み付き平均が与えられます。このプロセスは木の根まで伝播し、ルートレベルのスコアが提出物の最終的な再現スコアとなります。言い換えれば、各提出物は、満たされたすべてのルーブリック要件の重み付けされた割合としてスコア化され、100%はすべての葉ノード要件が満たされた完全な再現に対応します。主要な評価指標は、すべての論文にわたる平均再現スコアです。

2.4. 要求タイプ

　各葉ノードには、評価方法を決定する3つの可能な要求タイプがあります。

結果一致 (Result Match): 実行済み提出物が、論文からの特定の結果を再現する証拠を含んでいるかどうかを評価します。結果一致ノードは、「reproduce.sh」、「reproduce.log」、および再現ステップで作成または変更されたファイルを参照して評価されます [Table 1]。例えば、「記録されたF1スコアは、表現ベースの予測方法から頻度事前分布項を削除すると、すべてのモデル、データセット、および微調整設定で平均F1スコアが低下することを示しているか？」といった要件です。
実行 (Execution): 「reproduce.sh」スクリプトの実行時に特定の結果が発生したかどうかを評価します。結果一致ノードは達成が特に困難であるため、複数の関連する実行ノードを持つことで、対応する結果一致ノードが達成されなかった場合でも、結果への部分的な進捗に対してクレジットが付与されます。実行ノードは、「reproduce.sh」、「reproduce.log」、およびソースコードを参照して評価されます [Table 1]。例えば、「Table 1に示されているすべてのモデル、データセット、および微調整構成において、事前分布なしの表現ベースの予測方法を評価し、F1スコアを記録するコードが実行されたか？」といった要件です。
コード開発 (Code Development): 候補のソースコードに、特定の要件の正しい実装が含まれているように見えるかどうかを評価します。コード開発ノードは、実行ノードの達成に向けて部分的なクレジットを付与します。例えば、正しいコードが書かれていても、「reproduce.sh」で正しく実行できなかった場合にクレジットが付与されます。コード開発ノードは、README、ドキュメント、ソースコード、「reproduce.sh」を参照して評価されます [Table 1]。例えば、「セクション4.1で説明されているように、BART0Largeを使用してP3データセットのテストセットで予測を生成し、Exact Matchスコアを使用してデータセットDtrain RおよびDtest Rを作成するコードが書かれているか？」といった要件です。

　結果を一致させることは定義上論文の再現を意味するため、ルーブリックを結果一致ノードのみで構成することも可能です。しかし、実行ノードとコード開発ノードを含めることで、結果の達成に向けて部分的なクレジットが付与され、PaperBenchにおけるエージェントのパフォーマンスが段階的に向上することが保証されます。逆に、コード開発ノードのみでルーブリックを作成することも考えられますが、コードを実行せずにその正確性を完全に判断することは実際には不可能です。したがって、より包括的で堅牢な評価を行うためには、コードの実行と結果の一致を別々に評価することがより適切です。

　Table 1は、各要求タイプに対して審査員に提示されるファイルをまとめたものです。提出物に「reproduce.sh」が含まれていない場合、すべての実行ノードと結果一致ノードで0点が与えられます。

2.5. ルール

　PaperBenchはエージェントの基盤に依存しないように設計されているため、エージェントの環境に関する特定の要件はありません。ただし、公平な比較を保証するためのルールがあります。

エージェントはインターネットを閲覧できますが、提供された論文ごとのブラックリストに含まれるウェブサイトのリソースを使用することはできません。各論文のブラックリストには、著者のコードリポジトリやその他のオンラインでの再現が含まれます。
ランタイムや計算リソースなど、エージェントが利用できるリソースに制限はありません。ただし、研究者は結果とともに自身のセットアップを報告することが推奨されます。
開発者は、必要なオンラインサービス（データセットをダウンロードするためのHuggingFaceの認証情報など）のAPIキーをエージェントに提供する必要があります。オンラインアカウントへのアクセスを取得することは、PaperBenchで評価しようとしているスキルセットの一部ではありません。

　実験では、ブラックリストに登録されたURLがエージェントのログに現れるかどうかをチェックする簡単な事後監視システムを構築し、ブラックリストに登録されたリソースを使用した提出物は手動レビューにエスカレーションして失格としています。実験全体で、ブラックリストに登録されたリソースの使用が10件確認され、これらの提出物のスコアは0に設定されました。

2.6. PaperBench Code-Dev

　PaperBenchの完全な評価を実行するには、エージェントモデルの推論と、エージェントに提供される計算環境の両面でコストがかかります。より幅広いアクセスを提供するために、PaperBenchの簡略化されたバージョン「PaperBench Code-Dev」がリリースされています。PaperBench Code-Devは、評価タスクをコード開発のみに限定し、結果が再現されたかどうかを確認するためのコード実行をスキップします。評価中、再現ステップはスキップされ、審査員はルーブリックの「コード開発」ノードのみを評価します。これにより、PaperBenchの再現ステップで通常必要となる高価なGPUハードウェアの必要性がなくなります。さらに、審査員としてo3-miniを使用した場合、評価コストは約85%削減されます。

　PaperBench Code-Devは、よりアクセスしやすいですが、エージェントの論文再現能力の評価としてはロバスト性に欠けます。PaperBench Code-Devのパフォーマンスは、完全なPaperBench評価のパフォーマンスと弱い相関関係にあります。PaperBench Code-Devは、PaperBenchのパフォーマンスの予備的な指標として有用であると期待されています。

3. データセット

　PaperBenchは、Table 2に示す20件の機械学習論文で構成されています。ベンチマークが現代のAI研究を代表する論文で構成されるように、ICML 2024のすべてのSpotlightおよびOral論文を検討し、Appendix Bで説明されている基準に基づいてさらにキュレーションしました。さらに、NeurIPS 2024 Workshopsの2件の論文を開発セットとしてリリースし、内部使用のためにホールドアウトセットを維持しています。

3.1. ルーブリック

　各論文のルーブリックの作成は、PaperBenchの開発において最も時間のかかる側面でした。各ルーブリックは、各論文の元の著者の1人と共同で作成され、論文の読解、最初の作成、ルーブリックのレビュー、反復、最終承認まで、論文ごとに数週間を要しました。ルーブリックの作成プロセスの詳細はAppendix Cで説明されています。

　各ルーブリックは、特定の論文を再現するために必要な主要な成果を階層的に分解する木構造として構成されています。例えば、ルートノードは、「論文の主要な貢献が再現された」という最高レベルの期待される成果から始まります。第1レベルの分解では、主要な貢献ごとにノードが導入される場合があります。これらのノードの子は、より詳細な特定の成果、例えば「gpt2-xlがセクションB.1のハイパーパラメータを使用してデータセットで微調整された」といったものになります。重要な点として、ノードのすべての子を満たすことは、親も満たされたことを示しているため、ツリーのすべての葉ノードを評価するだけで、全体的な成功を包括的に評価するのに十分です。

　葉ノードには、正確で粒度の細かい要件があります。多くの粒度の細かい要件を持つことで、部分的な試みをスコアリングできるようになり、審査員による個々のノードのグレーディングが容易になります。ノードは、その要件を専門家が15分以内に（論文に精通していることを前提として）満たしているかどうかを確認できる程度の粒度になるまで継続的に分解されます。PaperBenchの20件の論文全体で、8,316の葉ノードがあります。Table 2は、各ルーブリックのノードの総数を示しています。ノードタイプの詳細な内訳はAppendix CのTable 7を参照してください。

　すべてのルーブリックノードには重みも付けられています。各ノードの重みは、その貢献の重要度を兄弟ノードと比較して示しており、必ずしもノードの実装の難易度を示すものではありません。ノードに重みを付けることで、再現時に論文のより重要な部分を優先することが奨励されます。

3.2. アンダースペシフィケーションへの対応

　各論文に対して、論文の元の著者からの明確化を含む追加情報が手動で作成されます。追加情報は、論文のどの部分が評価範囲外であるかも明確にします。必要に応じて、審査員が提出物をより正確に評価するのに役立つ参照情報を含む審査員のみが利用できる追加情報も作成されます。

4. LLM審査員

　予備実験では、専門家による手動評価には論文1件あたり数十時間を要することがわかりました。したがって、PaperBenchの実用的な応用のためには、自動化された評価方法が必要です。PaperBenchの提出物のスケーラブルな評価を可能にするために、単純なLLMベースの審査員（SimpleJudge）を開発しました。さらに、審査員とその将来の改良版の性能を評価するための補助評価 JudgeEval を作成しました。重要な点として、自動審査員の質は時間とともに向上することが期待されており、それによりベンチマークで報告されるスコアの信頼性も向上することが期待されます。

4.1. SimpleJudgeの実装

　提出物が与えられると、審査員はルーブリックの各葉ノードを独立して評価します。特定の葉ノードについて、審査員には論文のMarkdown形式、ルーブリック全体のJSON、葉ノードの要件、および提出物がプロンプトとして与えられます。提出物全体はモデルのコンテキストウィンドウに収まらないことが多いため、審査員に関連性でファイルをランク付けさせ、上位10ファイルのみをコンテキストに含めることで、コードベースをフィルタリングしています。その後、葉ノードの要件が満たされているかどうかを評価するように審査員に促します。

　特に明記されていない限り、審査員のためのバックエンドモデルとしてOpenAIのo3-miniを使用しています。o3-miniを使用した審査員のコストは、1件の提出物を評価するのに約66米ドルのOpenAI APIクレジットがかかると見積もられています。PaperBench Code-Devの場合、コストは論文あたり約10米ドルにまで低下します。LLM審査員は、専門家の人件費よりも大幅に安価で高速です（Figure 5を参照）。審査員の実装は「SimpleJudge」と呼ばれます。実装の詳細についてはAppendix Dを参照してください。

4.2. JudgeEvalによる審査員の評価

　PaperBenchの文脈における自動審査員の正確性を評価するためのベンチマーク JudgeEval を導入しました。JudgeEvalを構築するために、PaperBenchデータセットの4件の論文と、PaperBench開発セットの1件の論文の部分的な再現を使用しました。これらの再現は、ゼロから作成されたものと、元の著者のコードベースを修正したものがあります。各再現試行は、対応する論文のルーブリックに対して手動で評価され、これらの人間が評価した葉ノードが、自動審査員を評価する際のグラウンドトゥルースラベルとして扱われます。

　各葉ノードの評価は二値分類タスクであるため、JudgeEvalは標準的な二値分類メトリックを使用して評価されます。GPT-4o-mini、GPT-4o、o1-mini、o1、およびo3-miniを審査員モデルとしてJudgeEvalで評価し、論文全体でのパフォーマンスを集計するためにマクロ平均を使用しました。Table 3に示す結果は、SimpleJudgeの基盤としてo3-miniが最も費用対効果が高く、F1スコア0.83で論文あたり66米ドルであることを示しています。これが、主要な結果に使用される審査員のセットアップです。

5. 実験と結果

5.1. エージェントと実行環境

　実験では、各エージェントは単一のA10 GPUにアクセスできるUbuntu 24.04 Dockerコンテナ内で実行されます。エージェントのローカル作業ディレクトリには、PDFおよびMarkdown形式の論文、論文の追加情報、および指示を含むテキストファイルが含まれています（指示についてはFigure 13を参照）。コンテナはインターネットにアクセスできるため、エージェントは必要に応じてパッケージをダウンロードしたり、ウェブを閲覧したりできます。エージェントには、HuggingFaceとOpenAI APIのAPIキーが1000米ドルのクレジットとともに提供され、実行中にこれらのサービスを利用できるようになっています（例えば、論文にOpenAIの微調整APIを使用した実験が含まれている場合など）。

　エージェントの基盤としては、Inspect AIの基本的なエージェントに基づいたSimpleAgentを使用し、オーケストレーションにはnanoevalを使用しています。この基盤は、モデルが実行を終了することを選択するか、タイムリミットに達するまで、ツール使用ループを実行します。エージェントには、bashシェルのコマンド実行ツール、Pythonコード実行ツール、ウェブブラウザツール、および長いドキュメントをページ分割して読み取るファイルリーダーツールが提供されます。エージェントの基盤の詳細についてはAppendix Fを参照してください。

5.2. 主要な実験

　GPT-4o, o1, o3-mini, DeepSeek-R1, Claude 3.5 Sonnet (New), および Gemini 2.0 Flash を、20件の論文すべてに対して論文あたり3回実行して評価しました。Claude 3.7 Sonnetも評価したかったのですが、Anthropic APIのレート制限により実験を完了できませんでした。エージェントには最大12時間の実行時間が与えられています。

　各モデルの平均再現スコアをTable 4に示します。Claude 3.5 Sonnetが21.0%という有望なパフォーマンスを示しています。OpenAIのo1はそれよりも低い13.2%のスコアでした。他のテストされたモデルは、10%未満の低いスコアでした。

　エージェントのパフォーマンスをより深く理解するために、いくつかのエージェントログを手動で調査しました。Claude 3.5 Sonnetを除くすべてのモデルが頻繁に早期に終了し、再現全体が完了したか、解決できない問題に直面したと主張していることが観察されました。すべてのエージェントは、限られた時間内で論文を最大限に再現するための戦略を立てることができませんでした。o3-miniは、ツールの使用に頻繁に苦労していることが観察されました。これらの失敗モードは、現在のモデルが長期的なタスクを実行する能力の弱点を示唆しています。複数のステップからなる計画を策定し、記述する能力は十分に示しているにもかかわらず、モデルはその計画を実行する一連の行動を実際に行うことができていません。エージェントの基盤に関するさらなる研究が、PaperBenchでのより良い結果につながると考えられます。本研究では、PaperBenchベンチマークの導入に焦点を当て、ベンチマークでのエージェントの結果はあくまで初期ベースラインとして提示しています。現在の結果は、これらのモデルの能力の上限を示すものではないと考えています。

5.3. 反復エージェント（IterativeAgent）

　モデルが利用可能な時間を最大限に活用できない傾向があることを考慮して、タスクを早期に終了する能力を排除し、段階的に作業を進めるように促すプロンプトを使用したBasicAgentのバリアントをテストしました。これをIterativeAgentと呼びます。使用したプロンプトの詳細についてはAppendix F.2を参照してください。

　IterativeAgentでo1、o3-mini、およびClaude 3.5 Sonnetをテストしました。結果をTable 5に示します。IterativeAgentを使用すると、o1とo3-miniのスコアが大幅に向上しています。Claude 3.5 SonnetはBasicAgentではo1を上回るパフォーマンスを示しましたが、IterativeAgentではo1を下回るパフォーマンスを示しました。これは、IterativeAgentで使用されているプロンプトチューニングがOpenAIのoシリーズモデルに特に適していることを示唆しています。BasicAgentの修正によりタスクを早期に終了することを防ぐことができれば、Claude 3.5 SonnetがIterativeAgentを使用したo1を上回るパフォーマンスを示す可能性があると考えています。

5.4. 人間のベースライン性能

　機械学習の博士課程に在籍中または修了した8名の参加者を募り、人間のベースラインを作成しました。私たちのセットアップは、4つの論文のサブセットで人間のベースラインを確立することを目的としています。論文ごとに3つの独立した再現試行を収集し、参加者には最も自信のある論文を割り当てました。論文ごとの3つの独立した試行により、best@3の試行を追跡し、それを「専門家」スコアとして使用できます。

　参加者はAIエージェントと同様の条件下で評価されます。PDFおよびMarkdown形式の論文、論文の追加情報、およびAIエージェントで使用したものと可能な限り類似した指示を与えました。参加者は単一のNVIDIA A10 GPUにアクセスできます。参加者の作業方法に制限は設けていません。例えば、ChatGPTやGitHub CopilotなどのAIアシスタントを自由に使用できますが、PaperBenchのルールに従って、論文のブラックリストに含まれるウェブサイトを参照することは禁止されています。

　参加者はパートタイムで作業し、可能な限り進捗させるために4週間の期間が与えられました。1週間の進捗状況の後、試行を評価し、3つのうち最も優れたパフォーマーのみが残りの週も継続します。アクティブな作業時間はタイムシートを通じて追跡されます。参加者のマシンが（例えば、夜間に）無人で実験を実行している場合、その時間も総作業時間に含まれます。これらの追跡された時間を使用して、さまざまなタイムスタンプで提出物のスナップショットを取得し、評価します [Table 9]。

　IterativeAgentを使用したo1の拡張実行を36時間行い、1時間ごとにスナップショットを保存し、1時間、3時間、6時間、12時間、および36時間で取得したスナップショットを評価しました。この36時間のo1の拡張実行と、時間経過に伴う人間のパフォーマンスをFigure 3で比較します。o1は再現試行の初期段階では人間のベースラインを上回るパフォーマンスを示していますが、24時間後には人間がAIエージェントを上回り始めています。エージェントが最初は人間を上回るものの、より長い時間スケールでは後れを取るというこの傾向は、以前の結果と一致しています。特に、o1のスコアは最初の1時間後にはほとんど横ばいであり、モデルが試行の開始時に大量のコードを迅速に記述することには優れているものの、それ以降の時間スケールで効果的に作業して提出物を改善する方法を戦略的に考えることができていないことを示唆しています。人間のスコアは初期数時間ではゆっくりと上昇しますが、これはおそらく人間が論文を理解するのに時間を費やしているためでしょう。

6. 関連研究

　このセクションでは、ML研究とエンジニアリングにおけるAIエージェントの評価に関する関連研究を概観します。ルーブリックベースの評価と他の形式の評価および監視との比較に関するより大きな全体像については、Appendix Aを参照してください。

MLエンジニアリングと研究の評価

　CORE-Bench は、リポジトリが与えられた研究論文の結果を再現するタスクをエージェントに課します。対照的に、PaperBenchは、研究論文の結果をゼロから再現するタスクをエージェントに課します。

　MLE-bench, MLAgentBench, および DSBench は、Kaggleコンペティションでエージェントを評価します。多くのKaggleコンペティションは古く、比較的単純なMLの課題ですが、PaperBenchには現代の機械学習研究に関連するタスクのみが含まれています。

　RE-Bench は、エージェントが解決すべき7つの挑戦的なオープンエンドのML研究エンジニアリングタスクを提案しています。PaperBenchは、RE-Benchで提案されているより自己完結型のタスクと比較して、より幅広いサブタスクをより長い作業期間にわたってカバーすることが期待されます。さらに、RE-Benchはほとんどのタスクでエージェントに「スコアリング関数」を提供し、現在のタスクにおけるエージェントのパフォーマンスを完全に測定できます。PaperBenchでは、そのようなスコアリング関数がタスクの全範囲を適切に捉えることができない、広範なML研究作業を実行し、関連付けるエージェントの能力を測定することに関心があります。

　近年の研究では、LLMは特定のドメイン内で人間の博士号取得者と同等の新規性を持つ研究アイデアを生成できること、仮説の形成、実験の設計と実行、結果の分析を含むいくつかの玩具的な研究問題を解決できることが示されています。

自動評価LLM

　LLMをタスクの提出物を評価する審査員として使用することは、以前にも提案されています。エージェントベースの審査員は、特定のタスクにおいて非エージェントLLM審査員よりも正確であることがわかっています。私たちは、以前に使用されたものよりも大幅に難しいタスクで、モデルの審査能力をベンチマークしています。

7. 限界

反復エージェントデータセットサイズ

　PaperBenchは現在20件の論文のみで構成されており、理想的にはML研究コミュニティの成果のより大きな部分を捉えるべきです。ただし、論文の数に焦点を当てるのは誤解を招く可能性があります。各ルーブリックは何百ものノードで構成されているため、PaperBenchは数千もの異なる個々の要件についてエージェントを評価しています。

汚染

　ほとんどすべてのベンチマーク論文において、元の著者のコードベースがオンラインで公開されています。私たちの経験では、これらのコードベースは論文全体を再現するものではなく、PaperBenchの提出に必要な特定の形式（例えば、コードを実行するreproduce.shが存在すべき）に準拠していないことがよくあります。それにもかかわらず、大規模なコーパスで事前学習されたモデルはソリューションを内部化している可能性があり、このベンチマークでのパフォーマンスが誇張される可能性があります。現在のモデルはデータセットの論文の新規性を考慮するとこの問題の影響を受けている可能性は低いですが、将来のモデルでは問題になる可能性があります。

困難なデータセット作成

　これらの詳細なルーブリックを作成するには非常に多くの労力がかかり、各ルーブリックの作成には専門家が数日を費やす必要があります。ルーブリックの作成者は論文を深く理解する必要があり、正確な評価を保証するために不正確な要件を避けるように注意深く作成する必要があります。希望する品質レベルで他の人にルーブリックを作成するようトレーニングするのは難しいことがわかりました。これは、データセットを作成するために私たちが行ったプロセスを他の人が再現する上で課題となります。将来の研究では、モデル支援など、より効率的なルーブリック生成アプローチを検討することが望まれます。

LLMベースの審査員の性能

　審査員はJudgeEvalで良好なパフォーマンスを示していますが、専門家による人間の審査ほど正確ではありません。さらに、非決定的なモデル呼び出しを使用しているため、審査員は決定的ではありません。複雑なタスクのための自動審査員のさらなる研究や、例えば敵対的な提出物による審査員のストレステストなどの将来の研究に期待しています。複雑なタスク評価と将来必要となる進歩に関するより広範な議論については、Appendix Aを参照してください。

コスト

　PaperBenchでo1 IterativeAgentを12時間ロールアウトするには、論文1件あたり平均400米ドルのAPIクレジットがかかると見積もられています。20件の論文では、これは評価実行あたり8000米ドルになります。o3-mini SimpleJudgeを使用した評価には、論文1件あたり平均66米ドルの追加コストがかかります。PaperBench Code-Dev (PBCD) は、GPU要件をなくすだけでなく、コストの問題にも対処するように意図的に設計されました。実行がないため、PBCDのロールアウトはPaperBenchのロールアウトの半分の時間で実行できると予想され、これにより評価実行あたりのコストは4000米ドルになります。観察されたプラトーは、ロールアウトをさらに短縮できる可能性を示唆しており、コストをさらに削減できます。PBCDの場合、評価コストは論文あたり平均10米ドルに削減されることもわかりました。最後に、評価コストを10分の1に削減する予備結果を示しているSimpleJudgeの実験的バージョンの研究をリリースします（Appendix Hを参照） [Figure 6]。

8. 結論

　本稿では、最先端の機械学習研究を再現するAIエージェントの能力を評価するための挑戦的なベンチマークとしてPaperBenchを紹介しました。含まれる各論文は、強化学習、ロバスト性、確率的メソッドなど、現代の関心のある分野におけるエキサイティングな研究を表しており、元の著者と共同で開発された厳格なルーブリックに基づいて評価されます。AIエージェントに完全なコードベースをゼロから構築し、複雑な実験を実施し、最終結果を生成することを要求することで、PaperBenchはML R&D能力に関する現実世界のテストを提供します。

　いくつかの最先端モデルを使用した実験結果は、現在のAIシステムが機械学習論文の特定の側面を再現する能力をある程度示しているものの、完全な再現に必要なすべてのタスクをcompetently に実行するにはほど遠いことを示唆しています。私たちの主要なセットアップで最も強力な評価済みエージェントであるClaude 3.5 Sonnet (New) でさえ、平均再現スコアはわずか21.0%であり、ML研究タスクの複雑さと、複雑な長期タスクを実行する現在のAIエージェントの限界の両方を浮き彫りにしています。それにもかかわらず、これらの初期の結果は、非自明な進歩を強調しています。AIエージェントは様々な方法を実装し検証することに成功しており、将来の改善への有望さを示唆しています。

　PaperBenchをオープンソース化することで、AIシステムが自らAI R&Dを行う能力を評価、監視、および予測することに貢献することを目指しています。私たちのベンチマークは現実世界の研究のあらゆる側面を捉えているわけではありませんが、ML研究におけるAIの自律性の厳密な評価に向けた実質的な一歩であると信じています。

影響に関する声明

　AIシステムが複雑なML研究を自律的に行う方向に進むにつれて、複数の分野での科学的発見を加速する可能性を示しています。1つの関連する例として、AI駆動のML研究は、AIの安全性とアラインメントの研究努力を大幅に加速する可能性があります。最先端のML研究をゼロから再現できることは、AIシステムの自律性とMLの専門知識を示すものであり、PaperBenchで高いパフォーマンスを発揮できるモデルは、現実世界のオープンエンドのML研究タスクに取り組む上で非自明な能力を持つことを示唆しています。

　しかし、最先端の研究を自律的に再現し、拡張する能力は、その影響を完全に理解する私たちの能力を凌駕する急速なイノベーションにつながる可能性もあります。もし強力なモデルが最先端の技術を再現するだけでなく、それらを反復的に洗練し改善することができれば、ますます有能なシステムの開発を加速させ、危険性を高めるペースで進行する可能性があります。徹底的なリスク評価、ガバナンス対策、または安全性とアラインメントの介入のための時間が最小限しかない状態でモデルが導入され、潜在的に危険または不安定な結果につながる可能性があります。

　PaperBenchをオープンソース化することで、フロンティアAIシステムのこれらの新たな自律的なR&D能力を測定する方法を提供することを目指しています。PaperBenchは、自律的なAI R&Dのより広範な評価環境のほんの一部に過ぎないことを認識しています。より大きな自律性を備えたAIシステムが最終的に解き放つ可能性のある強力な影響を予測し、準備するための将来の研究を奨励します。

まとめ

　PaperBenchは、AIエージェントが最先端のAI研究を再現する能力を厳密に評価するための、非常に意欲的なベンチマークです。初期の実験結果は、現在のAIがこの困難なタスクにおいて着実に進歩していることを示唆していますが、人間の研究者にはまだ及ばない現状も明らかになりました。PaperBenchの公開は、AIの自律的な研究開発能力の将来を理解し、安全に発展させていく上で重要な一歩となるでしょう。