[論文解説]OpenAIによるAIの「現実のタスクに対する賢さ」を測るものさし 「GDPval」と現在のAIの実力

目次

はじめに

 近年、AIモデルの能力は目覚ましく向上しており、私たちの仕事や経済にどのような影響を与えるかについての議論が活発になっています。AIが特定のタスクを自動化するのか、あるいは職業そのものに取って代わるのか、はたまた全く新しい仕事を生み出すのか、その可能性は多岐にわたります。

 これまで、AIの経済的影響を測る指標は、AIの導入率やGDP成長への寄与度といった、いわば「結果」を見て判断するものが主流でした。しかし、電力やコンピューターといった過去の技術革新が社会全体に浸透するまでに数十年を要したように、こうした指標はAIの影響を後から追いかける「遅行指標」になりがちです。

 そこでOpenAIの研究者たちは、AIの社会実装を待つのではなく、「AIモデルの能力そのものを直接測定する」という新しいアプローチを提案しました。それが、今回ご紹介する論文で発表されたベンチマーク「GDPval」です。GDPvalは、現実世界の経済的に価値のあるタスクをAIに解かせることで、その能力を評価し、将来の経済的インパクトを予測することを目指しています。

 本稿では、AIの能力評価に新たな基準を打ち立てる「GDPval」について、論文を基に概要から詳細な手法、実験結果までを解説していきます。

解説論文

・あくまで個人の理解に基づくものであり、正確性に問題がある場合がございます。
 必ず参照元論文をご確認ください。
・本記事内での画像は、上記論文より引用しております。

要点

  • GDPvalの導入:現実世界の経済的に価値のあるタスクに基づいた新しいAIモデル評価ベンチマークである。米国のGDPに貢献する主要9セクター、44職種の業務をカバーしている。
  • 現実的なタスク設計:平均14年の経験を持つ業界の専門家が実際に作成した業務成果物に基づいてタスクが作られており、学術的なテストとは一線を画す現実性を持つ。タスクはCADファイル、動画、スプレッドシートなど多様な形式を扱い、完了までに専門家でも平均7時間、長いものでは数週間を要する。
  • フロンティアモデルの性能評価:最新のAIモデルは、専門家が作成した成果物と同等の品質に近づきつつある。特にClaude Opus 4.1は、美的センスが問われるタスクで、GPT-5は正確性が求められるタスクで高い性能を示した。
  • 効率改善の可能性:AIを専門家のワークフローに組み込むことで、支援なしの場合と比較して、タスクをより速く、より低コストで完了できる可能性が示された。
  • 性能向上の要因分析:モデルの推論に割くリソース(reasoning effort)を増やしたり、プロンプトを工夫したりすることで、性能が向上することが確認された。

詳細解説

 ここからは、論文の構成に沿って、GDPvalの目的から詳細な実験結果、そして今後の課題までを網羅的に解説していきます。

1. INTRODUCTION(はじめに)

 AIモデルの能力向上に伴い、労働市場への影響に関する議論が活発化しています。これまでのAIの経済的影響の測定は、導入率やGDP成長への寄与といった、普及後のデータに依存する方法が主流でした。しかし、歴史的に見ても、新しい技術が経済全体に浸透するには長い時間がかかり、これらの指標はAIの真のポテンシャルを測るには遅すぎます。

  この論文では、AIの普及を待つのではなく、その能力を直接測定することで経済的な関連性を評価するアプローチを提案しています。そのために開発されたのが、現実世界の経済的に価値のあるタスクでAIの性能を評価するベンチマーク「GDPval」です。GDPvalは米国のGDPに貢献する上位9セクター、44職種(Figure 2参照)を対象とし、合計1,320のタスクで構成されています。評価は主に、人間の専門家がAIの成果物と専門家自身の成果物を比較する「直接対決(head-to-head)」方式で行われます。

2. TASK CREATION(タスクの作成)

GDPvalのタスクは、非常に体系的なプロセスを経て作成されています。

2.1 PRIORITIZING OCCUPATIONS(職種の優先順位付け)

 GDPvalは、合計で年間3兆ドル(約450兆円)の賃金を生み出す44の職種を対象としています。職種の選定は以下の2段階で行われました。

  1. セクターの選定:まず、米国のGDPの5%以上を占める9つの主要セクターが選ばれました。これには「製造業」「金融・保険」「医療・社会扶助」などが含まれます。
  2. 職種の選定:次に、各セクター内で総賃金への貢献度が高い職種の中から、業務の大半がコンピュータ上で行われる「デジタル職」を5つずつ選定しました。ある職種がデジタル職かどうかは、米国労働省の職業情報データベース「O*NET」のタスクリストをGPT-4oで分析し、デジタルなタスクが60%以上を占めるかどうかで判断されました。この分類の妥当性は、経済学の既存のフレームワークと比較することでも検証されています。

2.2 EXPERT RECRUITMENT(専門家の採用)

 タスクの作成には、実際の業務経験を持つ専門家が不可欠です。GDPvalでは、最低4年以上の実務経験を持ち、昇進や管理職経験などの実績がある専門家が採用されました。採用された専門家の平均経験年数は14年にも及びます。彼らの経歴には、Google、Microsoft、Goldman Sachs、Disneyといった著名な企業が名を連ねています。

2.3 TASK CREATION(タスクの作成)

 各タスクは、専門家への「依頼(request)」と、それに対する「成果物(deliverable)」のペアで構成されます。依頼には、業務の背景を説明する複数の参考ファイルが添付されることもあります。専門家は、自身が作成したタスクがO*NETのどの業務活動に対応するかを分類し、タスクが特定の職種を網羅的かつ代表するように設計しました。各タスクの経済的価値は、専門家が見積もった完了時間と、その職種の平均時給を掛け合わせることで算出されています。

2.4 TASK QUALITY CONTROL PIPELINE(タスクの品質管理パイプライン)

 作成されたタスクは、その品質と現実性を保証するために、厳格なレビュープロセスを経ています。すべてのタスクは、AIモデルによる自動スクリーニングと、平均5回(最低でも3回)の人間の専門家によるレビューを受けました。レビューは反復的に行われ、フィードバックを元にタスクが修正され、品質が向上するまで続けられました。

2.5 HUMAN EXPERT GRADING AND AUTOMATED GRADING(人間の専門家による評価と自動評価)

 モデルの性能評価は、ブラインドテスト形式での専門家によるペアワイズ比較(pairwise comparison)で行われます。評価者は、依頼と参考ファイルを受け取り、誰が作成したか分からないようにラベル付けされた2つ以上の成果物(例:AIの成果物 vs 人間の成果物)を比較し、順位を付けます。この評価には、1つの比較あたり平均1時間以上が費やされました。

 なお、この方法は専門家に依頼するため、非常に時間がかかり、コストも高くなります。この時間とコストの問題を解決するために、研究者たちは専門家の代わりに評価を行う「自動評価AI(automated grader)」を実験的に開発しました。このAIは、人間の専門家が評価するのと同じように、2つの成果物を比較して優劣を判断するように訓練されています。この自動評価AIの精度を検証したところ、人間の専門家による評価結果と66%の確率で一致しました。これは一見するとそこまで高くないように思えるかもしれません。しかし、実は人間の専門家同士で同じものを評価しても、意見が完全に一致することはなく、その一致率は71%で、あと5%まで迫る、かなり高い精度を持っていると言えます。

 まとめると、この自動評価AIは、専門家による評価を完全に代替できるわけではないものの、迅速かつ低コストで大規模な評価を行うための有望なツールである、ということを示しています。これにより、今後のAIモデル開発がより効率的に進められる可能性が示唆されています。

3. EXPERIMENTS AND RESULTS(実験と結果)

 ここでは、様々なAIモデルをGDPvalで評価した結果が報告されています。

3.1 HEADLINE RESULTS(主要な結果)

 GPT-4o、GPT-5、Claude Opus 4.1などの最先端(フロンティア)モデルを評価した結果、Claude Opus 4.1が最も高い性能を示し、人間が作成した成果物に対して47.6%の勝率(勝利または引き分け)を記録しました。(Figure 5参照)これは、AIが専門家の品質にかなり近づいていることを示唆しています。

 モデルごとに得意分野が異なり、Claude Opus 4.1は文書のフォーマットやスライドのレイアウトといった美的側面で優れており、GPT-5は指示の遵守や計算の正確性といった点で高い性能を発揮しました。

 また、OpenAIのフロンティアモデルの性能は、時間の経過とともにおおむね線形的に向上していることも確認されました。(Figure 6参照)

3.2 SPEED AND COST COMPARISON(速度とコストの比較)

 AIを専門家の業務プロセスに組み込んだ場合の、時間とコストの削減効果についても分析されています。分析されたシナリオでは、「まずAIにタスクを試させ、満足のいく結果でなければ自分で修正する」という使い方を想定しています。この方法により、専門家が単独で作業するよりも時間とコストを節約できる可能性が示されました。特にGPT-5やo3といった高性能なモデルでは、速度とコストの両面で1倍以上の改善が見られました。(Figure 7参照:一部図を改変)

3.3 MODEL STRENGTHS AND WEAKNESSES(モデルの長所と短所)

 モデルがなぜ人間に負けたのか、その失敗要因を分析したところ、多くのモデルで「指示に従えなかった(Instruction Following)」が最も多い理由でした。特にGemini 2.5 ProやGrok 4ではこの傾向が顕著でした。(Figure 8参照:一部改変)一方で、GPT-5は指示追従の失敗が最も少なく、主な失敗要因はフォーマットのエラーでした。また、すべてのモデルで、存在しないデータを生成する「ハルシネーション」や計算ミスが時折見られました。

3.4 INCREASING REASONING EFFORT AND SCAFFOLDING(推論努力と足場作りの増加)

 モデルの性能を向上させるための実験も行われました。まず、モデルが推論に費やす計算リソース(reasoning effort)を増やすと、性能が向上することが確認されました。  (Figure 9左図参照)

 さらに、プロンプトを工夫すること(プロンプトチューニング)でも性能向上が見られました。(Figure 9右図参照)例えばGPT-5に対して、成果物のレイアウトを画像としてレンダリングしてチェックしたり、不要な冗長表現を避けたりするよう指示するプロンプトを与えることで、フォーマットエラーが大幅に減少し、人間からの評価も5パーセントポイント向上しました。これは、モデルが持つマルチモーダル能力を最大限に引き出すような「足場作り(scaffolding)」が、性能向上に有効であることを示唆しています。

4. OPEN-SOURCING(オープンソース化)

 今後の研究を促進するため、GDPvalのタスクセットの一部である220タスク(ゴールドサブセット)がオープンソースとして公開されました。これには、プロンプトと参考ファイルが含まれます。また、実験的な自動評価サービスも利用可能になっています。

5. LIMITATIONS(限界)

 本研究にはいくつかの限界も存在します。

  • データセットのサイズ:現在のGDPvalは44職種に限定されており、知識労働のすべてを網羅しているわけではありません。
  • 自己完結型の知識労働に焦点:タスクはコンピュータ上で完結するデジタルな成果物を中心としており、手作業や物理的なタスク、あるいは暗黙知や個人情報、独自のソフトウェアを必要とする業務は対象外です。
  • タスクの形式:タスクは必要な情報がすべて提供された「ワンショット」形式であり、現実の業務のように、何をするべきかを探りながら進める対話的なプロセスは含まれていません。
  • 評価コスト:専門家による評価は非常に高コストです。自動評価器はこの問題を緩和しますが、完全な代替にはなりません。

6. CONCLUSION(結論)

 本論文は、GDPvalという新しい評価データセットを構築し、AIモデルの能力を品質、速度、コストの観点からベンチマーキングしました。また、推論努力やプロンプトの工夫が性能に与える影響を実験で示し、データセットと自動評価器をオープンソース化することで、今後の研究コミュニティに貢献しています。この研究は、AIモデルの進歩を追跡し、その社会的影響を評価するためのより良いデータを提供することを目指すものです。

まとめ

 今回解説した論文では、AIの能力を現実世界の経済的に価値のあるタスクで測定する新しいベンチマーク「GDPval」が提案されました。GDPvalは、米国の主要産業を代表する職種の、専門家によるリアルな業務に基づいて設計されており、これまでの学術的なベンチマークとは一線を画します。

 実験結果からは、最先端のAIモデルがすでに専門家の成果物の品質に肉薄していること、そしてAIを業務に活用することで時間とコストを大幅に削減できる可能性が示されました。(ただし、職種によって大きな差があります。)一方で、指示を正確に守ることや、複雑なフォーマットを扱うことにはまだ課題も残っています。

 プロンプトの工夫などで性能が向上することも示されており、AIの能力を最大限に引き出すための人間の役割の重要性も浮き彫りになりました。今後、このベンチマークがどのように発展し、AIの能力評価のスタンダードとなっていくのか、注目していきたいと思います。

この記事が気に入ったら
フォローしてね!

  • URLをコピーしました!
  • URLをコピーしました!
目次