［論文紹介］AIはどこまで賢くなった？タスクの長さで測る驚異的な進化と未来への影響

2025-04-28

はじめに

　近年、AI（人工知能）の進化は目覚ましく、私たちの生活やビジネスに大きな影響を与え始めています。しかし、AIが「どれだけ賢くなったのか」を測るのは簡単ではありませんでした。本稿では、AIの能力を測る新しい指標として「人間と比較してどれだけ長い時間のかかるタスクを完了できるか」に着目した最新の研究を紹介します。この研究は、AIが驚異的なスピードで進化していること、そして近い将来、より汎用的な能力を持つAI（ジェネラリストAI）が登場する可能性を示唆しています。

引用元記事

タイトル: AI can handle tasks twice as complex every few months. What does this exponential growth mean for how we use it?
発行元: Live Science
発行日: 2025年4月27日
URL: https://www.livescience.com/technology/artificial-intelligence/ai-can-handle-tasks-twice-as-complex-every-few-months-what-does-this-exponential-growth-mean-for-how-we-use-it

引用元論文

論文: Measuring AI Ability to Complete Long Tasks
論文URL: https://arxiv.org/pdf/2503.14499
論文発表日: 2025年3月18日

・本稿中の画像に関しては特に明示がない場合、引用元記事より引用しております。
・記載されている情報は、投稿日までに確認された内容となります。正確な情報に関しては、各種公式HPを参照するようお願い致します。
・内容に関してはあくまで執筆者の認識であり、誤っている場合があります。引用元記事を確認するようお願い致します。

要点

AIの能力を測る新しい指標として「人間と比較して、どれだけ長い時間のかかるタスクを完了できるか」が提案されました。
現在のAIモデルは、人間が4分未満で完了できるタスクはほぼ100%成功しますが、4時間以上かかるタスクでは成功率が10%に低下します。
しかし、AIが50%の信頼性で完了できるタスクの長さ（複雑さ）は、過去6年間で約7ヶ月ごとに倍増しており、指数関数的な成長を示しています。
この傾向が続けば、2032年までにはAIが人間1ヶ月分のソフトウェア開発作業を自動化できる可能性があると予測されています。
この研究は、AIが特定の短いタスクだけでなく、長期間にわたる複雑な目標指向の行動を維持する能力を急速に獲得していることを示唆しており、汎用AIの登場が近いことを予感させます。

詳細解説

なぜ「タスクの長さ」が重要なのか？

　従来のAIの評価は、特定のスキルや知識を問う短い、独立した問題（テキスト予測や知識応答など）で行われることが多くありました。しかし、現実世界のタスク、例えばリモートでの秘書業務や複雑なプロジェクト管理などは、単一のステップをこなすだけでなく、複数の行動を連続させ、長期的な目標を維持する能力が求められます。

　AI研究機関であるMETRの研究者たちは、AIエージェントがしばしば「個々のステップを解決するためのスキルや知識の欠如」よりも「より長い一連の行動をつなぎ合わせること」に苦労する点に着目しました。そこで、AIの能力をより現実世界に即して評価するために、「人間が特定のタスクを完了するのにかかる時間」と比較して、「AIがどれだけの長さ（時間）のタスクを完了できるか」を測定する新しいアプローチを提案しました。これは、AIのいわば「集中力」や「長期的な計画実行能力」を測る試みと言えます。

どのように評価したのか？

　研究チームは、GPT-4やClaude 3 Opusといった最新のものから古いモデルまで、様々なAIモデルを使用しました。そして、Wikipediaで簡単な事実を調べる（人間なら数分）といった簡単なタスクから、複雑なプログラミング（CUDAカーネルの作成やPyTorchのバグ修正など、専門家でも数時間かかる）まで、難易度と所要時間が異なる多様なタスク群（HCASTやRE-Benchといったテストツールを利用）をAIに実行させました。

　さらに、タスクの「乱雑さ（messiness）」も評価に取り入れました。これは、リアルタイムで複数の作業の流れを調整する必要があるなど、現実世界のタスクが持つ複雑さや予測不可能性を模倣するためです。人間のベースラインとしては、METRの従業員が1ステップあたり1秒から30秒かかる単一ステップタスク（SWAA: Software Atomic Actions）を完了する速度を基準としました。

明らかになったAIの驚異的な成長

　実験の結果、AIモデルは人間が4分未満で完了できるタスクではほぼ100%の成功率を示しましたが、4時間以上かかるタスクでは成功率が10%まで低下することがわかりました。これは、AIがまだ長期的な複雑なタスクには課題があることを示しています。

　しかし、最も注目すべきは、AIが50%の信頼性で完了できるタスクの長さが、過去6年間で約7ヶ月ごとに倍増しているという発見です。これは指数関数的な成長であり、AIの能力が驚異的なスピードで向上していることを示しています。このトレンドを外挿すると、2032年までにはAIが人間1ヶ月分のソフトウェア開発作業を自動化できるレベルに達する可能性があると研究者たちは予測しています。

汎用AIの足音

　この研究結果は、単に新しい評価指標を提示しただけでなく、AIの進化の方向性を示唆しています。AIは特定の短いタスクをこなす能力だけでなく、多様なタスクを柔軟に切り替え、長期的な目標に向かって行動を維持する能力、すなわち「汎用性」を急速に高めている可能性があります。

　専門家（記事中で引用されているEleanor Watson氏など）は、この研究結果を踏まえ、2026年までには、短い特定の課題ではなく、1日あるいは1週間にわたるような多様なタスクを処理できる汎用AIエージェントが登場する可能性があると予測しています。

　これが実現すれば、ビジネスにおいては、専門的な業務のかなりの部分をAIが担い、コスト削減や効率向上はもちろん、人間はより創造的、戦略的、対人的な業務に集中できるようになるかもしれません。消費者にとっては、AIが単なるアシスタントから、旅行計画、健康管理、資産管理といった複雑な生活上のタスクを、最小限の監督で数日または数週間にわたって処理できる頼れるパーソナルマネージャーへと進化する可能性があります。

まとめ

　本稿で紹介した研究は、AIの能力を「タスクの長さ」という新しい切り口で測定することの有効性を示しました。現在のAIはまだ長時間の複雑なタスクには課題があるものの、その能力は約7ヶ月で倍増するという驚異的なスピードで進化しています。　この指数関数的な成長は、特定のタスクに特化したAIだけでなく、多様なタスクをこなせる汎用AIエージェントの登場が間近に迫っていることを示唆しています。これらのAIは、私たちの働き方や日常生活を根本的に変える大きな可能性を秘めており、今後の動向を注視していく必要があります。この新しい評価指標は、AIの真の能力と社会への影響を理解する上で、重要な手がかりとなるでしょう。