はじめに
近年、生成AI(Generative AI)の進化と普及は目覚ましく、私たちの働き方に大きな変革をもたらし始めています。AIが様々なタスクを改善し、効率化できる可能性を秘めているため、経済全体にどのような影響を与えるのかは、社会にとって非常に重要な問いとなっています。
本稿では、この問いに答えるべく、Microsoftの研究者たちが発表した最新論文「Working with AI: Measuring the Occupational Implications of Generative AI」を詳しくご紹介します。この研究は、実際の生成AIの利用データを用いて、AIがどのような作業活動に役立ち、それがどの職種に最も影響を与えるのかを詳細に分析しています。
解説論文
- 論文タイトル:Working with AI: Measuring the Occupational Implications of Generative AI
- 論文URL:https://arxiv.org/pdf/2507.07935
- 発行日:2025年7月22日(arXiv投稿日より)
- 発表者:Kiran Tomlinson, Sonia Jaffe, Will Wang, Scott Counts, and Siddharth Suri
・あくまで個人の理解に基づくものであり、正確性に問題がある場合がございます。
必ず参照元論文をご確認ください。
・本記事内での画像は、上記論文より引用しております。
要点
- AI利用の一般的な作業活動:人々がAIの支援を最も求めているのは、「情報収集」と「ライティング」に関する活動。一方、AI自体が実行している活動としては、「情報提供とアシスタンス」、「ライティング」、「教育」、「アドバイス」が最も一般的となっている。
- AI適用可能性スコアの高い職種:AIとの親和性が高い職種としては、「コンピューター・数学関連職」、「事務・管理サポート職」といった知識労働(Knowledge Work)のグループや、「販売職」のように情報の提供や伝達を伴う職種が挙げられる。知識労働とは、アイデアや情報に関わる仕事で、定型的な作業ではなく、創造的な問題解決を伴うことが多い。
- 既存予測との比較:LLM(大規模言語モデル)による労働市場への影響を予測した既存研究(Eloundou et al.)の予測と、本論文の実測データによる「AI適用可能性スコア」は、職種レベルで0.73、SOC(Standard Occupational Classification)と呼ばれるより広範な職種グループレベルでは0.91という高い相関を示した。これは、既存の予測が実際の利用状況とよく一致していることを意味する。
- 賃金と教育との相関:AI適用可能性スコアと職種の平均賃金との間には、わずかな正の相関しか見られなかった。また、学士号以上の教育を必要とする職種は、それ以下の教育要件の職種と比較して、ややAI適用可能性が高い傾向がありましたが、その違いはそれほど大きくなかった。これは、AIによる労働市場への影響が、私たちが想像するよりも複雑で多面的なものであることを示唆している。
詳細解説
論文の内容をセクションごとに詳しく解説します。
Abstract
(概要)
この論文は、生成AIの急速な普及とその多様なタスクへの影響を踏まえ、AIが経済に与える影響を理解することを目的としています。具体的には、Microsoft Bing Copilot(現在のMicrosoft Copilot)の匿名化された20万件の会話データを分析し、人々がAIとどのような作業活動を行っているか、その活動がどの程度成功しているか、そしてどの職種に広く影響を与えるかを調査しています。
分析の結果、人々がAIに最も支援を求めているのは「情報収集」と「ライティング」であり、AI自体が行っているのは「情報提供とアシスタンス」「ライティング」「教育」「アドバイス」であることが判明しました。これらの活動分類に、タスクの成功度と影響範囲の測定値を組み合わせることで、各職種に対して「AI適用可能性スコア(AI applicability score)」を算出しています。最もスコアが高かったのは、「コンピューター・数学関連職」や「事務・管理サポート職」といった知識労働職種、そして「販売職」のように情報の提供や伝達を伴う職種でした。また、賃金や教育レベルとAI適用可能性の相関関係、そして実際の利用状況がAIの影響予測とどのように比較されるかも明らかにしています。
1 Introduction
(はじめに)
本章では、生成AIが経済に与える広範な影響について紹介しています。蒸気機関やコンピューターのような「汎用技術(General purpose technologies)」は、これまで経済成長の強力な推進力となってきました。汎用技術とは、幅広い産業や用途に適用され、継続的なイノベーションと経済的変革を促進する技術のことです。生成AIもまた、医療診断からソフトウェア開発に至るまで、多様なタスクを改善・高速化する能力を持つ「次なる汎用技術」として注目されています。実際に、米国人の約40%が生成AIを家庭や職場で利用しており、これはパーソナルコンピューターやインターネットの初期普及率を上回る驚異的な速度です。このような広範な普及と経済への潜在的影響を考慮すると、AIがどのような作業活動、ひいてはどのような職種に最も影響を与えるのかを理解することが極めて重要だと述べられています。
本研究では、主流のLLM(大規模言語モデル)であるMicrosoft Bing Copilot(現在はMicrosoft Copilot)の実際の利用状況から、その問いへの答えを探ります。2024年の9ヶ月間にわたるCopilotの利用データから、匿名化されプライバシー保護措置が施された20万件のユーザーとAIの会話を分析対象としています。
分析の重要な点は、「ユーザーゴール(user goal)」と「AIアクション(AI action)」という二つの異なる視点から会話の影響を測定していることです。ユーザーゴールとは、ユーザーが達成しようとしているタスクであり、AIアクションとは、AI自体が会話の中で実行しているタスクを指します。例えば、ユーザーが文書の印刷方法を知りたい場合、ユーザーゴールは「事務機器の操作」ですが、AIアクションは「機器の利用方法を教える」となります。このように、両者を区別することで、生成AIがどのような作業活動を支援しているのか、そしてどのような作業活動をAI自身が行っているのかを測定することが可能になります。
さらに、AIの利用が職種に与える潜在的な影響を測るため、ONETデータベース(※ONETは、米国労働省が開発・管理する包括的な職業情報データベースで、各職種で実行されるタスクや作業活動、必要なスキル、知識などを詳細に分類しています。職務要件やタスク分析に利用されるデータセットです)で定義されている作業活動に会話を分類します。そして、ユーザーからの明示的な「Good/Bad」フィードバックやタスク完了分類器を用いて、AIが異なる作業活動をどの程度成功裏に支援または実行しているかを測定します。また、AIが作業活動全体に対してどの程度の貢献度を示すか(影響範囲、scope of impact)も分類し、これらの情報から各職種の「AI適用可能性スコア(AI applicability score)」を算出します。このスコアは、AIが職種の重要な部分を構成する作業活動で、十分に利用され、成功し、広範な影響を与えているかを捉えるものです。
AIが仕事を「自動化」するのか「拡張」するのかという、AIをめぐる議論の中心的な問いについても言及しています。自動化は賃金低下や雇用の喪失につながり、拡張は賃金上昇につながると示唆されることが多いですが、本論文では、新しい技術の能力と、その技術の結果として行われるビジネス上の選択とを混同しないよう注意を促しています。例えば、AIによってソフトウェア開発者の生産性が50%向上した場合、企業はより多くの開発者を雇用してより大きな成果を目指すこともできれば、同じ成果をより少ない開発者で達成するために雇用を減らすこともできるため、データはAIの利用状況のみを測定し、その下流の影響については判断しないと明言しています。
本論文の主要な発見として、情報収集、ライティング、他者とのコミュニケーションがCopilotの会話で最も一般的なユーザーゴールであることが挙げられています。これらの活動は、最も肯定的なフィードバックを受け、最も成功裏に完了しています。AIアクションの側面では、AIはコーチ、アドバイザー、教師として人間のサービス役を果たすことが多く、情報収集やユーザーへの説明を行います。さらに、AIが実行する活動とAIが支援するユーザーゴールは大きく異なり、会話の40%ではこれらの活動セットが重複しないことが分かりました。職種レベルの影響を測定した結果、AI適用可能性スコアが高い職種は、知識労働やコミュニケーションに重点を置く職種である一方、すべての職種グループでAIの影響の可能性が少なくともあることが示されました。具体的には、「販売関連職」、「コンピューター・数学関連職」、「事務・管理サポート職」、「コミュニティ・社会サービス職」などが高スコアを示しています。これらの測定結果は、Eloundou et al. によるAI労働影響予測と高い相関(r=0.73、SOC主要グループではr=0.91)を示しており、AI適用可能性スコアと教育要件との間には弱い相関が見られ、学士号を必要とする職種がやや影響を受けやすいとしています。また、高賃金職種でも平均AI適用可能性はわずかに高い程度に留まっています。
2 Related work
(関連研究)
本章では、本論文の立ち位置を既存研究との比較を通じて明確にしています。これまでにも、プログラミング、カスタマーサポート、医療診断、ライティング など、特定の職業タスクにおけるAIの生産性向上を検証する研究は数多く存在します。しかし、本研究の焦点は、AIが生産性に与える影響を測定することではなく、人々がLLM(大規模言語モデル)を「どのような作業活動に利用しているか」を理解することにあります。
本研究は、Autor et al. に端を発する、職種をその構成タスクに分解し、それらのタスクが自動化にどの程度脆弱であるかを推定することで、職務レベルの影響を評価するという一般的な経済学的フレームワークに基づいています。この手法は、経済学文献 やビジネス界 で標準的な実践となっています。本論文は、人間とLLM間の実際の会話を分析し、人間がLLMをどのような作業活動に利用しているかを明らかにすることで、この文献に貢献しています。また、Eloundou et al. の予測と比較も行っています。
本研究と最も類似しているのは、Handa et al. によるClaudeの会話分析です。彼らもO*NETの分類法を用いて会話を分類していますが、本研究にはいくつかの異なる特徴があります。
- ユーザー活動とAI活動の分離:本研究では、ユーザーが支援を求めている活動(ユーザーゴール)と、AIが実行している活動(AIアクション)を別々に分類しています。これにより、AIによる支援と直接的なAIの実行を区別できます。
- 成功度と影響範囲の組み込み:本研究では、AI適用可能性スコアにタスクの成功度と影響範囲を組み込むことで、AIの影響の可能性についてより詳細な推定値を提供しています。
- O*NET分類法の利用レベル:本研究は、特定の職種に特化したタスクではなく、職種横断的に適用される「作業活動(IWAs)」に焦点を当てています。これにより、AIの利用が特定の作業活動を行うすべての職種にどのように影響するかを特定でき、データのノイズを減らすことができます。IWAsは数が少ないため(332種類)、網羅的な二値分類が可能で、各会話に関連するすべての作業活動を特定できます。
- 複数AIプラットフォームの分析の重要性:本研究では、異なるAIプラットフォーム(CopilotとClaude)間での利用分布の違いも示唆しており、様々なAIプラットフォームでこのような分析を行うことの価値を強調しています。例えば、Copilotの利用はClaudeに比べてコンピューターや数学的タスクへの集中度が低いことが示されています。
3 Data and methods
(データと手法)
本章では、本研究で利用されたデータセットと、分析のために採用された手法について説明されています。
3.1 Bing Copilot data
(Bing Copilotデータ)
本研究では、2024年1月1日から9月30日までの9ヶ月間に収集された、Microsoft Bing Copilot(以下Copilot)の米国における匿名化された会話データを使用しています。米国のデータに焦点を当てるのは、O*NETデータベースの職種および作業活動情報に合わせるためです。
- Copilot-Uniform:約10万件の会話で構成され、この期間の米国での会話から均一にサンプリングされています。これは、主流の一般公開された無料の生成AIチャットボットでユーザーがどのようなタスクを実行しているかを示す代表的なデータです。本研究の分析の大部分はこのデータセットに基づいています。
- Copilot-Thumbs:ユーザーの満足度の貴重なシグナルである「Good/Bad」フィードバックを含む10万件の会話からなる補助的なデータセットです。これにより、どの活動がより成功しているかを調査できますが、フィードバックの提供にユーザー層やタスクの種類による偏りがある可能性も指摘されています。この偏りを補うため、LLM分類器によるタスク完了評価も行っています。
3.1.1 User goals and AI actions
(ユーザーゴールとAIアクション)
分析の重要な洞察として、AIアシスタントとの一つの会話が労働力に影響を与える二つの異なる方法が挙げられます。
- ユーザーゴール(user goal):ユーザーがAIに支援を求めているタスクです。これが特定の作業活動によって記述される場合、人々がその作業活動に対してAI支援を求めている証拠となります。
- AIアクション(AI action):AI自体が会話の中で実行する作業活動です。これは、AIが第三者によって行われるはずだった作業を代替する可能性を示します。
たとえ会話が成功した場合でも、AIアクションとユーザーゴールは必ずしも同じではありません。例えば、リサーチベースのタスクでは、ユーザーの目標は情報収集(ジャーナリスト、科学者などが実行する作業活動)ですが、AIの行動は情報提供(受付係、図書館員、カスタマーサービス担当者などが実行する作業活動)となります。また、コンピューター問題の解決(ユーザーゴール)と技術サポートの提供(AIアクション)も一般的な非対称の例です。一方で、コンテンツ生成のように、ユーザーゴールとAIアクションが同じ場合もあります。
3.2 O*NET and BLS data
(O*NETとBLSデータ)
米国の労働構造を理解するため、ONET 29.0データベース を利用しています。ONETは、職種をタスク、詳細作業活動(DWAs)、中間作業活動(IWAs)、一般化された作業活動(GWAs)に階層的に分解しています(表1参照)。本研究では、複数の職種に適用される「IWAs」に焦点を当てています。例えば、例に挙げられたIWA「Analyze market or industry conditions(市場または業界状況の分析)」は、マーケティングマネージャー、信用アナリスト、政治学者など、計29の職種によっても実行されます。O*NETデータは、米国労働統計局(BLS)が発行する賃金・雇用統計データ と組み合わせて使用されています。

3.3 Work activity classification
(作業活動の分類)
データセット内の各会話について、GPT-4oベースのLLM分類パイプラインを用いて、ユーザーゴールおよびAIアクションに合致するすべての中間作業活動(IWAs)を特定しています。分類器は、人間によるアノテーションと比較して検証されています。
IWAs(332種類)を選択した理由はいくつかあります。
- 分類精度と信頼性:IWAsはタスク(18,796種類)よりも汎用的で重複が少ないため、より正確で信頼性の高い分類が可能。例えば、プログラミング関連のすべての作業活動は一つのIWA(Program computer systems or production equipment)で記述されますが、O*NETには多くの異なるプログラミングタスクが存在します。ユーザーの職種が不明な場合でも、個別のプログラミングタスクを区別することは困難です。
- AIの影響可能性の理解:研究目的がAIの職種への潜在的影響を理解することであるため、AIの能力が特定のコンテキストで実証された場合に、その作業活動を実行するすべての職種にどのように適用されるかを特定することが重要。IWAレベルでの分類はこれを可能にします。
各会話には複数のIWAsが割り当てられる可能性があるため、本研究では、各IWAが構成する「活動シェア」に焦点を当て、各会話の各IWAに均等な割合を割り当てています。
3.4 Occupational coverage and AI applicability score
(職種のカバレッジとAI適用可能性スコア)
職種への潜在的な影響を測定するため、本研究では各職種に対する「AI適用可能性スコア(AI applicability score)」を定義しています。スコアが高いほど、その職種がAIの影響を受ける可能性が高いことを示します。このスコアは、AIが職種の作業活動(IWA)に十分な活動シェアで利用され、その利用が成功し(完了率)、かつ作業活動の適度な部分をカバーしている(影響範囲)かを捉えるものです。
具体的な算出には、以下の要素が考慮されます。
- カバレッジ(Coverage):Copilotで非自明な量(活動シェア0.05%以上)で利用されているIWAを「カバーされている」と見なします。O*NETのタスクの関連度と重要度の指標を用いて、各職種とIWAのペアに重み(wij)を付け、職種内の重みの合計を1としています。職種のカバレッジは、カバーされているIWAsの重み付けされた割合で定義されます。
- 完了率(Task Completion):Copilotとの作業活動がどの程度成功裏に完了したかを測定するため、LLM(GPT-4o-mini)を用いて、会話中のユーザーのタスクがAIによって完了したかどうかを分類します。この完了率は、ユーザーのフィードバック(Good/Bad評価)と高い相関を示しています(r > 0.75)。
- 影響範囲(Impact Scope):会話においてCopilotがIWAの作業のどの程度を支援または実行する能力を示しているかを、6段階の「リッカート尺度」(なし、最小限、限定的、中程度、重要、完全)でLLMが分類します。これは、AIがIWAの作業の大部分を支援するケース(例:Copilotがレポートを編集する場合の「文書の編集」)と、ごく一部を支援するケース(例:ユーザーがミトコンドリアについて尋ねる場合の「生物学的現象の研究」)を区別するために用いられます。
これらの測定値を統合し、職種iに対するユーザーゴールからのAI適用可能性スコア auseri を以下の式で算出します。
$$
a_i^{\text{user}} = \sum_{j \in \text{IWAs}(i)} w_{ij} \mathbf{1}[f_j^{\text{user}} \ge 0.0005] c_j^{\text{user}} s_j^{\text{user}},
$$
ここで、\( IWAs(i)\) は職種\( i\) が実行するIWAのセット、\( wij \)は職種\( i \)における\( IWA j \)の重要度・関連度で重み付けされた作業の割合、\( fuserj \)は\( IWA j \)のユーザーゴール活動シェア、\( cuserj \)は\( IWA j \)がユーザーゴールとなる会話のタスク完了率、\( suserj \)はユーザーゴール\( j \)の会話のうち影響範囲が「中程度」以上と分類された割合です。AIアクションについても同様に \( aAIi\) を定義し、最終的なスコア \( ai \)はこれら二つの平均 \( (auseri + aAIi) / 2\) として算出されます。
本論文では、他の研究が用いる「AIが職務のX%に影響を与える」といった絶対的な測定値ではなく、相対的なAI適用可能性スコアを用いることの妥当性を強調しています。なぜなら、特定の「利用閾値」を設定すると、その選択によって「AIが影響を与える労働者の割合」が大きく変動してしまうためです(図1参照)。例えば、チャット活動の1%を要求すれば0%近くになり、0.01%を要求すれば100%近くになる可能性があります。そのため、本研究では、閾値に左右されない「異なる種類の職種間での相対的な比較」がより意味のある指標であると考えています。

4 Results
(結果)
本章では、Copilotの会話データから得られた具体的な分析結果が示されています。
4.1 Generalized Work Activities
(一般化された作業活動)
O*NETの作業活動階層の最上位レベルであるGWA(Generalized Work Activities)を用いて、データのマクロな理解を試みています。
労働力全体における割合がCopilotデータでの割合を大幅に上回るGWAは、LLMチャットボットには不向きな種類の作業活動と一致しています。これらは大きく三つのカテゴリに分類されます。
- 身体活動:「Handling and Moving Objects(物を扱う・動かす)」、「Performing General Physical Activities(一般的な身体活動を行う)」など。
- 監視活動:「Monitoring Processes(プロセスの監視)」、「Monitoring Resources(資源の監視)」、「Inspecting Equipment(機器の検査)」など。
- 人や機械の指導:「Controlling Machines(機械の制御)」、「Guiding Subordinates(部下の指導)」など。
一方、Copilotデータで労働力全体よりも多く見られるGWAは、「Getting Information(情報収集)」、「Interpreting Information(情報の解釈)」、「Thinking Creatively(創造的思考)」、「Updating and Using Knowledge(知識の更新と利用)」、「Working with Computers(コンピューター作業)」などであり、これらは「知識労働(Knowledge Work)」と一致しています。このことは、生成AIのユーザーが知識労働活動に焦点を当てていることを示しています。
AIアクション(AIが実行する活動)として、ユーザーゴール(ユーザーが求める支援)よりも多く見られるGWAは、主に二つのクラスターに分類されます。
- ユーザーへのサービス提供:「Assisting/Caring for Others(他者への支援・介護)」、「Providing Advice(アドバイス提供)」、「Coaching(コーチング)」、「Training(トレーニング)」など。
- コミュニケーション:「Communicating with People(人とのコミュニケーション)」、「Communicating with Supervisors(上司とのコミュニケーション)」など。
逆に、ユーザーゴールとしてAIアクションよりも多く見られるGWAは、情報収集、創造的思考、知識の更新と利用、意思決定、データ分析といった「知識労働」に関連する活動がほとんどです。この結果は、人々が知識労働活動の実行のためにAIをサービスとして利用している傾向を示しています。
4.2 Intermediate Work Activities
(中間作業活動)
次に、より詳細なIWA(中間作業活動)レベルでのデータ分析結果です。
Copilotのユーザーゴールとして最も一般的なIWAsは、以下の三つの広範なカテゴリに分類されます。
- 情報収集:「Gather information(情報収集)」、「Obtain information(情報入手)」、「Maintain knowledge(知識維持)」、「Read documents(文書読解)」など。
- ライティング、編集、コンテンツ開発:「Develop content(コンテンツ開発)」、「Write material(資料作成)」、「Create visual designs(視覚デザイン作成)」など。
- 他者へのコミュニケーション:「Provide information(情報提供)」、「Provide assistance(支援提供)」、「Explain technology(技術説明)」、「Explain regulations(規制説明)」など。
AIアクションとして反映されているIWAsは、補完的なストーリーを語っています。AIは「Respond(応答する)」、「Provide(提供する)」、「Present(提示する)」、「Assist(支援する)」といったサービス役割を果たすことが多いです。具体的には、以下の三つの広範なカテゴリが最も頻繁なIWAsです。
- 情報収集と報告:「Gather information(情報収集)」、「Prepare informational materials(情報資料作成)」、「Develop content(コンテンツ開発)」など。
- 情報の説明:「Present research(研究発表)」、「Explain technical details(技術詳細説明)」、「Explain regulations(規制説明)」など。
- ユーザーとのコミュニケーション:「Respond to customer problems(顧客問題対応)」、「Provide assistance(支援提供)」、「Provide information(情報提供)」、「Advise others(他者へのアドバイス)」など。
ユーザーゴールとAIアクションのIWAsを組み合わせると、人間はAIを情報の収集、処理、普及に利用している一方で、AIは情報の収集、説明、ユーザーへの伝達によって支援していることが再び示されます。
IWAレベルでは、ユーザー側とAI側の活動に重複が見られる一方で、興味深い違いも存在します。会話レベルで見ると、その非対称性は驚くほど顕著であり、会話の40%ではユーザーゴールとAIアクションのIWAセットが重複していません。AIはアドバイスや教育を行う傾向が強いのに対し、ユーザー側は情報収集、読解、研究をより多く行っています。表2は、ユーザーゴールとAIアクションの活動シェアの比率が最も極端なIWAsを示しており、AIが支援する活動は物理的要素を伴うもの(運動活動、機器操作)や他者との相互作用を伴うもの(物品購入、金銭取引)が多く、AIが実行する活動はトレーニング、コーチング、教育、アドバイスに関連する活動が多いことが分かります。

4.2.1 Satisfaction, task completion, and scope
(満足度、タスク完了、影響範囲)
単なるAIの利用状況を超えて、職種への潜在的な影響を把握するためには、LLMがこれらの作業活動に実際に役立っているかを理解する必要があります。本研究では、ユーザーフィードバック、およびLLMによる会話分析の二つの側面から、三つの異なる指標を用いてこれを測定しています。
- 満足度と完了(Satisfaction and completion):
- Copilotの様々な作業活動がどの程度成功裏に支援・実行されているかを測定するため、ユーザーの「Good/Bad」フィードバック(満足度のシグナル)と、LLMによるタスク完了分類器を使用しています。
- 一般的なIWAsのほとんど(50%以上)が肯定的なフィードバックを受けており、全体的に人々はCopilotを役立つと感じていることが示されています。
- 特に肯定的なフィードバックが多いのは、文章のライティングや編集(Edit documents, Write material)、情報のリサーチ(Research healthcare issues, Research laws, Maintain knowledge)、物品の評価や購入(Purchase goods, Evaluate characteristics of products, Select materials)に関連する作業活動です。
- 対照的に、データ分析(Process data, Calculate financial data, Analyze scientific data)や視覚デザイン(Create visual/artistic designs, Arrange displays)に関連する作業活動は、フィードバックが最も悪いです。これは、Copilotが知識労働の中でも、分析や視覚的な構成要素よりも、ライティングやリサーチの部分で優れている可能性を示唆しています。
- ユーザーゴールの場合と比較して、AIアクションの場合に肯定的なフィードバックの割合が著しく低いIWAもいくつか存在します。例えば、「Provide support or encouragement to others(他者へのサポートや励ましを提供する)」や「Advise others on products or services(製品やサービスについて他者にアドバイスする)」といった活動です。これは、AIが直接サポートやアドバイスを試みるよりも、AIが人間が他者へサポートやアドバイスを提供するのを助ける場合に、人々はより満足していることを示唆しています。
- IWAの肯定的なフィードバック率とその完了率の間には強い相関があります(ユーザーゴールIWAでr=0.83、AIアクションIWAでr=0.76)。これは、両者がAIの成功に関する実際のシグナルを捉えていることを示します。
- 影響範囲(Scope of impact):
- 会話で示されたAIの能力が、IWAで表される作業のどの程度に変換されるか、という「仕事への影響のもう一つの重要な側面」を測定しています。
- 最も影響範囲が深いIWAsは、情報収集とライティングであり、AI側では情報提供、アドバイス、説明などが含まれます。
- 影響範囲が低いIWAsは、データ分析や視覚デザインに加えて、外部の人との相互作用(クライアントとの協議、個人調査など)に関するものです。
- 興味深いことに、AIアクション側の影響範囲は、ユーザーゴール側よりも一貫して低いです。これは、AIがユーザーの作業のより広範な部分を支援できる一方で、AI自身が直接実行できる作業の範囲は狭いことを示唆しています。
- 影響範囲は完了率との相関は低いですが(r=0.45、r=0.22)、人々がAIの支援を最も求めている活動(ユーザーゴール活動シェア)との相関は高く(r=0.64)、人々がLLMを最も広範な影響を与えられるタスクに利用していることを示唆しています。
4.3 Occupations
(職種)
本章では、前述の「AI適用可能性スコア」に基づいて、職種レベルでの具体的な結果を示しています。
表3は、AI適用可能性スコアが最も高い40の職種を示しています。

- リストの最上位には「Interpreters and Translators(通訳者・翻訳者)」が位置しており、その作業活動の98%がCopilotの頻繁なタスクと重なり、かなり高い完了率と影響範囲スコアを示しています。
- その他の高スコア職種には、ライティング・編集、販売、カスタマーサービス、プログラミング、事務作業に関連する職種が含まれます。例えば、「Historians(歴史家)」、「Writers and Authors(作家)」、「CNC Tool Programmers(CNCツールプログラマー)」、「Brokerage Clerks(証券事務員)」、「Political Scientists(政治学者)」、「Reporters and Journalists(レポーター・ジャーナリスト)」、「Mathematicians(数学者)」、「Proofreaders(校正者)」、「Editors(編集者)」、「PR Specialists(広報スペシャリスト)」など、多くの知識労働職種が挙げられます。
対照的に、表4はAI適用可能性スコアが最も低い40の職種を示しています。

- 最も影響を受けにくい職種には、人との身体的な作業を必要とする職種(「Nursing Assistants(看護助手)」、「Massage Therapists(マッサージ師)」など)、機械の操作や監視を伴う職種(「Water Treatment Plant and Systems Operators(浄水場・システムオペレーター)」、「Pile Driver Operators(杭打ち機オペレーター)」、「Truck and Tractor Operators(トラック・トラクターオペレーター)」など)、その他の肉体労働(「Dishwashers(皿洗い)」、「Roofers(屋根職人)」、「Maids and Housekeeping Cleaners(メイド・ハウスキーピング清掃員)」など)が含まれています。
- ただし、本論文の測定はLLMに限定されており、例えばトラック運転のような機械操作を伴う職種であっても、他のAIアプリケーション(例えば自動運転技術など)によって影響を受ける可能性は当然あると述べられています。
AIの職種への適用可能性をより広い視点から見るため、職種をSOC(Standard Occupational Classification)主要グループ(全22種類)に集計しています。この集計により、現在のAIの適用可能性が知識労働およびコミュニケーション指向の職種に集中している傾向が浮き彫りになります。

- 表5は、「Sales and Related(販売関連)」、「Computer and Mathematical(コンピューター・数学)」、「Office and Administrative Support(事務・管理サポート)」の職種が最も高いAI適用可能性スコアを持つことを示しています。販売関連および事務・管理サポートは、雇用者数においても特に大規模なグループです。
- 同様に、「Community and Social Service(コミュニティ・社会サービス)」や「Educational Instruction and Library(教育指導・図書館)」など、コミュニケーション要素の強いグループも高いAI適用可能性スコアを持っています。
- 逆に、「Healthcare Support(医療サポート)」は最もスコアが低く、農業や建設など、肉体労働や機械操作を伴う職種グループも低いスコアを示しています。
ユーザーゴールとAIアクションのAI適用可能性スコアのみを比較することで、職種間の違いも分析しています。
- AIによる支援の可能性が高いが、AI自身による実行の可能性が低い職種(高 auseri、低 aAIi):料理人(Cooks)や動物の繁殖家(Animal Breeders)など、身体的要素を伴う職種が含まれます。これらのタスクは、Copilotによって一般的に支援されるものの、AI自身が実行することはありません。
- AI自身による実行の可能性が高いが、AIによる支援の可能性が低い職種(低 auseri、高 aAIi):トレーニング開発マネージャー(Training and Development Managers)、コーチ(Coaches and Scouts)、HRスペシャリスト(HR Specialists)など、教育、トレーニング、管理、コミュニケーションに焦点を当てる職種が含まれます。
4.3.1 Comparing to predictions
(予測との比較)
本章では、現実世界におけるAI利用データからの測定結果が、職種へのAI影響予測とどのように比較されるかを検証しています。
Eloundou et al. は、LLMテクノロジーによってタスク完了時間が50%以上短縮されるかを人間とGPT-4に予測させ、「E1」という指標を算出しました。図6は、このE1指標と本論文のAI適用可能性スコアをプロットしたものです。

- 職種レベルでの両指標の相関は、雇用で重み付けした場合、r=0.73 と高い相関を示しました。
- 職種をSOC主要グループに集計すると、相関は驚くべきことに r=0.91 にまで上昇します。
- 図6では、両指標が乖離する職種も示されています。例えば、「Market Research Analysts(市場調査アナリスト)」や「CNC Tool Programmers(CNCツールプログラマー)」のように、本論文の推定値がEloundou et al.の予測より高い職種は、AI技術の潜在的な利用法が見落とされていた可能性が示唆されます。
- 一方、「Passenger Attendants(客室乗務員)」や「School Bus Monitors(スクールバス監視員)」のように、本論文の推定値が過大評価している可能性のある職種も存在します。これは、AIが「情報提供」する能力が、LLMがそれほど関連しない職種にまで過剰に適用された結果かもしれません。
- また、本論文のスコアが低い「Survey Researchers(調査研究者)」や「Animal Scientists(動物科学者)」といった職種は、雇用が少なく専門性が高いため、AIとの重複があってもデータにおける活動頻度が低く、0.05%のカバレッジ閾値を満たさないために低く評価されている可能性が指摘されています。
4.3.2 Socioeconomic correlates (社会経済的相関)
AI適用可能性スコアと、賃金や教育といった社会経済的指標との相関についても分析されています。

- 賃金との相関:図7aは、AI適用可能性スコアと職種の平均賃金の散布図を示しています。雇用で重み付けした場合、AI適用可能性スコアと賃金の間には0.07という非常に弱い正の相関しか見られませんでした。これは、雇用者数の多い販売職や事務・管理サポート職が、賃金は比較的低いにもかかわらず、AI適用可能性スコアが高いことが主な理由として挙げられています。賃金が高い上位10%の職種を除外しても、相関は0.13にわずかに上昇するのみです。雇用による重み付けをしない場合、相関はやや上昇しますが、これは一部の高雇用職種が全体的な傾向を歪めているためだと分析されています。
- 教育要件との相関:O*NETは、各職種に必要とされる教育レベルも提供しています。図7bは、AI適用可能性スコアの分布を、最も一般的な教育要件別に示しています。学士号(Bachelor’s degree)を必要とする職種は、それ以下の教育要件の職種と比較して、より高いAI適用可能性スコアを持つ傾向にありました。雇用で重み付けした平均スコアは、学士号で0.27であるのに対し、それ以下のグループでは0.19であり、統計的に有意な差が見られます。しかし、適用可能性スコアには依然として大きな重複があることも指摘されています。雇用による重み付けをしない場合、賃金と同様に、より明確な傾向が見られます。
5 Discussion (考察)
本論文では、Microsoft Bing Copilotの会話を分析することで、ユーザーがどのような作業活動においてAIの支援を求めているのか、そしてAI自体がどのような活動を実行しているのかを明らかにしました。現在のAIとのインタラクションデータから得られた作業活動は、AI能力が一部のユーザーによって活用されていることを示しており、これが他の用途や、その活動を実行する職種全体に拡大する可能性を秘めていると結論付けています。
この実証された能力の証拠と、タスクの成功度、影響範囲の測定値を組み合わせて、職種に対するAI適用可能性スコアが算出され、AIの仕事への関連性のフロンティアを追跡する手段として活用されています。現在の生成AIの能力は、「知識労働」や「コミュニケーション」を重視する職種に最も強く合致していることが確認されました。一方で、手作業、機械操作、その他の身体活動を伴う職種では、AIの適用可能性は低いか、ほとんど存在しないとされています。
社会経済的側面との相関については、AI適用可能性スコアと職種の賃金との間には非常に小さい正の相関が見られました。また、教育要件に関しては、学士号を必要とする職種の方が、それ以下の要件の職種よりもAI適用可能性が高い傾向があることも示されました。しかし、全体として、賃金や教育の分布全体にわたって、潜在的な影響の範囲は広いことがデータから示唆されています。既存のAI労働影響予測 と比較すると、特に最も広範な集計レベルでは、これらの予測が実際の利用データによって概ね裏付けられていることが判明しました。しかし、その影響の「大きさ」については、今後の動向を注視する必要があるとされています。
本論文のデータは、AIが特定の職種のすべての作業活動を完全に実行していることを示すものではないと強調しています。AIの能力と様々な職種との重複は非常に不均一であり、多くの作業活動でAI能力との重複が見られる職種も確かに存在しますが、タスクの完了率が100%ではなく、影響範囲も通常「中程度」に留まっているのが現状です。したがって、AI能力と作業活動の間に重複がある場合でも、その作業活動が常に完全にAIによって行われるわけではないという点に注意が必要です。
また、本研究にはいくつかの限界も存在します。
- データソースの限定:本研究は、一つの広く利用されているLLM(Bing Copilot)のデータのみを分析しており、異なる人々が異なるLLMを異なる目的で使用する可能性があるため、AI市場全体の動向を完全に捉えているわけではありません。実際、Claudeの会話分析と比較すると、Copilotの利用はプログラミングや数学的タスクへの集中度が低いことが示唆されています。
- O*NETデータベースの限界:職種を作業活動に分解する手法は一般的ですが、O*NETデータベースの精度や最新性、職種外の活動(家庭での作業やボランティア活動など)を捉えきれない限界があります。
- 利用文脈の判別困難性:会話が「仕事」の文脈で行われたのか「レジャー」の文脈で行われたのかを判別することは非常に困難です。
- 影響の規模の測定困難性:会話データのみに基づいて、AIが異なる作業活動に与える影響の「大きさ」を判断することも困難です。
本研究の重要な側面の一つは、AIが実行するアクションと、AIが支援するユーザーの目的とを作業活動に分類したことです。AIが実行するアクションという点では、コーチ、トレーナー、アドバイザーとして人間をサポートする役割を果たすことが多いことが示されています。Copilotが最も多く支援するユーザーゴールは、情報収集、ライティング、コミュニケーションです。情報収集の相対的な普及は、本データが収集された時点でのCopilotとBing検索エンジンの連携によるものかもしれません。情報収集とライティングは、ユーザーフィードバック、タスク完了率、影響範囲の測定においても最も成功している作業活動であり、Copilotがこれらの活動に大きく貢献していることを示唆しています。
AI技術がもたらす下流のビジネス影響は予測が非常に難しく、直感に反する場合があることにも注意を促しています。例えば、ATMは銀行窓口係の主要なタスクを自動化しましたが、銀行がコストを削減してより多くの支店を開設したことで、窓口係の数は増加しました。窓口係の仕事は、預金や引き出しの処理よりも、より価値の高い顧客との関係構築に焦点を移していったのです。
この研究は、社会にとって非常に重要な将来の研究課題も提起しています。
- AIの急速な進歩に対応して、異なる職種が職務責任をどのように再構築していくのか。
- AIの台頭によって、まったく新しい職種がどのように出現するのか。
- AI能力のフロンティアがどのように変化し続けるのか、そしてその変化するフロンティアと職種がどのように関連するのか。
- AI利用の経時的変化を測定し、新しい能力がどのように活用されているかを明らかにすること。
現代の職場活動に対する理解を深めることは、生成AIが仕事のやり方を変化させ続ける中で、極めて重要になると述べています。
まとめ
本論文「Working with AI: Measuring the Occupational Implications of Generative AI」は、Microsoft Bing Copilotの実際の利用データに基づき、生成AIが私たちの仕事にどのように影響を与えているかを包括的に分析した研究です。
主な発見として、AIは「情報収集」や「ライティング」といった知識労働活動において特に活用され、AI自身は「情報提供」や「アドバイス」といった支援的な役割を果たすことが多いことが明らかになりました。AIの適用可能性が高い職種は、通訳者、作家、プログラマー、カスタマーサービス担当者といった知識労働やコミュニケーションを重視する職種であり、肉体労働や機械操作を伴う職種は現状では影響が少ないとされています。
重要なのは、AIの能力が特定のタスクを効率化するだけでなく、職務内容や職種そのものを変革する可能性を秘めているという点です。賃金や教育レベルとAIの影響の間に強い相関が見られないという結果は、AIによる労働市場への影響が、私たちが想像するよりも複雑で多面的なものであることを示唆しています。
この研究はあくまで現時点での「スナップショット」であり、AI技術の進化と社会的な適応はこれからも続いていきます。AIがどのように私たちの働き方を再定義し、新しい職種を生み出すのか、今後の動向に注目し、私たち自身もこの変化に適応していくことが求められるでしょう。