［ニュース解説］デロイト、44万ドルの政府報告書でAI使用による問題を認め返金へ

2025-10-09

はじめに

　デロイトが2025年10月、連邦政府向けに作成した44万ドル（約6,700万円)の報告書において生成AIを使用した結果、報告書には存在しない学術論文の引用や捏造された判決文の引用など、複数の重大なエラーが含まれていたことを認め、部分的な返金を行うことになりました。本稿では、この問題の経緯と影響について解説します。

参考記事

AFRの報道：

タイトル: Deloitte to refund government, admits using AI in $440k report
著者: Edmund Tadros and Paul Karp
発行元: Australian Financial Review
発行日: 2025年10月5日
URL:https://www.afr.com/companies/professional-services/deloitte-to-refund-government-after-admitting-ai-errors-in-440k-report-20251005-p5n05p

Guardianの報道：

タイトル: Deloitte to pay money back to Albanese government after using AI in $440,000 report
著者: Krishani Dhanji
発行元: The Guardian
発行日: 2025年10月6日
URL: https://www.theguardian.com/australia-news/2025/oct/06/deloitte-to-pay-money-back-to-albanese-government-after-using-ai-in-440000-report

要点

デロイトオーストラリアが連邦雇用・職場関係省向けの44万ドルの報告書で生成AI（Azure OpenAI GPT-4o）を使用したなかで、重大な誤りを含んでいたことを認め、契約の最終支払い分を返金することになった。
報告書には存在しない学術論文への参照が12件以上、捏造された裁判の引用、複数のタイポグラフィックエラーが含まれていた。
シドニー大学のクリストファー・ラッジ博士が2025年8月にエラーを指摘し、AIによる「ハルシネーション」が原因である可能性を示唆した。
デロイトは2025年10月に修正版を公開したが、存在しなかった参照を削除するのみで、多くの箇所で新たな参照に置き換えることはなく、根拠が不透明になった。
この問題は、デロイト自身がAI活用においては常に人間によるレビューが必要と強調してきたことと矛盾しており、同社の信頼性に影響を与える可能性がある。

詳細解説

問題の発覚と経緯

　AFRの報道によれば、デロイトオーストラリアが2025年7月に公開した雇用・職場関係省（DEWR）向けの報告書に、複数の重大なエラーが含まれていることが明らかになりました。この報告書は、福祉システムにおいて失業手当受給者への罰則を自動化するITシステムに関するレビューを44万ドル（約6,700万円）で実施したものでした。

　問題を最初に指摘したのは、シドニー大学健康法学部のクリストファー・ラッジ博士です。Guardianの報道では、ラッジ博士が2025年8月に報告書内の複数のエラーを発見し、生成AIによる「ハルシネーション」（AIが存在しない情報を作り出す現象）が原因である可能性を指摘したと報じています。

　デロイトは当初コメントを控えていましたが、内部調査を実施、AFRによれば、2025年10月の長期連休前の金曜日に、修正版の報告書を静かに省のウェブサイトにアップロードしました。

具体的なエラーの内容

　AFRの報道によれば、初版の報告書には以下のような問題がありました。

　存在しない報告書への参照が14件行われていました。さらに、ロボデット訴訟（Deanna Amato v Commonwealth）における判決からの引用が捏造されていました。報告書には「デイビス判事」（正しくはジェニファー・デイヴィス判事）による、判決文の第25段落と第26段落からの引用として、次のような文章が記載されていました：「立証責任は、債務が存在することを証拠に基づいて確信する決定者にある。証拠に裏付けられていない仮定に基づいて、個人の法定権利を合法的に減じることはできない」。しかし、AFRによれば、この段落は実際の判決文には存在しませんでした。

デロイトの対応と修正内容

　修正版の報告書について、AFRは詳細な変更内容を報じています。デロイトは報告書の方法論セクションに、「トレーサビリティと文書化のギャップ」に対して生成AIを使用したことを追加しました。具体的には、「DEWRがライセンスし、DEWRのAzure テナンシー上でホストされている生成AI大規模言語モデル（Azure OpenAI GPT-4o）ベースのツールチェーンを使用した」と記載されています。

　しかし、Guardianの報道によれば、ラッジ博士は修正版について懸念を表明しています。博士によれば、「1つのハルシネーションによる偽の参照を新しい『本物の』参照に置き換える代わりに、偽の参照を削除し、新版では5つ、6つ、7つ、または8つの参照がその代わりに配置されている」とのことです。これは、元の主張が特定の証拠源に基づいていなかったことを示唆していると博士は指摘しています。

返金と今後の対応

　DEWRの広報担当者は、AFRの取材に対し、「独立レビューの本質は保持されており、推奨事項に変更はない」と述べています。ただし、デロイトが「契約の最終支払い分を返金することに合意した」ことを認めました。返金額の開示は拒否しています。

　Guardianの報道では、労働党のデボラ・オニール上院議員（コンサルティング企業の誠実性に関する上院調査委員会のメンバー）のコメントが紹介されています。オニール議員は「デロイトには人間の知性の問題がある。これが哀れでなければ笑えるだろう。部分的な返金は、基準以下の仕事に対する部分的な謝罪のように見える」と述べ、「これらの企業と契約しようとする人は、自分たちが支払っている仕事を正確に誰がやっているのか、その専門知識とAI不使用を検証してもらうべきだ」と警告しています。

　AFRによれば、DEWRは今後もデロイトを他の業務に使用するかどうか、または全額返金を求めるかどうかについてのコメントを拒否しました。なお、デロイトオーストラリアは2021年以降、DEWRとの契約で約2,500万ドル（約38億円）相当の取引を行っています。

報告書の本質的内容と信頼性の問題

　エラーの多さにもかかわらず、報告書の主要な結論自体は他の調査結果と一致しており、報告書そのものの価値に対してどのような判断を下すべきかが難しくなっています。

　AFRによれば、初版と修正版の両方で、DEWRのコンピュータシステムとプロセスに広範な問題があることが指摘されており、これらの結論は、数百件の福祉支払い停止が合法ではなかったとする連邦オンブズマンの報告書とも一致しています。

　このことにより、ラッジ博士は「報告書全体を『不当』とみなすべきかどうかについては躊躇する」と述べています。ただし、ラッジ博士はGuardianの取材に対し、「核心的な分析がAIによって行われた」ため、報告書の推奨事項はもはや信頼できないとも指摘しています。「報告書の基盤そのものに欠陥があり、当初開示されず、専門家ではない方法論に基づいて構築されている場合、推奨事項を信頼することはできない」と述べています。

個人的な見解：専門家としての責任とAI活用のあり方

　今回の事例で特に印象的だったのは、AFRが指摘している皮肉です。デロイトは年間705億ドル（約10.7兆円）の収益の中で、顧客や経営者にAIに関するアドバイスとトレーニングを提供し、その収益を増やしています。同社は自社のグローバル業務全体でこの技術を広く使用していることを誇示する一方で、「常にAIの出力を人間がレビューする必要がある」ことを強調してきました。

　資料収集にAIを活用することと、分析そのものをAIに委ねることは、異なる次元の問題だといえます。今回の場合、分析業務という「コンサルティングの中核的価値」をどの程度AIに委ねていたのかは不透明ですが、存在しない参照を削除するのみで、多くの箇所で新たな実在する参照に置き換えていない点などは、疑義を深める結果となっています。

　今回の件で最も問題だったのは、引用元の存在確認という基本的なチェックが行われなかった点だと感じます。44万ドルのプロジェクトの全体コストから見れば、参照の実在確認は無視できるレベル程度のコストで実施できたはずです。そのため、基本的な品質管理プロセスのどこかに致命的な欠陥があったと考えられます。現在コンサルティング会社は構造転換が求められており、人員削減などを進めていることなどが影響したとも考えられます。

　今後、企業がコンサルティング会社と契約する際には、作業の具体的な実施方法、AI使用の有無と範囲、品質管理プロセスについて、より詳細な確認が必要になるかもしれません。また、コンサルティング会社に限らず、AIツールを利用する可能性がある企業や個人に対しては、どのように利用しているのか、という点は事前に把握していることが必須であるようにおもえます。相手側の善意に頼るだけでなく、自社内部での確認の強化や、第三者機関の利用や、複数の企業との比較を前提としたアプローチなどの対策も求められていくように感じます。

まとめ

　デロイトによる生成AI使用と報告書のエラー問題は、専門的サービスにおけるAI活用のリスクと、人間による適切な監督の重要性を改めて浮き彫りにしました。同時に、報告書の問題も外部からの指摘から明らかになっていることから、サービスを受ける側にも、確認体制の強化など新たな取り組みが必要となっているように感じます。