はじめに
近年、AI、特に大規模言語モデル(LLM)の発展は目覚ましく、様々な分野での活用が期待されています。しかし、AIが生成する情報には「ハルシネーション」と呼ばれる、事実に基づかない誤りが含まれる可能性があり、その信頼性の担保が大きな課題となっています。特に、生命科学のような高い正確性が求められる研究分野では、この課題は深刻です。
本稿では、この課題に取り組む新しいアプローチとして、米国国立衛生研究所(NIH)が2025年7月28日に発表したニュースリリース「NIH researchers develop AI agent that improves accuracy of gene set analysis by leveraging expert-curated databases」を基に、AI自身が情報の正しさを検証する機能を持つAIエージェント「GeneAgent」について、その仕組みと意義を解説します。
参考記事
- タイトル: NIH researchers develop AI agent that improves accuracy of gene set analysis by leveraging expert-curated databases
- 発行元: 米国国立衛生研究所(National Institutes of Health, NIH)
- 発行日: 2025年7月28日
- URL: https://www.nih.gov/news-events/news-releases/nih-researchers-develop-ai-agent-improves-accuracy-gene-set-analysis-leveraging-expert-curated-databases
関連論文:
- タイトル: GeneAgent: self-verification language agent for gene-set analysis using domain databases. Nat Methods
- 著者: Wang, Z., Jin, Q., Wei, CH. et al.
- 発行日: 2025年7月28日
- URL: https://doi.org/10.1038/s41592-025-02748-6
要点
- 米国国立衛生研究所(NIH)が開発したAIエージェント「GeneAgent」は、遺伝子セット解析の精度を向上させるものである。
- GeneAgentの最大の特徴は、AI自身が生成した情報を、専門家が監修した既存の信頼できるデータベースと照合して「自己検証」する機能を持つ点である。
- この自己検証機能により、大規模言語モデル(LLM)の課題である「ハルシネーション(幻覚)」、すなわち誤った情報の生成を大幅に抑制することが可能である。
- 人間の専門家による評価では、GeneAgentの自己検証の判断の92%が正しいと確認されており、その高い性能が示されている。
- 本技術は、疾患のメカニズム解明や新たな創薬ターゲットの発見など、今後の生命科学研究に貢献することが期待される。
詳細解説
遺伝子研究におけるAIの課題:「ハルシネーション」
本題に入る前に、背景となる知識を少し補足します。
私たちの体の中では、数万個の遺伝子が互いに関連し合って機能しています。「遺伝子セット解析」とは、特定の病気や生命現象に関わる遺伝子群(遺伝子セット)が、全体としてどのような機能的意味を持つのかを分析する手法です。これにより、複雑な生命現象の理解を深めることができます。
近年、この遺伝子セット解析に、ChatGPTのような大規模言語モデル(LLM)を活用する試みが増えています。LLMは、膨大なテキストデータから学習し、特定の遺伝子セットの機能について人間が理解しやすい説明文を生成することができます。しかし、ここには大きな落とし穴があります。それが「ハルシネーション(幻覚)」です。
LLMは、情報の「正しさ」を理解しているわけではなく、あくまで学習データに基づいて「次に来る確率が最も高い単語」を予測して文章を生成します。そのため、事実とは異なる、もっともらしい嘘の情報を平然と作り出してしまうことがあるのです。科学研究において、このような不正確な情報は致命的です。GeneAgentは、この根本的な課題を解決するために開発されました。
GeneAgentの核心技術:「自己検証」の仕組み
GeneAgentは、どのようにしてAIの「嘘」を見抜くのでしょうか。その鍵は、「自己検証(Self-Verification)」というプロセスにあります。これは、以下の3つのステップで構成されています。
- クレーム(主張)の生成: まず、GeneAgentは分析対象の遺伝子セットについて、その生物学的な機能に関する説明文、すなわち「クレーム」を複数生成します。これは従来のLLMと同様の機能です。
- 外部データベースとの照合: ここからがGeneAgentの真骨頂です。生成した一つ一つのクレームを、AI自身が、専門家によって監修された信頼性の高い既存の生物学データベースと照合します。これは、AIの主張を、人間が蓄積してきた客観的な知識(ファクト)と突き合わせる作業に相当します。
- 検証レポートの作成: 照合結果に基づき、GeneAgentは各クレームが「支持された(Supported)」「部分的に支持された(Partially Supported)」「論破された(Refuted)」のいずれであるかを判断し、その根拠と共に検証レポートとして出力します。
この仕組みにより、研究者はAIが生成した情報を鵜呑みにするのではなく、「どの情報がデータベースによって裏付けられており、どの情報が疑わしいのか」を客観的に評価できるようになります。
GeneAgentの有効性はどれほどか?
研究チームは、GeneAgentの性能を厳密に評価しました。まず、機能が既に知られている1,106個の遺伝子セットをテストしました。さらに、その中からランダムに選んだ10セット(合計132のクレーム)について、GeneAgentが作成した検証レポートが正しいかどうかを、2人の人間の専門家が判定しました。
その結果、GeneAgentが行った自己検証の判断の92%が「正しい」と専門家によって評価されました。これは、GeneAgentが非常に高い精度で自らの出力の信頼性を評価できることを示しています。
さらに、研究チームはマウスのメラノーマ(皮膚がんの一種)細胞から得られた未知の遺伝子セットにGeneAgentを適用しました。その結果、特定の遺伝子に関する新たな機能の可能性を示唆する洞察を提供することに成功しました。これは、将来的に、がんなどの疾患に対する新しい治療薬の標的(創薬ターゲット)を発見するような、画期的な知識の発見につながる可能性を秘めていることを意味します。
まとめ
本稿では、米国国立衛生研究所(NIH)が開発した、自己検証機能を持つAIエージェント「GeneAgent」について解説しました。
GeneAgentは、LLMが抱える「ハルシネーション」という弱点を、専門家が監修したデータベースと照合する「自己検証」という仕組みで克服し、遺伝子解析における情報の信頼性を大きく向上させる技術です。その有効性は人間の専門家によっても高く評価されており、未知の遺伝子機能の解明など、実際の研究応用においても成果を上げています。
AIが生成した答えを、AI自身が客観的な事実と照らし合わせて検証するというアプローチは、今後の科学研究におけるAI活用のあり方を示す、非常に重要な一歩と言えるでしょう。