はじめに
Google DeepMindとYale大学の共同研究チームが2025年10月15日、単一細胞解析のための270億パラメータの基盤モデル「Cell2Sentence-Scale 27B(C2S-Scale)」を発表しました。本稿では、このモデルが「どのように新しいがん治療経路の仮説を生成し、実験的検証を経て、その予測を確認したのか」を解説します。
参考記事
メイン記事:
- タイトル: How a Gemma model helped discover a new potential cancer therapy pathway
- 著者: Shekoofeh Azizi(Staff Research Scientist, Research Lead, Google DeepMind)、Bryan Perozzi(Senior Staff Research Scientist, Graph Mining, Google Research)
- 発行元: Google Blog
- 発行日: 2025年10月15日
- URL: https://blog.google/technology/ai/google-gemma-ai-cancer-therapy-discovery/
関連情報:
- タイトル: Cell2Sentence: Single-cell Analysis With LLMs
- 発行元: GitHub (vandijklab)
- URL: https://github.com/vandijklab/cell2sentence
- タイトル: C2S-Scale-Gemma-27B model card
- 発行元: HuggingFace
- URL: https://huggingface.co/vandijklab/C2S-Scale-Gemma-2-27B
- タイトル: Scaling Large Language Models for Next-Generation Single-Cell Analysis
- 発行元: bioRxiv
- 発行日: 2025年4月17日
- URL: https://www.biorxiv.org/content/10.1101/2025.04.14.648850v2
要点
- Google DeepMindとYale大学が、Gemmaファミリーをベースとした270億パラメータの単一細胞解析用基盤モデル「C2S-Scale 27B」を発表した
- このモデルは、がん免疫療法における「コールド腫瘍」を「ホット腫瘍」に変換する薬剤候補を予測し、実験室での検証により約50%の抗原提示増加を確認した
- Cell2Sentenceフレームワークを用いて、遺伝子発現データを遺伝子名の順序付きリストに変換することで、LLMが単一細胞データを処理できるようにしている
- 5700万以上のヒトおよびマウスの細胞データで訓練され、細胞タイプ予測、組織分類、摂動応答予測など多様なタスクで最先端の性能を達成した
- モデルとリソースはHugging FaceおよびGitHubでCC-BY-4.0ライセンスで公開されており、研究コミュニティが自由に利用できる
詳細解説
C2S-Scale 27Bの概要とCell2Sentenceフレームワーク
C2S-Scale 27Bは、Googleのオープンモデルファミリー「Gemma」をベースに構築された、単一細胞RNA配列解析(scRNA-seq)専用の基盤モデルです。公式発表によれば、このモデルはYale大学との研究協力の一環として開発され、2025年10月15日に公開されました。
このモデルの中核となるのが「Cell2Sentence(C2S)」というフレームワークです。C2Sは、高次元の遺伝子発現ベクトルを「細胞文(cell sentence)」──発現量の降順に並べた遺伝子名のスペース区切りリスト──に変換する手法です。この変換により、自然言語処理用に設計されたLLMが、そのまま単一細胞データを処理できるようになります。
従来の単一細胞解析では、遺伝子発現データは数値ベクトルとして扱われ、専用の機械学習モデルが必要でした。しかし、C2Sフレームワークでは、例えば「MALAT1 TMSB4X B2M EEF1A1 H3F3B ACTB…」のように遺伝子名を並べることで、LLMが持つ言語理解能力を活用できます。この手法により、テキストデータと生物学的データを統一的に扱うことが可能になりました。
モデルのスケーリングと新たな能力の獲得
C2S-Scaleモデルが明確なスケーリング則に従うことが示されています。これは、自然言語と同様に、生物学的データでもモデルサイズが大きくなるほど性能が向上することを意味します。
しかし、今回の研究が提起した重要な問いは、「より大きなモデルは既存のタスクで性能が向上するだけなのか、それとも全く新しい能力を獲得するのか」というものでした。公式発表によれば、真のスケーリングの価値は新しいアイデアの創出と未知の発見にあり、C2S-Scale 27Bはまさにその可能性を実証しました。
特筆すべきは、このモデルが条件付き推論という創発的能力を示した点です。小規模なモデルでは解決できなかった文脈依存的な効果を、270億パラメータのモデルは捉えることができました。
モデルの訓練には、CellxGeneおよびHuman Cell Atlasから収集された800以上のデータセット、合計5700万以上のヒトおよびマウスの細胞が使用されました。この大規模なデータセットにより、多様な組織、細胞タイプ、実験条件を網羅した堅牢な学習が実現されています。訓練にはGoogleのTPU v5ハードウェアとJAXフレームワークが使用され、効率的な大規模学習が可能になりました。
がん免疫療法への応用:「コールド腫瘍」を「ホット腫瘍」へ
公式発表によれば、がん免疫療法における主要な課題の一つは、多くの腫瘍が「コールド」──つまり体の免疫システムから見えない状態──であることです。これらを「ホット」にする重要な戦略が、抗原提示というプロセスを通じて免疫を引き起こすシグナルを表示させることです。
抗原提示とは、細胞が内部のタンパク質断片を表面に提示し、免疫細胞がそれを認識できるようにするメカニズムです。がん細胞が適切に抗原を提示すれば、免疫システムはそれを異常細胞として認識し、攻撃できるようになります。
研究チームは、C2S-Scale 27Bに特殊なタスクを与えました。それは、「条件付き増幅剤」として機能する薬剤を見つけることです。条件付き増幅剤とは、特定の「免疫文脈陽性」環境──低レベルのインターフェロン(重要な免疫シグナルタンパク質)が既に存在するが、それだけでは抗原提示を誘導するには不十分な環境──でのみ免疫シグナルを増幅する薬剤です。
この課題を解決するため、研究チームは「二重文脈仮想スクリーニング」という手法を設計しました。公式発表によれば、このスクリーニングは2段階で構成されます:
- 免疫文脈陽性環境: 腫瘍と免疫の相互作用が保たれ、低レベルのインターフェロンシグナルがある実際の患者サンプルをモデルに提供
- 免疫文脈中性環境: 免疫文脈のない単離された細胞株データをモデルに提供
研究チームは4000以上の薬剤の効果を両方の文脈でシミュレートし、最初の文脈でのみ抗原提示を増強する薬剤を予測するようモデルに指示しました。この条件付き推論の能力は、モデルのスケールによって獲得された創発的能力と考えられます。
この仮想スクリーニングの結果、モデルが強調した薬剤候補のうち、10-30%は既存の文献で知られているものでしたが、残りの70-90%は既知の関連性がない「驚きのヒット」でした。これは、モデルが既知の事実を繰り返すだけでなく、新しい仮説を生成していることを示しています。
新規仮説の生成:CK2阻害剤silmitasertibの発見
公式発表によれば、モデルの予測は明確でした。キナーゼCK2の阻害剤であるsilmitasertib(CX-4945)について、顕著な「文脈分割」が確認されました。モデルは、silmitasertibが「免疫文脈陽性」設定で適用された場合に抗原提示が強く増加すると予測しましたが、「免疫文脈中性」設定ではほとんど効果がないと予測しました。
この予測が特に興味深かったのは、それが新しいアイデアだったからです。CK2は免疫システムの調節因子を含む多くの細胞機能に関与していることが知られていますが、silmitasertibを介したCK2の阻害がMHC-I発現や抗原提示を明示的に増強することは、文献では報告されていませんでした。MHC-Iは、細胞表面で抗原を提示する主要な分子複合体です。
この発見は、モデルが既知の事実を繰り返すのではなく、検証可能な新しい仮説を生成していることを示しています。しかし、予測はそれが臨床応用で検証できる場合にのみ価値があります。実際のテストはまず実験室で、そして最終的には臨床で行われる必要があります。
実験室での検証:予測の確認
次の段階として、研究チームはこの仮説を実験室に持ち込み、ヒト神経内分泌細胞モデルで検証しました。この細胞タイプは訓練中にモデルが全く見たことのないものでした。つまり、モデルの汎化能力が試されたことになります。
実験では以下の結果が示されました:
- silmitasertib単独での細胞処理:抗原提示(MHC-I)に効果なし
- 低用量インターフェロン単独での細胞処理:わずかな効果
- silmitasertibと低用量インターフェロンの併用:抗原提示の顕著な相乗的増幅
公式発表によれば、実験室テストでは、silmitasertibと低用量インターフェロンの組み合わせにより、抗原提示が約50%増加しました。これは腫瘍を免疫システムにとってより可視的にする効果と考えられます。
この50%という増加率は、免疫療法の文脈では臨床的に意義のある変化と考えられます。一般的に、抗原提示の増加は免疫細胞による腫瘍認識の向上につながり、免疫療法の効果を高める可能性があります。
モデルのin silico(コンピュータ内)予測が、in vitro(試験管内)で複数回確認されました。C2S-Scaleは、新しいインターフェロン条件付き増幅剤を成功裏に特定し、「コールド」腫瘍を「ホット」にする新たな経路を明らかにしました。これは免疫療法への反応性を高める可能性があります。
これは初期の第一歩ではあるものの、新しい併用療法──より強固な効果を達成するために複数の薬剤を協調して使用する──を開発するための強力で実験的に検証されたリードを提供すると説明されています。併用療法は、単剤療法では達成できない相乗効果を生み出すことができるため、現代のがん治療において重要なアプローチとなっています。
Yale大学のチームは現在、この発見されたメカニズムをさらに探究し、他の免疫文脈でAIが生成した追加の予測を検証しています。さらなる前臨床および臨床検証により、このような仮説は最終的に新しい治療法への道を加速できる可能性があります。
モデルの技術的詳細と性能
C2S-Scale 27Bは、Gemma 2ファミリーのデコーダーオンリー型トランスフォーマーアーキテクチャをベースとしています。Gemma 2は、Googleが開発した軽量で最先端のオープンLLMファミリーです。
モデルは、細胞タイプ予測、組織分類、条件付き生成、摂動応答予測、データセット要約、クラスタキャプション、生物学的質問応答など、幅広い単一細胞および複数細胞タスクで検証されました。論文によれば、C2S-Scaleモデルは、他のオープンソースおよびクローズドソースモデルと比較して大幅な改善を示し、単一細胞生物学におけるLLMの新しい最先端ベンチマークを確立しました。
モデルの入出力形式は以下の通りです:
入力: テキスト。最良の性能を得るには、特定のタスク(例:細胞タイプ予測、条件付き生成)に応じてプロンプトを構造化する必要があります。入力は「細胞文」──遺伝子名の順序付きスペース区切りリストです。
出力: テキスト。モデルは応答としてテキストを生成します。これは予測ラベル(細胞タイプや組織など)、完全な細胞文、または自然言語の要約である可能性があります。
具体的な使用例として、細胞タイプ予測のためのプロンプト形式が示されています:
The following is a list of 1000 gene names ordered by descending expression level in a Homo sapiens cell. Your task is to give the cell type which this cell belongs to based on its gene expression.
Cell sentence: MALAT1 TMSB4X B2M EEF1A1 H3F3B ACTB FTL RPL13 ... .
The cell type corresponding to these genes is:
このプロンプトに続いて、モデルは対応する細胞タイプを予測します。
以下は、予測するモデルの使用例です。
# pip install accelerate transformers sentencepiece
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
# Load model directly from Hugging Face Hub
model_id = "vandijklab/C2S-Scale-Gemma-2-27B"
# Load tokenizer; requires sentencepiece to be installed
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
).to(device)
# Format prompt (see previous section)
cell_sentence = "MALAT1 TMSB4X B2M EEF1A1 H3F3B ACTB FTL RPL13 ..." # Truncated for example, use at least 200 genes for inference
num_genes = 1000
organism = "Homo sapiens"
prompt = f"""The following is a list of {num_genes} gene names ordered by descending expression level in a {organism} cell. Your task is to give the cell type which this cell belongs to based on its gene expression.
Cell sentence: {cell_sentence}.
The cell type corresponding to these genes is:"""
# Prepare tokenized inputs
input_ids = tokenizer(prompt, return_tensors="pt").to(device)
# Generate response
outputs = model.generate(**input_ids, max_new_tokens=20)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
# The predicted cell type will be the text immediately following the prompt
predicted_cell_type = response.split("The cell type corresponding to these genes is:")[1].strip()
print(f"Predicted Cell Type: {predicted_cell_type}")
実際にモデルを簡単に試せるチュートリアルがいくつか提供されています。
・チュートリアルURL:https://github.com/vandijklab/cell2sentence/tree/master/tutorials
オープンサイエンスとしての公開
特筆すべきは、このような先進的な研究成果が完全にオープンな形で公開されている点です。公式発表によれば、C2S-Scale 27BモデルとそのリソースはHugging FaceおよびGitHubで研究コミュニティに公開されています。
モデルの重みはCC-BY-4.0ライセンスで共有されており、適切なクレジット表示を行えば、商用利用を含む自由な利用が可能です。ただし、GitHubリポジトリのコードベースはCC BY-NC-ND 4.0ライセンス(非商用、改変禁止)であることに注意が必要です。
公開されているリソースには以下が含まれます:
- モデル本体: Hugging Face上で直接利用可能
- 科学論文: bioRxivでプレプリントとして公開
- コードベース: GitHubで完全なコードとチュートリアルを提供
- チュートリアルノートブック: データ準備、細胞タイプ予測、細胞生成などの一般的なワークフローのガイド
また、C2Sフレームワークは、細胞文への変換、データ操作、モデルのファインチューニングなどのコア機能を提供するPythonパッケージとしても公開されており、pip install cell2sentenceでインストールできます。
このオープンな姿勢は、科学の民主化と知識の共有という点で重要な意義があります。高度なAI技術による生物学的発見が、一部の組織だけでなく、世界中の研究者がアクセスできる形で提供されることは、科学の進歩を加速させる可能性があります。
利用上の考慮事項と限界
モデルの利用可能性と同時に、その限界についても明確に説明されています。
想定される用途:
- 単一細胞ゲノミクスおよび計算生物学の研究
- 特定の生物学的領域やデータセットでのファインチューニングのための基盤モデル
- 大規模scRNA-seq実験のアノテーションと解釈の支援
利点:
- 幅広いscRNA-seqタスクで最先端の性能
- 多様な単一細胞解析課題を扱う統一フレームワーク
- プライベートまたは独自データからより専門的なモデルを構築するための基盤
- 生物学的仮説を探究するための細胞データのin silico生成能力
限界:
- モデルは公開データで訓練されており、その知識はそのデータに存在する遺伝子、細胞タイプ、条件に限定される
- 分布外のデータ(例:完全に新しい細胞タイプや技術)での性能は保証されず、検証が必要
- 訓練時のプロンプト形式から大きく逸脱した入力プロンプト形式でのモデルの性能は保証されない
これらの限界は、AIモデルの一般的な特性であり、特に生物医学分野での応用においては慎重な検証が重要です。今回のがん治療経路の発見においても、モデルの予測は実験室での検証を経て初めて価値が確認されました。
今後の展望:「仮想細胞」への道
論文では、この成果が新しい種類の生物学的発見のための青写真を提供すると説明されています。スケーリング則に従い、C2S-Scale 27Bのようなより大きなモデルを構築することで、高スループット仮想スクリーニングを実行し、文脈条件付き生物学を発見し、生物学的に根拠のある仮説を生成できる、十分に強力な細胞行動の予測モデルを作成できることが示されました。
さらに、論文では「仮想細胞(virtual cells)」の開発への道を開くとされています。仮想細胞とは、コンピュータ上で細胞の挙動を高精度にシミュレートできるモデルのことです。もしこのような仮想細胞が実現すれば、実験を行う前にin silicoで多数の仮説を検証し、最も有望なものだけを実験室で確認するという、効率的な研究サイクルが可能になるかもしれません。
このアプローチは、薬剤開発のコストと時間を大幅に削減する可能性があります。現在、新薬の開発には10年以上の時間と数十億ドルのコストがかかることが一般的ですが、AIによる仮想スクリーニングとin silico検証が実用化されれば、このプロセスが劇的に加速される可能性があります。
まとめ
Google DeepMindとYale大学の共同研究により開発されたC2S-Scale 27Bは、単一細胞解析における基盤モデルの新たな可能性を示しました。このモデルは、がん免疫療法における新しい治療経路を予測し、実験室での検証を通じてその予測を確認するという、AIによる生物学的発見の実例を提供しています。
特に注目すべきは、モデルが既知の事実を繰り返すだけでなく、文献に報告されていない新しい仮説を生成し、それが実験的に検証されたという点です。また、このような先進的な研究成果がオープンな形で公開され、世界中の研究者が利用できることも重要な意義があります。
今後、Yale大学のチームによるさらなる検証や、他の研究機関による活用が進むことで、この技術が実際のがん治療法の開発につながることが期待されます。