［開発者向け］Googleの医療AI「MedGemma」が進化！画像とテキストを融合する新モデルの可能性

2025-07-21

はじめに

　本稿では、2025年7月9日に発表されたGoogle Researchのブログ記事「MedGemma: Our most capable open models for health AI development」を元に、Google Researchが発表した医療AI開発のためのオープンモデル「MedGemma」について、特に新たに追加されたマルチモーダルモデルの能力と、医療分野にもたらす可能性について深掘りしていきます。

参考記事

タイトル: MedGemma: Our most capable open models for health AI development
発行元: Google Research
発行日: 2025年7月9日
URL: https://research.google/blog/medgemma-our-most-capable-open-models-for-health-ai-development/

・本稿中の画像に関しては特に明示がない場合、引用元記事より引用しております。
・記載されている情報は、投稿日までに確認された内容となります。正確な情報に関しては、各種公式HPを参照するようお願い致します。
・内容に関してはあくまで執筆者の認識であり、誤っている場合があります。引用元記事を確認するようお願い致します。

要点

Googleは、医療AI開発を加速させるためのオープンモデル群「MedGemma」に、新たなモデルを追加した。
新モデルは、画像とテキストの両方を扱える「MedGemma 27B Multimodal」と、医療画像と言語のエンコーディングに特化した軽量モデル「MedSigLIP」である。
MedGemmaは、医師国家試験を想定したベンチマーク「MedQA」で、はるかに大規模なモデルに匹敵する高い性能を、約10分の1という低コストで実現する。
「オープンモデル」であるため、開発者はプライバシーを完全に管理下に置きながら、自社のニーズに合わせてモデルを自由に改変・最適化することが可能である。
胸部X線写真からのレポート自動生成、電子カルテの要約・解釈、皮膚科や病理画像の分類など、医療現場における幅広い応用が期待される。

詳細解説

MedGemmaとは？医療AI開発の新たな基盤

　MedGemmaは、Googleが提供する「Health AI Developer Foundations (HAI-DEF)」という、医療AI開発者向けの基盤技術コレクションの一部です。その最大の特徴は「オープンモデル」である点にあります。

　従来のAIモデルの多くは、開発元が提供するAPIを通じて利用する「APIベース」でした。これは手軽な反面、機密性の高い医療データを外部サーバーに送信する必要があるため、プライバシーの観点で課題がありました。また、モデルの内部構造がブラックボックスであるため、細かいカスタマイズも困難でした。

　それに対し、MedGemmaのようなオープンモデルは、モデルの構造やパラメータ（重み）が公開されており、誰でもダウンロードして手元の環境で実行できます。これにより、以下の大きなメリットが生まれます。

プライバシーと柔軟性: 病院内や研究機関内の閉じたネットワークでモデルを動かせるため、患者さんのプライバシーを最大限に保護できます。
カスタマイズ性: 特定の疾患の画像や、特定の形式のレポートに合わせてモデルを追加学習（ファインチューニング）させることで、その用途に特化した高い性能を引き出すことが可能です。
再現性と安定性: APIと違い、モデルが予期せずアップデートされることがないため、研究や製品開発において安定した結果を再現できます。これは医療分野において極めて重要です。

注目の新モデル：MedGemma 27B MultimodalとMedSigLIP

　今回、MedGemmaコレクションに強力な2つの新モデルが加わりました。

MedGemma 27B Multimodal:
このモデルは、MedGemmaファミリーの中で最も高性能なモデルの一つです。「マルチモーダル」という名前の通り、X線写真や病理画像といった「画像データ」と、医師の所見や電子カルテといった「テキストデータ」を同時に理解し、処理することができます。例えば、患者の胸部X線写真を見せながら「この画像から考えられる最も可能性の高い所見を述べ、治療計画の次のステップを提案してください」といった、複雑な問いに答えることができます。特に、時系列に沿った電子カルテ（EHR）の解釈も可能で、患者の長期的な病状経過を追うようなタスクにも対応します。
MedSigLIP:
こちらは、医療画像の分類や検索に特化した、軽量（4億パラメータ）な画像・テキストエンコーダーです。エンコーダーとは、画像やテキストをAIが理解できる数値のベクトル（特徴量）に変換する役割を担います。MedSigLIPは、胸部X線、皮膚科、病理学、眼底画像など、多様な医療画像で学習されており、これらの画像を的確に特徴づけることができます。これにより、大量の画像データベースから類似症例を瞬時に検索したり、画像を高精度で分類したりするアプリケーションを効率的に構築できます。

　以下の図は、どのモデルがどのような入力データ（画像、テキスト）を扱い、どのようなタスクに適しているかを示しています。

性能とコスト効率

　MedGemmaの特筆すべき点は、その性能の高さとコスト効率のバランスです。下のグラフは、様々なAIモデルの性能（MedQAスコア）と、推論にかかるコスト（100万トークンあたりのドル）を比較したものです。

　グラフの左上に位置するMedGemma-27Bは、700億パラメータを持つOpenBioLLM 70Bや、さらに巨大なDeepSeek R1といったモデルに迫る高いスコアを達成しています。驚くべきは、その推論コストがDeepSeek R1の約10分の1であることです。これは、より少ない計算資源で、非常に高性能な医療AIを運用できることを意味し、多くの医療機関や研究施設にとって大きな福音となります。

マルチモーダルAIが拓く医療の未来

　MedGemmaが実現するマルチモーダルな能力は、医療現場に大きな変革をもたらす可能性を秘めています。例えば、紹介されている胸部X線写真の事例を見てみましょう。

　MedGemmaは、X線写真から「大きな気胸があり、右肺上葉に結節の可能性がある」といった詳細な所見をテキストとして生成しています。これは、熟練した放射線科医の読影レポートと遜色ないレベルです。実際に、米国の認定放射線科医が評価したところ、MedGemmaが生成したレポートの81%が、人間の放射線科医のレポートと同様の患者管理につながる、十分な精度を持っていると判断されました。

　このような技術は、以下のような場面で役立つと考えられます。

診断支援: 医師が画像診断を行う際のセカンドオピニオンとして機能し、見落としを防ぐ。
レポート作成の効率化: 読影レポートの草案を自動生成し、医師の事務作業負担を大幅に軽減する。
医療教育: 医学生や研修医が、様々な症例画像とそれに対応する専門医の所見を学ぶための教材として活用する。

実践的な導入ガイド

技術仕様とモデル選択

MedGemmaファミリーの技術仕様

モデル	パラメータ数	入力形式	出力形式	適用用途	システム要件
MedGemma 4B Multimodal	40億	画像+テキスト	テキスト	軽量なレポート生成、VQA	単一GPU、モバイル対応可
MedGemma 27B Text	270億	テキストのみ	テキスト	高度な医学的推論、EHR解析	単一GPU
MedGemma 27B Multimodal	270億	画像+テキスト	テキスト	複雑な画像解析、長期EHR解釈	単一GPU
MedSigLIP	4億	画像+テキスト	埋め込みベクトル	画像分類、検索、類似度計算	CPU、モバイル対応可

用途別モデル選択ガイド

胸部X線レポート生成: MedGemma 4B/27B Multimodal
皮膚科画像分類: MedSigLIP + 分類ヘッド
病理画像検索: MedSigLIP
電子カルテ要約: MedGemma 27B Text/Multimodal
医学文献解析: MedGemma 27B Text
FHIR記録処理: MedGemma 27B Multimodal

導入方法とリソース

1. 公式リポジトリとドキュメント

MedGemma GitHubリポジトリ: https://github.com/google-health/medgemma
MedSigLIP GitHubリポジトリ: https://github.com/google-health/medsiglip
HAI-DEF公式サイト: https://goo.gle/hai-def
技術詳細レポート: https://arxiv.org/abs/2507.05201

2. Hugging Faceでの利用

モデルコレクション: https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4
デモアプリケーション集: https://huggingface.co/collections/google/hai-def-concept-apps-6837acfccce400abe6ec26c1
予約前情報収集デモ: https://huggingface.co/spaces/google/appoint-ready

実装例とコードサンプル

基本的な推論の実行

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# MedGemma 4B Multimodalの読み込み
model_name = "google/medgemma-4b-multimodal"
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 画像+テキスト入力での推論
prompt = "この胸部X線画像を分析し、主要な所見を述べてください。"
# 画像処理とテキスト生成のコード例は公式GitHubで提供

MedSigLIPを使った画像分類

from transformers import SiglipVisionModel, SiglipTextModel
import torch

# MedSigLIPモデルの読み込み
vision_model = SiglipVisionModel.from_pretrained("google/medsiglip")
text_model = SiglipTextModel.from_pretrained("google/medsiglip")

# ゼロショット分類の実装例
class_labels = ["正常", "肺炎", "気胸", "腫瘤影"]
# 詳細なコード例は公式リポジトリで提供

クラウドでのデプロイメント

Google Cloud Vertex AIでの運用

専用エンドポイント: スケーラブルな本番環境での推論
バッチ予測: 大量の医療画像の一括処理
AutoMLとの統合: カスタムモデルの開発支援

セキュリティとプライバシー

オンプレミス展開: 病院内のサーバーでの完全プライベート運用
データ暗号化: 医療データの保護
HIPAA準拠: 米国医療プライバシー法への対応

実際の導入事例

世界各地での活用実例

DeepHealth（マサチューセッツ州、米国）
- 用途: 胸部X線のトリアージと結節検出の改善
- 採用モデル: MedSigLIP
- 成果: 診断精度の向上と読影時間の短縮
長庚記念病院（台湾）
- 用途: 中国語医学文献の読解と医療スタッフの質問応答
- 採用モデル: MedGemma 27B
- 特徴: 多言語対応による地域医療への貢献
Tap Health（グルガオン、インド）
- 用途: 臨床ガイドラインに沿った治療提案と診療記録要約
- 採用モデル: MedGemma 27B
- 成果: 臨床コンテキストへの高い感度を実現