はじめに
Googleが2025年12月18日、エンコーダー・デコーダー型の言語モデル「T5Gemma 2」を発表しました。本稿では、この発表内容をもとに、T5Gemma 2のアーキテクチャ上の革新、マルチモーダル機能、性能面での改善について解説します。
参考記事
- タイトル: T5Gemma 2: The next generation of encoder-decoder models
- 著者: Biao Zhang (Research Scientist), Ben Hora (Product Manager)
- 発行元: Google Blog
- 発行日: 2025年12月18日
- URL: https://blog.google/technology/developers/t5gemma-2/
その他
- arXiv論文:https://arxiv.org/abs/2512.14856
- Kaggle:https://www.kaggle.com/models/google/t5gemma-2
- Hugging Face:https://huggingface.co/collections/google/t5gemma-2
- GoogleColab:https://colab.research.google.com/github/google-gemini/gemma-cookbook/blob/main/Research/[T5Gemma_2]Example.ipynb
要点
- T5Gemma 2は、Gemma 3をベースとした次世代エンコーダー・デコーダーモデルであり、初のマルチモーダル・長文コンテキスト対応モデルである
- tied embeddings(エンコーダーとデコーダーで埋め込みを共有)とmerged attention(デコーダー内でself-attentionとcross-attentionを統合)により、パラメータ数を削減している
- 270M-270M(合計約370M)、1B-1B(合計約1.7B)、4B-4B(合計約7B)の3つのサイズで提供され、オンデバイス展開に適している
- 画像処理、最大128Kトークンの長文コンテキスト、140言語以上の多言語対応を実現している
- 事前学習済みチェックポイントが公開されており、開発者が特定タスク向けに追加学習できる
詳細解説
T5Gemma 2の位置づけと背景
Googleによれば、T5Gemma 2は同社のGemma 3アーキテクチャをベースとした、エンコーダー・デコーダー型モデルの最新版とされています。従来のT5Gemmaでは、デコーダー専用モデルの重みを初期化に利用し、継続的な事前学習によって高品質なモデルを構築する手法が採用されていました。T5Gemma 2はこのアプローチをさらに発展させ、Gemma 3の革新的機能を取り入れています。
エンコーダー・デコーダー型モデルは、入力をエンコーダーで処理し、デコーダーで出力を生成する構造を持ちます。この構造は、機械翻訳や要約などのタスクにおいて、デコーダー専用モデルよりも効率的に動作する場合があると考えられます。

アーキテクチャ上の革新
T5Gemma 2では、小規模モデルでの効率性を最大化するため、2つの構造的改良が導入されました。
まず、tied embeddings(共有埋め込み)です。Googleの説明では、エンコーダーとデコーダーの間で単語埋め込みを共有することで、全体のパラメータ数を大幅に削減できるとされています。これにより、同じメモリフットプリント内でより多くの機能を実装できるようになり、特に新しい270M-270Mモデルにとって重要な改善となっています。
次に、merged attention(統合アテンション)です。デコーダー内で、self-attention(自己注意)とcross-attention(交差注意)を単一の統合アテンション層にまとめることで、モデルのパラメータ数とアーキテクチャの複雑さが軽減されたと報告されています。この変更により、モデルの並列化が改善され、推論時の効率も向上すると考えられます。
従来のTransformerアーキテクチャでは、デコーダーがself-attentionとcross-attentionを別々の層として持つのが一般的でした。これらを統合することで、計算効率とメモリ使用量の両面で利点が得られる可能性があります。
次世代機能の統合
T5Gemma 2は、Gemma 3から3つの主要機能を継承しています。
第一に、マルチモーダル機能です。Googleによれば、T5Gemma 2モデルは画像とテキストを同時に理解・処理できるとされています。高効率なビジョンエンコーダーを活用することで、視覚的な質問応答やマルチモーダル推論タスクをシームレスに実行できます。
第二に、拡張された長文コンテキストです。Gemma 3のローカル・グローバル交互アテンション機構を活用し、最大128Kトークンのコンテキストウィンドウを処理できると発表されています。この長文処理能力は、文書要約や長文質問応答などのタスクで有用と考えられます。
第三に、大規模多言語対応です。より大規模で多様なデータセットで学習されたことにより、140言語以上に対応しているとのことです。
性能評価
Googleの発表によれば、T5Gemma 2は複数の指標でGemma 3やオリジナルのT5Gemmaを上回る性能を示しています。
マルチモーダル性能では、複数のベンチマークでGemma 3を上回る結果を記録しました。テキスト専用のGemma 3ベースモデル(270Mおよび1B)を、効果的なマルチモーダル・エンコーダー・デコーダーモデルに変換できたとされています。

長文コンテキスト処理では、Gemma 3およびT5Gemmaと比較して大幅な品質向上が確認されました。独立したエンコーダーを使用することで、T5Gemma 2は長文コンテキスト問題の処理により適していると説明されています。

一般的な能力においても、コーディング、推論、多言語タスク全般で、対応するGemma 3を上回る結果を示しています。



事後学習(post-training)後の性能についても、T5Gemma 2は一般的にデコーダー専用モデルよりも優れた結果を示すことが報告されています。ただし、今回のリリースには事後学習済みのチェックポイントは含まれておらず、開発者が特定タスク向けに追加学習を行う必要があります。
モデルサイズと利用可能性
T5Gemma 2は3つのサイズで提供されています。270M-270M(ビジョンエンコーダーを除く合計約370M)、1B-1B(合計約1.7B)、4B-4B(合計約7B)です。これらのコンパクトなサイズは、迅速な実験とオンデバイスアプリケーションへの展開に適していると考えられます。
事前学習済みチェックポイントは、arXiv論文、Kaggle、Hugging Face、Google Colab、Vertex AIを通じて広く利用可能となっています。開発者は、これらのチェックポイントを基に特定タスク向けの追加学習を行い、実際のアプリケーションに展開できます。
・arXiv論文:https://arxiv.org/abs/2512.14856
・Kaggle:https://www.kaggle.com/models/google/t5gemma-2
・Hugging Face:https://huggingface.co/collections/google/t5gemma-2
・GoogleColab:https://colab.research.google.com/github/google-gemini/gemma-cookbook/blob/main/Research/[T5Gemma_2]Example.ipynb
まとめ
T5Gemma 2は、Gemma 3の機能を継承しながら、アーキテクチャの効率化を実現したエンコーダー・デコーダーモデルです。マルチモーダル対応、長文コンテキスト処理、多言語対応という3つの次世代機能を備え、コンパクトなサイズでオンデバイス展開にも適しています。事前学習済みモデルが広く公開されており、開発者コミュニティでの活用が期待されます。
