はじめに
Google DeepMindが2025年12月10日、音声合成モデル「Gemini 2.5 Flash TTS」と「Gemini 2.5 Pro TTS」の大幅な改善を発表しました。本稿では、この発表内容をもとに、新しいTTSモデルの機能改善と実用性について解説します。
参考記事
- タイトル: Improving Gemini Text-to-Speech models for better control and capabilities
- 著者: Ivan Solovyev
- 発行元: Google Blog
- 発行日: 2025年12月10日
- URL: https://blog.google/technology/developers/gemini-2-5-text-to-speech/
要点
- Gemini 2.5 Flash TTSとGemini 2.5 Pro TTSの両モデルで、表現力、ペース制御、マルチスピーカー機能が大幅に改善された
- スタイルプロンプトへの忠実性が向上し、「陽気で楽観的」から「重々しく深刻」まで、指定したトーンに沿った音声を生成できる
- コンテキストに応じた自然なペース調整が可能になり、強調のための減速や興奮のための加速を適切に行える
- マルチスピーカーでのキャラクター音声の一貫性が向上し、24言語で各キャラクターのトーン、ピッチ、スタイルを維持できる
- WondercraftやToonsutraなどのパートナー企業が実用化し、サブスクリプション20%増加などの成果を報告している
詳細解説
新モデルの位置づけと提供形態
Googleによれば、今回発表されたモデルは2024年5月にリリースされたTTSモデルを置き換えるものです。Gemini 2.5 Flash TTS preview(低レイテンシ最適化)とGemini 2.5 Pro TTS preview(品質最適化)の2つのバリエーションが用意されており、開発者はGoogle AI StudioとGemini API経由で利用できます。
Text-to-Speech(TTS)技術は、テキストを音声に変換する技術です。従来のTTSエンジンは、事前に録音された音声素片を組み合わせる方式が主流でしたが、近年では深層学習を用いた生成モデルが高品質な音声合成を実現しています。
表現力とスタイルの多様性向上
Googleの発表では、ロールプレイングゲームのキャラクター、仮想アシスタント、ドラマチックなナレーターなど、用途に応じた音声表現が必要とされています。新モデルは、スタイルプロンプトで指定された具体的な指示に対して、大幅に高い忠実性で応答できるようになりました。
例えば、「陽気で楽観的(cheerful and optimistic)」から「重々しく深刻(somber and serious)」まで、特定のトーンを要求すると、その指示に対して本物らしいパフォーマンスを提供します。Google AI Studioで公開されている「Synergy Intro」デモアプリでは、この機能を実際に体験できます。
この改善により、オーディオブック、教育コンテンツ、製品チュートリアル、マーケティング動画など、スタイルやトーンの細かな制御が必要な長尺コンテンツの制作が、より実用的になると考えられます。
コンテキストに応じたペース制御
自然な話し方を実現するには、ペース(話す速度)の制御が重要です。Googleによれば、ジョークにはタイミングが必要で、複雑な説明には余裕が必要であり、アクションシーンにはスピードが必要とされています。
新モデルでは、メッセージのコンテキストに基づいてペースを調整する能力が向上しました。強調のために自然に減速したり、興奮のために加速したりすることができます。さらに、ペースに関する明示的な指示に対する忠実性も大幅に改善されています。
Googleが公開した比較デモでは、「神経質なトーンで始まり、興奮と安堵へと加速する」という指示に対して、2024年5月版モデルと2024年12月版モデルの違いが示されています。この機能は、ストーリーテリングやドラマチックな表現が必要なコンテンツで、より自然な音声体験を提供できる可能性があります。
マルチスピーカー機能の改善
ポッドキャスト、模擬インタビュー、マルチキャラクターの物語など、複数話者が登場するコンテンツでは、それぞれのキャラクターに明確なアイデンティティを持たせることが重要です。新モデルでは、キャラクター音声の一貫性が向上し、話者間の「引き継ぎ」がより自然になりました。
また、多言語対応も強化されており、24の対応言語すべてで、各キャラクターの独自のトーン、ピッチ、スタイルを会話全体を通じて維持できます。Google AI Studioの「Voices from History」デモアプリで、この機能を体験できます。
従来のTTSでは、複数話者の対話を生成する際に、キャラクターごとに異なる音声を設定しても、会話の流れの中で一貫性が失われる課題がありました。今回の改善により、対話形式のコンテンツ制作がより実用的になると思います。
実用事例:パートナー企業の成果
Googleによれば、すでに複数のパートナー企業が本番環境でこれらの改善を実感しています。
AIオーディオプラットフォームのWondercraftは、Gemini TTSを使用して2つの主要機能を構築しています。「Convo Mode」は、ペースと配信を制御しながら、誰でもリアルな複数話者の会話を作成できる機能です。「Director Mode」は、発音、イントネーション、非言語的な合図を正確に制御し、編集を容易にする機能です。
Wondercraft創業者のYoussef Rizk氏は、「Gemini TTSの採用により、サブスクリプションが20%増加し、初月の解約率が20%減少し、コストが20%削減された」と報告しています。従来のTTSエンジンでは自然な音声表現に限界があったため、Gemini TTSが実用化の鍵になったとのことです。
また、Toonsutraは、コミックのキャラクターに合わせた映画的なボイスオーバーとプロモーション動画広告の制作にGemini TTSを活用しています。Toonsutra CEOのVishal Anand氏によれば、コミックパネルとストーリー全体の文脈に基づいて、各キャラクターのピッチ、トーン、アクセントを調整し、没入感のある体験を提供しています。現在、英語とヒンディー語のコミックで使用しており、キャラクタートーンの一貫性と品質が優れていると評価されています。
利用開始方法と開発者向けリソース
Gemini 2.5 Flash TTSと2.5 Pro TTSモデルは、Google AI StudioのGemini API経由で利用できます。Googleは、開発者向けドキュメント、プロンプティングガイド、Gemini API Cookbookを提供しており、これらのリソースを通じて実装を開始できます。
Google AI Studioでは、Playgroundでモデルの機能を試すことができ、実際のアプリケーション構築前に動作を確認できます。これにより、自社のユースケースに適した設定やプロンプトを事前に検証できる環境が整っていると言えます。
まとめ
Gemini 2.5 TTSモデルの改善により、表現力、ペース制御、マルチスピーカー機能が大幅に向上しました。Wondercraftなどの実用事例では、具体的な事業成果も報告されています。オーディオコンテンツ制作や多言語対応が必要な開発者にとって、検討価値のある選択肢になったと考えられます。
