[技術紹介]声でAIを自由自在に操る時代へ!Gemini 2.5の音声生成技術の最前線

目次

はじめに

 本稿では、Google DeepMindが発表した最新AIモデル「Gemini 2.5」に搭載された、高度な音声対話および音声生成機能についてGoogle Blogに掲載された「Advanced audio dialog and generation with Gemini 2.5」をもとに詳しく解説します。

引用元記事

あわせて読みたい
[Google I/O 2025]AI生成コンテンツを見抜く新技術!Googleの「SynthID Detector」とは? はじめに  本稿では、Googleが発表したAI生成コンテンツ識別ツール「SynthID Detector」について公式ブログ「SynthID Detector — a new portal to help identify AI-ge...

要点

  • Gemini 2.5は、テキスト、画像、音声、動画、コードをネイティブに理解し生成するマルチモーダルAIである。
  • リアルタイム音声対話において、自然な会話、声のトーンやアクセントのスタイル制御、外部ツールとの連携、会話コンテキストの認識、音声と動画の同時理解、24以上の言語に対応する多言語性、ユーザーの声のトーンに応じた感情豊かな対話、複雑な推論を伴う高度な思考対話が可能である。
  • 制御可能なテキスト読み上げ(TTS)機能では、詩の朗読からニュース放送、物語の読み聞かせまでダイナミックな表現が可能であり、話速や特定単語の発音も精密に制御できる。また、複数話者による対話形式の音声生成や、24以上の言語での多言語コンテンツ作成にも対応する。
  • 開発の全段階で潜在的リスクを評価し、AI生成コンテンツの透明性を確保するため、生成された音声には電子透かし技術SynthIDが埋め込まれる。
  • これらのネイティブオーディオ機能は、Google AI StudioやVertex AIのGemini APIを通じて開発者に提供され、よりリッチでインタラクティブなアプリケーション開発を可能にする。

詳細解説

Gemini 2.5とは? AI音声技術の新たな地平

 Google DeepMindによって開発されたGeminiは、当初からマルチモーダルAIとして設計されています。これは、テキスト、画像、音声、動画、コードといった多様な情報を横断的に、かつネイティブに理解し、コンテンツを生成できる能力を持つことを意味します。今回発表されたGemini 2.5は、特にAIによる音声対話と音声生成の分野で大きな進歩を遂げました。すでに、NotebookLMの「Audio Overviews」や「Project Astra」といった製品やプロトタイプで、これらのモデルが世界中のユーザーに音声機能を提供するために活用されています。

自然で人間らしい「リアルタイム音声対話」

 人間の会話は、言葉の意味だけでなく、声のトーン、アクセント、さらには笑い声のような非言語的な発声によってもニュアンスが伝えられる、非常に豊かで複雑なものです。Gemini 2.5は、このような人間同士のコミュニケーションに近づけるよう、音声をネイティブに理解し、音声を生成することで、効果的なリアルタイムコミュニケーションを実現しようとしています。

 Gemini 2.5 Flashプレビュー版に搭載されたネイティブ音声対話機能の主な特徴は以下の通りです。

  • 自然な会話: 高品質でより適切な表現力とプロソディ(リズムのパターン)を備えた音声対話が、非常に低い遅延で実現されます。これにより、人間と流れるように自然な会話が可能です。
  • スタイル制御: 自然言語によるプロンプト(指示)を用いることで、会話中の話し方を調整できます。特定の方言を使わせたり、さまざまなトーンや表現を生み出したり、さらにはささやき声で話させたりすることも可能です。
  • ツール統合: Gemini 2.5は、対話中に外部ツールを使用したり、機能を呼び出したりすることができます。これにより、Google検索のような情報源からリアルタイムの情報を組み込んだり、開発者が独自に構築したカスタムツールを利用したりすることができ、会話の実用性が向上します。
  • 会話コンテキスト認識(プロアクティブオーディオ): システムは、背景の話し声、周囲の会話、その他無関係な音声を識別して無視するように訓練されており、適切な場合にのみ応答します。つまり、話すべきでない時を理解しているのです。これは、AIがより社会的な振る舞いを獲得する上で非常に重要な機能と言えるでしょう。
  • 音声・動画理解: ストリーミング音声と動画のネイティブサポートにより、Gemini 2.5はビデオフィードや画面共有で見ているものについてユーザーと会話することができます。例えば、スポーツ中継を見ながらAIに試合状況を尋ねたり、オンライン会議の内容をリアルタイムで要約させたりといった活用が期待できます。
  • 多言語対応: 24以上の対応言語で会話できるだけでなく、同じフレーズ内で複数の言語を簡単に混ぜて使うことも可能です。これにより、グローバルな環境でのコミュニケーションがより円滑になります。
  • 感情豊かな対話: Gemini 2.5は、ユーザーの声のトーンに応答し、同じ言葉でも話し方が異なれば全く異なる会話につながることを認識します。これにより、より共感的で人間らしい対話が実現します。
  • 高度な思考対話: Geminiの推論能力は会話を強化し、特に複雑な推論タスクにおいて、より一貫性のある知的な対話を実現します。

自由自在に音声を創り出す「制御可能なテキスト読み上げ(TTS)」

 テキスト読み上げ(TTS)技術は急速に進化しており、Gemini 2.5の最新モデルでは、単に自然な音声を生成するだけでなく、生成される音声に対するより高度な制御を可能にしています。短い音声クリップから長編のナレーションまで、スタイル、トーン、感情表現、パフォーマンスを自然言語プロンプトを通じて正確に指示し、あらゆる種類の音声を生成できます。

 追加された制御機能と能力には、以下のようなものがあります。

  • ダイナミックなパフォーマンス: これらのモデルは、詩の朗読、ニュース放送、魅力的な物語の読み聞かせなど、あらゆるテキストを表現力豊かに読み上げることができます。また、特定の感情を込めて演じたり、要求に応じて特定の方言で話したりすることも可能です。
  • 強化されたペースと発音の制御: 話す速度を制御し、特定の単語を含む発音の正確性を高めることができます。これにより、より聞き取りやすく、意図通りの音声コンテンツを作成できます。
  • 複数話者による対話生成: このモデルは、テキスト入力から2人の話者による「NotebookLMスタイル」の音声概要を生成し、会話形式にすることでコンテンツをより魅力的なものにします。例えば、教材やオーディオブックなどで、登場人物同士の対話を自然に再現できます。
  • 多言語対応: Gemini 2.5を使えば、24以上の言語で多言語の音声コンテンツを簡単に作成できます。

 制御可能な音声生成(TTS)については、複雑なプロンプトで最先端の品質を求める場合はGemini 2.5 Pro Previewを、日常的なアプリケーションで費用対効果を重視する場合はGemini 2.5 Flash Previewを選択できます。これにより、開発者はアナウンス、物語、ポッドキャスト、ビデオゲームなど、さまざまな用途に合わせて動的に音声を生成することが可能になります。

安全性と責任への取り組み

 Google DeepMindは、これらのネイティブオーディオ機能の開発プロセスのあらゆる段階で、潜在的なリスクを積極的に評価し、その知見を緩和策に反映させています。これらの対策は、責任ある展開のための包括的なレッドチーム演習を含む、厳格な内部および外部の安全性評価を通じて検証されています。

 さらに、モデルから出力されるすべての音声には、AIによって生成された音声であることを識別可能にすることで透明性を確保するための電子透かし技術であるSynthIDが埋め込まれています。これは、AI技術の悪用を防ぎ、信頼性を高めるための重要な取り組みです。

あわせて読みたい
[Google I/O 2025]AI生成コンテンツを見抜く新技術!Googleの「SynthID Detector」とは? はじめに  本稿では、Googleが発表したAI生成コンテンツ識別ツール「SynthID Detector」について公式ブログ「SynthID Detector — a new portal to help identify AI-ge...

開発者向けネイティブオーディオ機能

 Google DeepMindは、Gemini 2.5モデルにネイティブオーディオ出力を導入し、開発者がGoogle AI StudioまたはVertex AIのGemini APIを介して、よりリッチでインタラクティブなアプリケーションを構築するための新しい機能を提供します。

 開発者は、Google AI StudioのストリームタブでGemini 2.5 Flashプレビュー版のネイティブ音声対話を試すことから始めることができます。制御可能な音声生成(TTS)は、Google AI Studio内の「generate media」タブで音声生成を選択することで、Gemini 2.5 ProとFlashの両方のプレビュー版で利用可能です。

まとめ

 本稿では、Google DeepMindの最新AIモデル「Gemini 2.5」が実現する、高度な音声対話と音声生成機能について解説しました。人間と見紛うほど自然な会話、声のトーンや感情まで制御可能な音声生成、そして多言語への対応は、AIとのコミュニケーションを新たな次元へと引き上げる可能性を秘めています。

 これらの技術は、言語の壁を越えたコミュニケーションの実現、より没入感のあるエンターテイメント体験の創出、教育分野における革新的な学習ツールの開発など、多岐にわたる分野での応用が期待されます。

 一方で、AI技術の進化に伴う倫理的な課題や悪用のリスクについても、Google DeepMindがSynthIDのような技術を通じて積極的に取り組んでいる点は注目に値します。

 今後、Gemini 2.5のような高度なAI技術が、私たちの社会や生活にどのような変革をもたらすのか、引き続き注目していく必要があるでしょう。

この記事が気に入ったら
フォローしてね!

  • URLをコピーしました!
  • URLをコピーしました!
目次