[開発者向け] Google、動画生成AI「Veo 3.1」を発表：音声品質向上と高度な編集機能を実装

2025-10-16

はじめに

　Googleが2025年10月15日、動画生成AIモデル「Veo 3.1」および「Veo 3.1 Fast」をGemini APIとFlowで公開しました。本稿では、公式発表をもとに、Veo 3.1の技術的進化、新たに追加された編集機能、そして開発者やクリエイターにとっての実用可能性について解説します。

参考記事

タイトル: Introducing Veo 3.1 and new creative capabilities in the Gemini API
著者: Alisa Fortin, Luis Cobo, Guillaume Vernade
発行元: Google Developers Blog
発行日: 2025年10月15日
URL: https://developers.googleblog.com/ja/introducing-veo-3-1-and-new-creative-capabilities-in-the-gemini-api/

タイトル: Introducing Veo 3.1 and advanced capabilities in Flow
著者: Jess Gallegos, Thomas Iljic
発行元: Google Blog
発行日: 2025年10月15日
URL: https://blog.google/technology/ai/veo-updates-flow/

要点

Veo 3.1は、より豊かなネイティブ音声生成、映画的スタイルへの理解向上、画像から動画への変換品質改善を実現した動画生成モデルである
Gemini APIでは、最大3枚の参照画像でキャラクター一貫性を保つ「Ingredients to video」、既存動画を1分以上に延長する「Scene extension」、2つのフレーム間の遷移を生成する「First and last frame」が利用可能になった
Flowでは、シーン内にオブジェクトを追加する「Insert」機能や、近日中にオブジェクトを削除する機能が実装される
Flowでは5ヶ月間で2億7,500万本以上の動画が生成されており、すべての既存機能に音声生成が追加された
Veo 3.1は、Gemini API、Vertex AI、Geminiアプリ、Flowで利用可能で、価格はVeo 3と同じである

詳細解説

Veo 3.1のモデル改善点

　公式ブログによれば、Veo 3.1とVeo 3.1 Fastは、従来のVeo 3から複数の改善が施されています。最も注目すべきは音声生成の品質向上です。モデルは自然な会話から同期した効果音まで、より豊かなネイティブ音声を生成できるようになりました。

　また、映画的スタイルへの理解が向上し、より高度な物語制御が可能になっています。公式ブログでは、Veo 3.1が「最先端(state-of-the-art)」の性能を持つと説明されており、Veo 3を基盤として、画像から動画への変換時のプロンプト順守性と音声・映像品質が改善されたとされています。

　さらに、画像から動画への変換機能が強化され、プロンプトへの順守性が向上しながらも、優れた音声・映像品質を維持し、複数シーン間でのキャラクター一貫性を保てるようになりました。公式Flowブログでは、真実に近い質感を捉えた「enhanced realism」も実現されていると述べられています。

新機能1:「Ingredients to video」— 参照画像による生成制御

　公式開発者ブログでは、最大3枚の参照画像を使って動画生成をガイドする機能が紹介されています。キャラクター、オブジェクト、またはシーンの参照画像を提供することで、複数のショット間でキャラクターの一貫性を維持したり、特定のスタイルを動画に適用したりできます。

　実装は以下のようにシンプルです:

from google import genai
from google.genai import types

client = genai.Client()
operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
    config=types.GenerateVideosConfig(
        reference_images=[reference_image1, reference_image2],
    ),
)

　公式Flowブログでも同様の機能が紹介されており、「Ingredients to Video」を使うことで、想像通りの見た目を持つシーンを作成できると説明されています。Flowはこれらの「材料」を使って、ユーザーが思い描いた通りの最終シーンを生成します。

新機能2:「Scene extension」— 既存動画の延長

　Scene extension機能を使えば、1分以上の長い動画を作成できます。前の動画クリップの最終1秒に基づいて新しいクリップを生成することで、視覚的な連続性を維持します。この機能は、背景音声を伴うショットの延長に特に適しているとされています。

from google import genai

client = genai.Client()
operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
    video=video_to_extend
)

　「Extend」として同機能が紹介されており、元のクリップから続く動作を継続する、より長いシームレスなショットの作成に最も有用だと説明されています。

新機能3:「First and last frame」— フレーム間の遷移生成

　公式ブログでは、開始画像と終了画像を提供することで、Veo 3.1がその間の遷移を音声付きで生成する機能が紹介されています。これにより、2つの異なる画像を橋渡しする、滑らかで自然なシーンを作成できます。

from google import genai
from google.genai import types

client = genai.Client()
operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
    image=first_frame,
    config=types.GenerateVideosConfig(
        last_frame=last_frame,
    ),
)

　「Frames to Video」として同機能が紹介され、芸術的でエピックな遷移に最適だと説明されています。

Flow固有の編集機能

　Flow特有の編集機能も紹介されています。新しく追加された「Insert」機能では、シーンに任意の要素を追加できます。現実的なディテールから幻想的なクリーチャーまで、何でも挿入可能で、Flowは影やシーンの照明などの複雑なディテールを処理し、追加物が自然に見えるようにします。

　また、オブジェクト削除機能も近日中に実装される予定です。シーンから不要なオブジェクトやキャラクターを削除すると、Flowが背景と周囲を再構築し、そのオブジェクトが最初から存在しなかったかのように見せます。

音声機能の全面展開

　すべての既存機能に音声生成が追加されたことが強調されています。「Ingredients to Video」「Frames to Video」「Extend」のすべてで、豊かな生成音声が利用できるようになりました。

　また、Flowは5ヶ月前にリリースされてから2億7,500万本以上の動画が生成されたという利用実績も報告されており、クリエイティビティの促進に貢献していることが示されています。

実用例と利用可能性

　公式ブログでは、具体的な実用例も紹介されています。GenAI映画スタジオのPromise Studiosは、Veo 3.1をMUSEプラットフォーム内で使用し、ディレクター主導のストーリーテリングのための生成的絵コンテと事前視覚化を制作品質で強化しています。また、Latitudeは、生成的ナラティブエンジン内でVeo 3.1を実験し、ユーザーが作成したストーリーを即座に生き生きとさせることに取り組んでいます。

　Veo 3.1は現在、有料プレビューとして利用可能です。Geminiアプリ、Flow、Gemini API、Google AI Studio内のVeo Studio、Vertex AIで利用でき、価格はVeo 3と同じです。

まとめ

　Veo 3.1は、音声品質の向上と高度な編集機能により、動画生成AIの実用性を大きく前進させました。参照画像による制御、動画延長、フレーム間遷移といった新機能は、クリエイターの創造性を段階的に実現する手段を提供しています。Gemini APIとFlowの両方で利用可能になったことで、開発者からクリエイターまで幅広い層がアクセスできる環境が整いました。動画コンテンツ制作の効率化と民主化が、さらに加速するかもしれません。