はじめに
Googleは、最新の動画生成AIモデル「Veo 2」を発表しました。本稿では、AIエンジニアの皆様に向けて、このVeo 2の技術的な特徴と、それがGemini AdvancedおよびWhisk Animateでどのように活用されているかを、解説します。
引用元情報:
- 記事タイトル: Generate videos in Gemini and Whisk with Veo 2
- 発行日: 2025年4月15日
- URL: https://blog.google/products/gemini/video-generation/
その他のサイト
- Whisk:https://labs.google/fx/ja/tools/whisk
要点
- Googleは、テキストプロンプトから高解像度な動画を生成する最新AIモデル「Veo 2」を発表しました。
- Veo 2は、Gemini Advancedの機能として統合され、テキストから8秒間、720p、16:9形式のMP4動画を生成できます。
- Google Labsの実験的ツール「Whisk」にもVeo 2が搭載され、「Whisk Animate」として画像から8秒間のアニメーション動画を生成する機能が追加されました。
- Veo 2は、現実世界の物理法則や人間の動きに対する理解が向上しており、流体的なキャラクターの動き、リアルなシーン描写、細部のビジュアル表現に優れています。
- 生成された動画には、AI生成であることを示す電子透かし「SynthID」が埋め込まれます。
- これらの機能は、Google One AI Premiumの加入者向けに提供されます。
詳細解説
前提知識:テキストからの動画生成技術
Veo 2のようなテキストからの動画生成モデルは、一般的に拡散モデル(Diffusion Models)やTransformerベースのアーキテクチャを発展させたものが用いられていると考えられます。これらのモデルは、膨大なテキストと動画のペアデータセットから、テキスト記述と視覚的表現の関係性を学習します。
- テキストエンコーディング: 入力されたテキストプロンプトは、まず言語モデルによって意味的な特徴ベクトルに変換(エンコード)されます。
- 潜在空間での拡散プロセス(Diffusion Process): ノイズ画像からスタートし、テキストの特徴ベクトルを条件として、徐々にノイズを除去しながら意味のある画像フレームを生成していくプロセスを繰り返します。
- 時間的一貫性の確保: 動画は単なる画像フレームの連続ではありません。フレーム間の時間的な一貫性(動きの滑らかさ、オブジェクトの同一性維持など)を保つための仕組みが重要になります。これには、フレーム間の関係性を学習するリカレント構造やアテンションメカニズムなどが用いられている可能性があります。Veo 2が物理法則や動きの理解に優れている点は、この時間的一貫性の制御が高度化されていることを示唆します。
Veo 2の技術的特徴
Veo 2は、動画生成技術における大きな飛躍を示すモデルです。その核心は、テキストプロンプトの内容を深く理解し、それを高解像度で詳細かつ映画的なリアリズムを持つ動画へと変換する能力にあります。
従来の動画生成モデルと比較して、Veo 2は特に以下の点で進化しています。
- 物理法則と動きの理解:
- Veo 2は、現実世界の物理法則や人間の自然な動きに対する理解が深まっています。これにより、生成される動画内のオブジェクトの動きやキャラクターのアニメーションが、より流体的で現実味を帯びています。例えば、重力の影響、布の揺れ、人物の歩行などが、不自然さなく表現されることが期待されます。これは、大規模なデータセットを用いた学習に加え、物理シミュレーションの概念を取り入れている可能性があります。
- 詳細なビジュアル表現:
- 単に動きがリアルなだけでなく、シーンの細部やテクスチャの質感といった視覚的なディテールの再現性も向上しています。プロンプトで指定された微妙なニュアンス、例えば「夕暮れ時の暖かい光」「氷の壁に閉じ込められたキャンディのフィギュア」といった複雑な要素も、高い忠実度で動画内に描き出すことができます。これは、モデルの内部表現能力と、高解像度出力を支えるアーキテクチャの進化によるものと考えられます。
- 多様なスタイルへの対応:
- リアリズムからファンタジー、アニメーション、ボクセルアート(記事内の例を参照)まで、多様な視覚スタイルに対応可能です。プロンプトでスタイルを指定することで、意図した通りの雰囲気を持つ動画を生成できます。これは、モデルが様々なスタイルの特徴を学習し、それらを柔軟に組み合わせる能力を持っていることを示唆します。
Gemini AdvancedにおけるVeo 2の活用
Gemini Advancedユーザーは、モデル選択のドロップダウンメニューからVeo 2を選択することで、テキストからの動画生成機能を利用できます。
- 利用方法: 生成したいシーンを詳細なテキストプロンプトで記述します。プロンプトが具体的であればあるほど、生成される動画の精度と制御性が高まります。これは、プロンプトエンジニアリングの重要性を示唆しています。モデルは入力されたテキストの意味構造を解析し、それを時系列的な視覚情報へと変換します。
- 出力仕様: 生成される動画は8秒間のクリップで、解像度は720p、アスペクト比は16:9のMP4ファイル形式となります。現時点では8秒という制限がありますが、これは技術的な制約(計算コスト、一貫性の維持など)や、ユースケース(SNSでの短尺動画共有など)を考慮した結果と考えられます。将来的には、より長尺の動画生成も可能になるかもしれません。
- 利用制限: 月間の生成数には上限が設けられています。これは、計算リソースの公平な分配と、システムの安定運用を目的とした措置です。
Whisk Animateによる画像からの動画生成
Google LabsのWhiskは、テキストと画像の両方を用いたアイデアの視覚化を支援するツールです。今回、Veo 2を統合した「Whisk Animate」機能が追加されました。
- 機能: ユーザーがWhiskで生成またはアップロードした画像を、Veo 2を用いて8秒間のアニメーション動画に変換します。静止画に動きを与えることで、よりダイナミックな表現が可能になります。画像の内容(被写体、構図、スタイルなど)を理解し、それに自然な動きを付与する技術が用いられています。例えば、画像内のキャラクターが瞬きしたり、背景の風景がゆっくり動いたりといった効果が考えられます。
- 対象: この機能もGoogle One AI Premium加入者向けに提供されます。
※実際に作成してみた動画:細かいプロンプトなしで作成すると現実的に起こりえない動画が作成されてしまうことが多い印象があります。
安全性への取り組み
Googleは、Veo 2による動画生成の安全性確保にも注力しています。
- レッドチーミングと評価: ポリシーに違反するような不適切なコンテンツの生成を防ぐため、専門チームによる徹底的なテスト(レッドチーミング)と評価が実施されています。
- SynthID: 生成された全ての動画フレームには、AIによって生成されたことを示す電子透かし技術「SynthID」が埋め込まれます。これは、ディープフェイクなどの悪用リスクに対抗するための重要な対策です。SynthIDは、視覚的には認識しにくい形で情報を埋め込み、加工(圧縮、リサイズ、色調補正など)に対しても一定の耐性を持つように設計されています。
まとめ
本稿では、Googleの最新動画生成AI「Veo 2」について、その技術的な特徴、Gemini AdvancedおよびWhisk Animateでの活用方法、そして背景にある技術や安全性への取り組みを解説しました。Veo 2は、高解像度、リアルな動き、詳細な表現力において大きな進歩を遂げており、AIによるクリエイティブな表現の可能性を大きく広げるものです。特に、物理法則や人間の動きに対する深い理解は、今後の動画生成AIの発展において重要な方向性を示すものと言えるでしょう。Veo 2のような最先端技術の動向を把握することは、新たなアプリケーション開発や研究を進める上で不可欠です。今後のさらなる進化と、それによって開かれる新しい表現の世界に期待が高まります。
コメント