はじめに
本稿では、Google Cloudが発表したVertex AIにおける生成AIメディアモデルの最新情報について、Google Cloud Blogの記事「Expanding Vertex AI with the next wave of generative AI media models」を基に解説します。
画像生成モデル「Imagen 4」、動画生成モデル「Veo 3」、音楽生成モデル「Lyria 2」という、メディアコンテンツ制作の可能性を大きく広げる3つの新しいモデルについて、その特徴や活用事例、そして責任あるAIとしての取り組みを紹介します。
引用元記事
- タイトル: Expanding Vertex AI with the next wave of generative AI media models
- 発行元: Google Cloud Blog
- 発行日: 2025年5月21日
- URL: https://cloud.google.com/blog/products/ai-machine-learning/announcing-veo-3-imagen-4-and-lyria-2-on-vertex-ai?hl=en
・本稿中の画像に関しては特に明示がない場合、引用元記事より引用しております。
・記載されている情報は、投稿日までに確認された内容となります。正確な情報に関しては、各種公式HPを参照するようお願い致します。
・内容に関してはあくまで執筆者の認識であり、誤っている場合があります。引用元記事を確認するようお願い致します。

要点
- Google CloudのVertex AIにおいて、次世代の生成AIメディアモデル群(Imagen 4、 Veo 3、 Lyria 2)が発表された。
- Imagen 4は、テキストからの画像生成品質が向上し、特にテキストレンダリング性能とプロンプトへの忠実性が向上し、多言語プロンプトにも対応する。
- Veo 3は、テキストや画像プロンプトからの動画生成品質が向上し、セリフやナレーションといった音声、音楽や効果音の生成にも対応する。
- Lyria 2は、テキストプロンプトから高品質な音楽を生成し、楽器やBPM(テンポ)など、より詳細なクリエイティブコントロールが可能になる。
- これらのモデルは、マーケティングやメディア分野などでのコンテンツ制作を効率化し、新たなクリエイティブ表現を可能にするものである。
- Googleは、SynthIDによる電子透かし技術やセーフティフィルターなど、AI生成コンテンツの責任ある利用を推進するための取り組みも強化している。
詳細解説
Vertex AIと生成AIメディアモデルとは
まず、「Vertex AI」について簡単にご説明します。Vertex AIは、Google Cloudが提供する統合型の機械学習プラットフォームです。専門的な知識を持つ開発者やデータサイエンティストが、機械学習モデルの構築、トレーニング、デプロイを効率的に行うための様々なツールやサービスを提供しています。
そして「生成AIメディアモデル」とは、テキストによる指示(プロンプト)や既存のメディア(画像など)を基に、新しい画像、動画、音声(音楽など)といったメディアコンテンツをAIが自動で生成する技術のことを指します。これにより、従来は多大な時間とコスト、専門スキルが必要だったメディア制作のハードルが大きく下がり、誰もがクリエイティブな表現をしやすくなる可能性を秘めています。
Imagen 4:より高品質な画像生成へ
今回発表されたImagen 4は、Googleのテキスト・ツー・イメージ(text-to-image)生成モデルの最新版で、Vertex AI上でパブリックプレビューとして提供が開始されました。Imagen 3からさらに進化し、主に以下の3つの点で高い品質を実現しています。
- 卓越したテキストレンダリングとプロンプトへの忠実性:
- 生成される画像内に、正確かつ自然な形でテキストを描画する能力が大幅に向上しました。例えば、ポスターデザインや製品パッケージの画像生成において、指定した文字情報を違和感なく組み込むことができます。
- また、ユーザーが入力するプロンプト(指示文)の意図をより正確に理解し、細かなニュアンスまで反映した画像を生成できるようになりました。記事内の作例では、1960年代のキッチンに置かれた小麦粉の袋や、ピクセルアートスタイルの4コマ漫画など、複雑な指示にも高い精度で応えていることが示されています。
- あらゆるスタイルにおける全体的な画質の向上:
- 写実的な画像からイラスト調、ピクセルアートまで、様々なスタイルの画像生成において、全体的な品質が向上しています。これにより、クリエイターはより多様な表現を追求できます。
- 多言語プロンプトのサポート:
- 英語だけでなく、複数の言語でのプロンプト入力に対応し、世界中のクリエイターが母国語で画像生成を行えるよう支援します。
Imagen 4を利用するには、Vertex AI上のMedia Studioを使用するか、Google Gen AI SDK for Pythonを用いたコードサンプルを実行することで試すことができます。
Prompt: This four-panel comic strip uses a charming, deliberately pixelated art style reminiscent of classic 8-bit video games, featuring simple shapes and a limited, bright color palette dominated by greens, blues, browns, and the dinosaur’s iconic grey/black. The setting is a stylized pixel beach. Panel one shows the familiar Google Chrome T-Rex dinosaur, complete with its characteristic pixelated form, wearing tiny pixel sunglasses and lounging on a pixelated beach towel under a blocky yellow sun. Pixelated palm trees sway gently in the background against a blue pixel sky. A caption box with pixelated font reads, “Even error messages need a vacation.” Panel two is a close-up of the T-Rex attempting to build a pixel sandcastle. It awkwardly pats a mound of brown pixels with its tiny pixel arms, looking focused. Small pixelated shells dot the sand around it. Panel three depicts the T-Rex joyfully hopping over a series of pixelated cacti planted near the beach, mimicking its game obstacle avoidance. Small “Boing! Boing!” sound effect text appears in a blocky font above each jump. A pixelated crab watches from the side, waving its pixel claw. The final panel shows the T-Rex floating peacefully on its back in the blocky blue pixel water, sunglasses still on, with a contented expression. A small thought bubble above it contains pixelated “Zzz…” indicating relaxation.

Veo 3:音声やセリフも扱える、高品質な動画生成
Veo 3は、Google DeepMindによって開発された最新の動画生成モデルです。テキストプロンプトや画像プロンプトから高品質な動画を生成する能力が向上しただけでなく、以下の点が大きな特徴です。
- 音声・スピーチへの対応:
- 生成する動画に、セリフやナレーションといったスピーチ(人間の声)を含めることができます。
- さらに、音楽や効果音といったオーディオ要素も動画と同時に生成できるようになりました。これにより、映像だけでなく音響面も含めた、より完成度の高い動画コンテンツをAIで制作することが可能になります。
記事では、Veoを活用している企業の事例も紹介されています。
- Klarna(デジタル決済サービス): YouTubeのバンパー広告やBロール映像の制作など、コンテンツ制作の効率を大幅に向上させています。
- Jellyfish(デジタルマーケティング企業): 同社のAIマーケティングプラットフォーム「Pencil」にVeoを統合し、日本航空と提携してAI生成による機内エンターテイメントを提供するなど、先進的な取り組みを行っています。コストと市場投入までの時間を平均50%削減したという成果も報告されています。
- Kraft Heinz(食品大手): 同社のプラットフォーム「Tastemaker」にImagenとVeoを導入し、クリエイティブおよびキャンペーン開発プロセスを劇的に加速させています。従来8週間かかっていた作業が8時間で完了するようになり、大幅なコスト削減も実現しているとのことです。
- Envato(デジタルクリエイティブアセット提供): Veo 2を活用して、テキストや画像から写実的で映画のような動画コンテンツを生成できる新機能「VideoGen」を開発しました。
Veo 3は、記事で紹介されているように、詳細なプロンプト指示にも対応可能です。
Prompt: A medium shot, historical adventure setting: Warm lamplight illuminates a cartographer in a cluttered study, poring over an ancient, sprawling map spread across a large table. Cartographer: “According to this old sea chart, the lost island isn’t myth! We must prepare an expedition immediately!”
Veo 3は現在、Vertex AI上でプライベートプレビューとして提供されており、今後数週間でより広範囲に利用可能になる予定です。早期アクセスに関心がある場合は、記事内のフォームから登録できます。
Lyria 2:よりクリエイティブな制御が可能な音楽生成
Lyria 2は、Googleのテキスト・ツー・ミュージック(text-to-music)モデルの最新版で、Vertex AI上で一般提供が開始されました。テキストプロンプトから高品質な音楽を生成できるだけでなく、以下の点が強化されています。
- 高品質なオーディオコンテンツ: 様々なスタイルで忠実度の高い音楽を生成します。
- より詳細なクリエイティブコントロール:
- 生成する音楽の楽器の種類、BPM(Beats Per Minute:1分間の拍数、つまりテンポ)、その他の音楽的特徴をより細かく制御できるようになりました。これにより、ユーザーは自身のクリエイティブな意図をより正確に音楽に反映させることができます。
記事では、サイケデリックなペルーのクンビアや、壮大なオーケストラの映画音楽など、具体的なプロンプトと生成された音楽のイメージが紹介されています。
Prompt: Sweeping Orchestral Film Score, Pristine Studio recording, London, 100-piece Orchestra, Majestic and profound. A blend of soaring melodies, dramatic harmonic shifts, and powerful percussive elements, with instruments such as french horns, strings, and timpani, and a thematic approach, featuring intricate orchestrations, dynamic range, and emotional depth, evoking a cinematic and awe-inspiring atmosphere.
Lyria 2もまた、顧客企業によって活用が進んでいます。
- Captions(AI動画作成ツール): 同社の「Mirage Edit」機能にLyria 2を統合し、ユーザーがプロンプトから音声付きの動画を生成する際に、スクリプトやペース、感情の起伏に合わせてカスタマイズされた音楽を自動生成できるようにしています。
- Dashverse(デジタルコンテンツプラットフォーム運営): 同社の「DashReels」のようなプラットフォームで、AIネイティブなクリエイターが物語の展開や感情に合わせて変化するダイナミックなサウンドトラックを作成できるよう、Lyria 2を活用しています。
Lyria 2は、Vertex AI上のMedia Studioからテキストプロンプトで音楽を生成したり、Vertex AI経由でモデルAPIにアクセスしたりすることで利用を開始できます。
責任あるAIへの取り組み:安全なクリエイティブ活動のために
Googleは、これらの強力な生成AIメディアモデルを提供するにあたり、セキュリティと安全性を非常に重視しています。Imagen 4、Veo 3、Lyria 2はすべて、Google DeepMindとの連携のもと、安全性を基本設計原則として構築されています。
- ウォーターマーキング(電子透かし):
- デフォルトで、Veo、Imagen、Lyriaで生成されたすべてのコンテンツには、SynthIDという技術が利用されます。これは、生成された出力に目に見えない電子透かしを埋め込むもので、AIによって生成されたメディアであることを識別可能にし、透明性を確保します。
- セーフティフィルター:
- すべての生成AIメディアモデルにおいて、入力されるプロンプトと出力されるコンテンツの両方が、セーフティフィルターのリストに基づいて評価されます。ユーザーは、コンテンツがどの程度積極的にフィルタリングされるかを設定でき、ブランドの価値観に合ったアセットを確実に生成できるようにします。また、視覚的な出力データにおいては、人物の生成に関する制御も可能です。
まとめ
本稿では、Google CloudがVertex AI上で発表した新しい生成AIメディアモデル、Imagen 4、Veo 3、Lyria 2について詳しく解説しました。これらのモデルは、画像、動画、音楽という主要なメディアコンテンツの生成において、品質の向上、より細やかなクリエイティブコントロール、そして音声やセリフといった新機能の追加を実現し、クリエイターや企業がコンテンツを制作する方法に大きな変革をもたらす可能性を秘めています。
特に、テキストレンダリングの精度向上(Imagen 4)、動画への音声・セリフ付与(Veo 3)、音楽の楽器やテンポの個別指定(Lyria 2)といった具体的な進化点は、より専門的で高品質なメディア制作をAIでサポートできることを示しています。
また、SynthIDによる電子透かしやセーフティフィルターといった責任あるAIへの取り組みは、これらの強力な技術が安全かつ倫理的に利用されるための重要な基盤となります。
これらの進化は、マーケティング担当者、メディア企業、コンテンツクリエイターなど、幅広い分野の人々にとって、アイデアを形にし、魅力的なストーリーを語るための新たな扉を開くものです。今後、これらの技術がどのように活用され、どのような新しい表現が生まれてくるのか、非常に楽しみです。
コメント