[ニュース解説]Vertex AI、音楽生成も可能に!動画・画像・音声・音楽すべてをカバーする唯一のプラットフォームへ

目次

はじめに

 近年、AI技術の進化は目覚ましく、特に生成AI(Generative AI)の分野では、テキストだけでなく、画像、音声、動画など、様々なメディアをAIが生成できるようになってきました。Google Cloudが提供するAIプラットフォーム「Vertex AI」は、この生成AIの分野で最先端を走り続けています。

 本稿では、Google Cloud Nextで発表されたVertex AIの最新アップデートについて、公式ブログ「Vertex AI is now the only platform with generative media models across video, image, speech, and music」をもとに解説します。今回のアップデートにより、Vertex AIは動画、画像、音声、そして新たに音楽という、あらゆるメディアに対応する生成モデルを備えた唯一のプラットフォームとなりました。

引用元:

・本稿中の画像に関しては特に明示がない場合、引用元記事より引用しております。
・記載されている情報は、投稿日までに確認された内容となります。正確な情報に関しては、各種公式HPを参照するようお願い致します。
・内容に関してはあくまで執筆者の認識であり、誤っている場合があります。引用元記事を確認するようお願い致します。

あわせて読みたい
[ニュース解説]未来を創るAI技術:Google Cloud Next ’25 発表まとめ はじめに  近年、AI(人工知能)技術は目覚ましい進化を遂げ、私たちの働き方やビジネスのあり方に大きな変革をもたらしています。Google Cloudは、Googleの最先端AI技...

要点

  • Vertex AIに音楽生成モデル「Lyria」が追加され、プレビュー版(許可リスト制)で利用可能になりました。
  • これにより、Vertex AIは動画(Veo 2)、画像(Imagen 3)、音声(Chirp 3)、音楽(Lyria)の全メディアに対応する生成モデルを持つ唯一のプラットフォームとなりました。
  • Veo 2(動画生成)には、インペインティング(不要物除去)、アウトペインティング(フレーム拡張)、カメラ制御などの高度な編集機能が追加されました。
  • Chirp 3(音声生成・理解)には、わずか10秒の音声入力でカスタムボイスを作成できる「Instant Custom Voice」機能や、話者分離機能付きの文字起こし機能が追加されました。
  • Imagen 3(画像生成)は、画質とインペインティング(欠損部分の修復、不要物除去)機能が向上しました。
  • 安全性と責任を重視し、SynthIDによるデジタル透かし、安全フィルター、データガバナンス、著作権に関する補償などが提供されます。
  • L’Oreal GroupeやKraft Heinzなどの企業が、すでにVertex AIの生成メディアモデルを活用し、成果を上げています。

詳細解説

Vertex AIとは? なぜ「唯一のプラットフォーム」が重要なのか?

 まず前提として、Vertex AIは、Google Cloudが提供する、機械学習モデルの開発からデプロイ、管理までを一貫して行える統合AIプラットフォームです。専門家でなくても、最新のAIモデルをビジネスに活用しやすくすることを目指しています。

 今回の発表の最大のポイントは、Vertex AIが動画、画像、音声、音楽という主要なメディアすべてに対応する生成モデルを一つのプラットフォーム上で提供する「唯一」の存在になった点です。これは、例えば「テキストで指示するだけで、製品紹介の画像を作り、それに合わせた解説ナレーションとBGMを付けた動画広告を完成させる」といった一連のクリエイティブ制作を、Vertex AIだけで完結できる可能性を示唆しています。これにより、制作プロセスが大幅に効率化され、コスト削減にも繋がります。

各メディアモデルの進化

【新登場】Lyria:テキストから音楽を生成

 Lyriaは、テキストによる指示(プロンプト)から、様々なジャンルの高品質な音楽を生成できるモデルです。単にメロディーを作るだけでなく、楽器のニュアンスや複雑な構成まで表現できます。

ビジネスでの活用例:

  • ブランド体験の向上: マーケティングキャンペーンや店舗BGMなど、ブランドイメージに合ったオリジナルの楽曲を迅速に作成できます。
  • コンテンツ制作の効率化: 動画やポッドキャスト制作で、著作権フリーの音楽を探す手間とコストを削減し、コンテンツの内容に完全に合ったBGMを生成できます。

    Veo 2:動画生成・編集機能が大幅強化

     Veo 2は、テキストや画像から高品質な動画を生成するモデルです。今回のアップデートで、単なる生成ツールから、包括的な動画制作・編集プラットフォームへと進化しました。

    主な新機能:

    • インペインティング: 動画内の不要なロゴや背景の映り込みなどを、フレームごとに自然に除去できます。
    • アウトペインティング: 既存の動画のフレーム(画角)を拡張し、例えば横長の動画をSNS向けの縦長動画に変換するなど、様々なフォーマットに最適化できます。
    • カメラ制御: カメラのアングルや動き(ドローンショット、タイムラプスなど)を指示し、より洗練された映像表現が可能になります。
    • インターポレーション(補間): 2つの動画(またはシーケンスの始点と終点)を指定すると、その間を繋ぐフレームを滑らかに生成し、自然なトランジションを実現します。

      Chirp 3:音声生成・文字起こしが進化

       Chirp 3は、音声の生成と理解を行うモデルです。35以上の言語で自然な音声を生成できます。

      主な新機能:

      • Instant Custom Voice: わずか10秒の音声サンプルから、その人の声質を再現したカスタムボイスを生成できます。コールセンターのパーソナライズや、独自のブランドボイス構築に活用できます。(利用には許可リストへの登録と、声の利用許諾の確認が必要です)
      • 話者分離付き文字起こし: 複数の話者がいる音声データ(会議、ポッドキャストなど)から、誰が話しているかを区別しながら正確に文字起こしできます。

      Imagen 3:画像生成の品質と編集機能が向上

       Imagen 3は、テキストから高品質な画像を生成するモデルです。従来モデルよりも細部の表現力や光の描写が向上し、不自然な部分(アーティファクト)が少なくなりました。

      主な新機能:

      • インペインティング機能の向上: 画像内の欠損部分の修復や、不要なオブジェクトの除去が、より自然でシームレスに行えるようになりました。

        安全性と責任への取り組み

         Google Cloudは、AIの責任ある開発と利用を重視しています。Vertex AI上の生成モデルには、以下の安全対策が組み込まれています。

        • SynthIDによるデジタル透かし: 生成された画像、動画、音声には、人間には知覚できない電子透かしが埋め込まれ、AIによる生成物であることを識別可能にし、偽情報対策に貢献します。
        • 安全フィルター: 有害なコンテンツの生成を防ぐためのフィルターが組み込まれています。
        • データガバナンス: 顧客データがモデルのトレーニングに使用されることはありません。
        • 著作権補償: Google Cloudが提供する特定の生成AIサービスで生成されたコンテンツが、第三者の著作権を侵害したと主張された場合、Googleが顧客を補償する制度があります。これは業界初の取り組みです。

        企業の活用事例

         すでに、L’Oreal Groupe(化粧品大手)やKraft Heinz(食品大手)などのグローバル企業が、Vertex AIの生成メディアモデルをマーケティングコンテンツ制作などに活用し、制作期間の大幅な短縮(例:8週間→8時間)やコスト削減、クリエイティブな実験の促進といった成果を上げています。

        まとめ

         今回のアップデートにより、Google CloudのVertex AIは、テキストから画像、動画、音声、そして音楽まで、あらゆるメディアを生成・編集できる唯一の統合プラットフォームとしての地位を確立しました。これは、企業がクリエイティブ制作のワークフローを根本から変革し、より迅速かつ効率的に、そして高品質なコンテンツを生み出すための強力なツールを手に入れたことを意味します。

         安全性への配慮も強化されており、企業は安心してこれらの最先端AI技術をビジネスに活用できます。生成AIによるメディア制作の可能性は、今後ますます広がっていくでしょう。

        • URLをコピーしました!
        • URLをコピーしました!

        コメント

        コメントする

        目次