[開発者向け]Google「Generative UI」発表:AIがプロンプトから完全カスタムUIを自動生成

目次

はじめに

 Google Researchが2025年11月18日、AIモデルがコンテンツだけでなくユーザーインターフェース(UI)そのものを生成する「Generative UI」の実装を発表しました。単一の単語から詳細な指示まで、あらゆるプロンプトに対して、インタラクティブなウェブページやゲーム、ツールを完全自動で生成します。本稿では、この技術の仕組みと評価結果、実用化の状況について解説します。

参考記事

メイン記事:

関連情報:

  • タイトル: Generative UI: LLMs are Effective UI Generators(研究論文・プロジェクトページ)
  • 発行元: Google Research
  • 発行日: 2025年11月18日
  • URL: https://generativeui.github.io/

要点

  • Generative UIは、AIモデルがコンテンツだけでなくユーザーインターフェース全体を動的に生成する技術である
  • GeminiアプリのDynamic ViewとGoogle SearchのAI Modeで展開され、教育、実用タスク、エンターテイメントなど幅広い用途に対応する
  • 人間による評価では、生成速度を除外した場合、標準的なLLM出力と比較して圧倒的に好まれる結果となった
  • Gemini 3 Proモデルに、ツールアクセス、詳細なシステム指示、ポストプロセッシングを組み合わせた実装方式を採用している
  • 評価用データセットPAGENを作成し、研究コミュニティへの公開を予定している

詳細解説

Generative UIとは何か

 Googleによれば、Generative UIは「AIモデルがコンテンツだけでなく、ユーザー体験全体を生成する能力」と定義されます。従来のLLMが静的なマークダウン形式で「テキストの壁」を出力するのに対し、この技術ではユーザーのプロンプトに応じて、インタラクティブなウェブページ、ゲーム、ツール、アプリケーションを完全に自動設計します。

 プロンプトは単一の単語のようにシンプルなものから、詳細な指示を含む長いものまで対応可能です。この点が重要で、ユーザーは既存のアプリケーションカタログから選択する必要がなく、自分のニーズに合わせたダイナミックなインターフェースを自動的に得られることになります。

 従来のLLMベースのインターフェースは、あらかじめ定義された静的な形式でコンテンツを表示していました。これに対してGenerative UIは、質問や指示の内容に応じて、最適な表現形式を含めたUI全体を動的に構築します。たとえば、5歳児に微生物叢を説明する場合と成人に説明する場合では、異なるコンテンツと機能セットが必要になりますが、こうした違いをモデルが理解して適切なインターフェースを生成する仕組みです。

製品展開:GeminiアプリとGoogle Search

 Generative UIの機能は、2つの製品で実用化されています。

 Geminiアプリでは、「Dynamic View」と「Visual Layout」という2つの実験的機能として展開されます。Dynamic Viewでは、Geminiのエージェント的なコーディング能力を活用し、各プロンプトに対して完全にカスタマイズされたインタラクティブな応答を設計・コーディングします。確率論の学習からイベント計画、ファッションアドバイスまで、幅広いシナリオに対応し、ユーザーは生成されたインターフェースを通じて対話的に学習、遊戯、探索できます。

 Google SearchのAI Modeでは、Google AI ProおよびUltra購読者向けに米国で提供が開始されました。Gemini 3の優れたマルチモーダル理解とエージェント的コーディング能力により、ユーザーの質問の意図を解釈し、その場でカスタムUIを構築します。モデルドロップダウンメニューから「Thinking」を選択することで利用可能です。

 AI Modeでは、インタラクティブなツールやシミュレーションをその場で生成することで、深い理解とタスク完遂に最適化された動的環境を作り出します。この実装により、ユーザーは静的な検索結果を超えた、探索的で没入感のある体験を得られると考えられます。

技術的実装:3つの重要な要素

 Googleの論文によれば、この実装はGemini 3 Proモデルに3つの重要な追加要素を組み合わせた構成になっています。

 第一に、ツールアクセスです。サーバーが画像生成やウェブ検索などの主要ツールへのアクセスを提供します。これにより、結果をモデルに返して品質を向上させたり、ユーザーのブラウザに直接送信して効率を改善したりできます。このツール統合は、単なるテキスト生成を超えた豊かな体験を実現するための基盤となります。

 第二に、詳細に設計されたシステム指示です。目標、計画、事例、技術仕様(フォーマット、ツールマニュアル、一般的なエラー回避のヒントを含む)などの詳細な指示によってシステムをガイドします。LLMのプロンプティングにおいて、システム指示の質が出力の品質を大きく左右することは広く知られており、この実装でもその原則が適用されています。

 第三に、ポストプロセッシングです。モデルの出力を一連のポストプロセッサに通し、潜在的な一般的問題に対処します。LLMの出力には一定の不確実性が伴うため、後処理による品質保証は実用システムにおいて重要な役割を果たします。

System Diagram

 製品によっては、特定のスタイルで一貫した結果を表示することが望ましい場合があります。実装では、すべてのユーザーに対して生成されたアセットを含むすべての結果を一貫したスタイルで作成するよう設定できます。スタイル指示がない場合、Generative UIは自動的にスタイルを選択するか、Dynamic Viewのようにユーザーがプロンプトでスタイルに影響を与えることも可能です。

評価結果:人間の専門家に次ぐ評価

 Googleは評価用に、人間の専門家が作成したウェブサイトのデータセットPAGENを作成し、研究コミュニティへの公開を予定しています。PAGENは「Page Generation」の略と推測され、Generative UIの実装を一貫して評価・比較するための基準を提供するものです。

 ユーザー選好の評価では、次の5つの形式を比較しました:人間の専門家が特定のプロンプト用に作成したカスタムウェブサイト、クエリに対するGoogle検索の最上位結果、プレーンテキスト(マークダウンなしのLLM出力)、標準的なLLM出力(マークダウン形式)、そしてGenerative UIの実装です。

 Googleによれば、評価結果は以下の通りです。人間の専門家が設計したサイトが最も高い選好率を示しました。これに僅差でGenerative UIの実装が続き、他のすべての出力方法とは大きな差がありました。ただし、この評価では生成速度は考慮されていない点に注意が必要です。

 ELOスコアで見ると、人間の専門家が1905.3、Generative UIが1710.7、Google検索結果が1512.8、マークダウン形式が1378.9、プレーンテキストが1241.7となっています。ELOスコアはチェスの棋力評価などに用いられる相対評価指標で、スコア差が大きいほど実力差が明確であることを示します。この結果から、Generative UIと標準的なLLM出力の間には実質的な品質差があることが読み取れます。

 さらに重要な発見として、Generative UIのパフォーマンスは基盤となるモデルの性能に強く依存することが示されました。最新のGeminiモデルでは、以前のモデルと比較して大幅に優れた結果が得られています。これは、Generative UIが「創発的能力」(emergent capability)であることを示唆しており、モデルの規模や性能が一定の閾値を超えると顕著に現れる能力である可能性があります。

幅広い応用範囲

 プロジェクトページで公開されているデモは、Generative UIの多様性を示しています。

 教育分野では、フラクタルの解説、2つのサイコロで8が出る確率の学習、Isingモデル(統計力学の基礎モデル)のシミュレーション、時計の歴史などが例示されています。これらはそれぞれ、概念の説明に最適化された異なるインターフェースで提供されます。

 子供向け教育では、極端なカスタマイズが可能です。「子供向けの投機的デコーディング解説」「子犬を使った傾きと接線の説明」「バスケットボールで学ぶ算数」「フランスの歴史(子供向け)」など、対象年齢や興味に合わせたインターフェースが生成されます。教育コンテンツにおいて、学習者の年齢や背景に応じた最適な説明方法が異なることは教育学の基本原理ですが、Generative UIはこの原理を技術的に実現していると言えるでしょう。

 実用的タスクでは、感謝祭のホスティング、ラグの選び方、ベビーモビールの作り方、フラミンゴをテーマにした装飾、ディナーのホスティング、子犬への基本トリックの教え方などが含まれます。これらは実生活で発生する具体的な問題に対し、手順やアイデアをインタラクティブに提示するものです。

 シンプルなクエリでも、「今何時?」「緑色のもの」「ドラゴンフルーツ」といった単純な質問に対して、驚くべき視覚的で魅力的な結果が生成されます。

 ゲームとエンターテイメントでは、タイピング練習、ポイント&クリックゲーム、ファッションアドバイザー、記憶ゲーム、4人用の元素三目並べ、日本のビジュアルノベル、テキストアドベンチャーゲームなど、多様なインタラクティブコンテンツが生成可能です。

今後の課題と展望

 Googleは、Generative UIがまだ初期段階にあることを認めています。現在の実装では、結果の生成に1分以上かかる場合があり、出力に時折不正確さが含まれることがあります。これらは継続的な研究領域です。

 生成速度の問題は、実用性に直結する重要な課題と言えるでしょう。ユーザーがプロンプトを入力してから結果を得るまでの待ち時間が長いと、体験の流動性が損なわれる可能性があります。一般的なウェブアプリケーションでは、応答時間が数秒を超えるとユーザー体験が大きく低下するとされており、1分以上の待ち時間は大幅な改善が必要な水準です。

 Googleは、Generative UIがさらに広範なサービスへのアクセス、追加のコンテキストや人間のフィードバックへの適応、より有用な視覚的・インタラクティブなインターフェースの提供へと拡張される可能性を見ています。これは同社が「研究のマジックサイクル」と呼ぶプロセスの一例で、研究のブレークスルーが製品イノベーションにつながり、それがユーザーニーズへの対応の新たな機会を開き、さらなる研究を促進する循環を形成します。

まとめ

 GoogleのGenerative UIは、AIモデルがコンテンツとインターフェースの両方を生成する新しいパラダイムを示しました。人間の専門家に次ぐ品質評価を得ており、教育から実用タスクまで幅広い応用が可能です。生成速度や精度の課題は残りますが、最新モデルでの大幅な性能向上は、この技術の発展可能性を示唆しています。今後、より多様なサービスとの統合や、ユーザーフィードバックを反映した進化が期待されます。

この記事が気に入ったら
フォローしてね!

  • URLをコピーしました!
  • URLをコピーしました!
目次