[論文解説]LLMの次のフロンティア「Generative UI」:マークダウンからインタラクティブな「カスタムアプリ」へ

目次

はじめに

 近年、AIモデル、特にLLM(大規模言語モデル)は、テキスト、コード、画像など、さまざまなコンテンツを生成する能力で注目を集めています。しかし、これらの強力なツールが生成した結果は、通常、静的で事前に定義されたインターフェースで提示されることが一般的でした。特にLLMの出力は、見出しや表を含むことはあっても、多くの場合「マークダウンの壁のようなテキスト (markdown “wall of text”)」として提供されていました。

 本稿でご紹介する「Generative UI(ジェネレーティブ・ユーザーインターフェース)」は、AIモデルがコンテンツだけでなく、インターフェースそのもの、つまりユーザー体験全体を生成するという、長年の課題であった分野です。この新しいモダリティにより、ユーザーは従来のテキストの羅列ではなく、リッチなフォーマット、画像、地図、音声、さらにはシミュレーションやゲームなど、あらゆるプロンプトに対してカスタムの対話型体験を得ることができます。

 本論文では、適切なプロンプト(指示)とツールを与えることで、最新のLLMが、事実上どのようなプロンプトに対しても、高品質なカスタムUIをロバスト(堅牢)に生成できることを実証しています。生成速度を考慮しない場合、このGenerative UIの実装によって生成された結果は、標準的なLLMのマークダウン出力と比較して、人間に圧倒的に好まれるという評価結果が得られています。

解説論文

  • 論文タイトル:Generative UI: LLMs are Effective UI Generators 
  • 論文URL:https://generativeui.github.io/static/pdfs/paper.pdf
  • 発行日:Preprint. Under review. (プレプリント。現在レビュー中。) 
  • 発表者:Yaniv Leviathan Dani Valevski Matan Kalman Danny Lumen Eyal Segalis Eyal Molad Shlomi Pasternak Vishnu Natchu Valerie Nygaard Srinivasan (Cheenu) Venkatachary James Manyika Yossi Matias (Google Research)

要点

  • Generative UIは、LLMがプロンプトに応じてコンテンツだけでなく、リッチでインタラクティブなユーザーインターフェース全体を生成する新しいモダリティである。
  • LLMが生成するUIは、現在の主流であるマークダウン出力と比較して、人間による選好度評価で82.8%の確率で好まれるという高い評価を得ている。
  • Generative UIの実現には、LLMがサーバーエンドポイントを通じて画像生成や検索などのツールを利用できる環境と、目標、計画ガイドライン、例、技術指示を含む詳細なシステム指示(プロンプト)、そして生成結果を修正するポストプロセッサの組み合わせが必要である。
  • この Generative UI の能力は、最新のLLMモデル(Gemini 3など)においてエラー率が大幅に減少し、ユーザー選好度が向上する創発的な能力 (emergent capability) であることが示されている。
  • 評価のため、人間の専門家が作成したウェブサイトのデータセット「PAGEN」が構築・公開されており、Generative UIの結果は、専門家によるウェブサイトの44%のケースで品質が匹敵することが示されている。

詳細解説

 本章では、Generative UIの実装と評価に関する論文の具体的な内容を、項目ごとに網羅的に解説いたします。

Abstract (要旨)

 本論文は、LLMがコンテンツだけでなく、インターフェース自体を生成するGenerative UIという長年の課題に取り組みました。適切なプロンプトとツールを備えることで、最新のLLMが、ほぼすべてのプロンプトに対して高品質なカスタムUIを堅牢に生成できることを実証しています。生成速度を無視した場合、本実装による結果は、標準的なLLMのマークダウン出力よりも人間に圧倒的に好まれます。さらに、生成結果は人間の専門家が作成したものには劣るものの、44%のケースで少なくとも同等であるという評価を得ています。このロバストなGenerative UI能力は、以前のモデルからの大幅な改善を伴う創発的な能力であることも示されています。評価を支援するために、専門家が作成したウェブサイトの新しいデータセット「PAGEN」が作成・公開されました。

1 Introduction (はじめに)

 今日のAIモデルが生成するコンテンツは、ハードコードされたUIで提示されています。Generative UIは、AIモデルがコンテンツに加えて、リッチなフォーマット、画像、地図、音声、シミュレーション、ゲームなどを含むユーザー体験全体を生成する、新しいモダリティ(形式)です。

 これは、プロンプトごとの即席のAIチームの実現を意味します。通常、リッチな視覚的インターフェースは、製品マネージャー、UXデザイナー、エンジニアといった専門家チームが時間をかけて構築しますが、Generative UIは、特定のプロンプトに対して、AIベースの即席チームとして数分でインタラクティブな体験を構築します。

 現在のLLMとの対話における主流のUIは、マークダウンベースのチャットインターフェースです。マークダウンは生のテキストより消費しやすいものの、本Generative UI実装による結果は、人間の評価者によってマークダウンUIよりも圧倒的に好まれることが示されました。

2 Method (手法)

 本Generative UI実装は、単一の完全に生成されたウェブページと、画像などの付随するアセットを出力し、それをユーザーのブラウザにそのままレンダリングします。システムは、以下の3つの主要コンポーネントで構成されています。

  1. サーバーエンドポイントとツール: サーバーは、画像生成や検索といった重要なツールへのアクセスを可能にするエンドポイントを公開しています。これらのツールの結果は、モデルに提供されるか(品質向上)、または効率向上のためにユーザーのブラウザに直接送信されます。
  2. 細心の注意を払って作成されたシステム指示 (プロンプト): これは、生成結果の品質に大きく貢献します。これには、目標、計画と思考のガイドライン、例、そしてフォーマットガイドラインやツールエンドポイントマニュアルを含む大規模な技術的指示が含まれます。システム指示の「Core Philosophy(核となる哲学)」には、「常にインタラクティブなアプリケーションやコンポーネントを構築すること」や、「エンティティに関する事実確認には必ず検索ツールを使うこと」などが詳細に記載されています。
  3. ポストプロセッサのセット: これらは、残された一般的な問題に対処するための軽量なコンポーネントです。具体的には、クライアント側のエラー報告やページ分析を行う追加のポストプロセッサも含まれます。これらの処理には、APIキーの置き換え、JavaScriptやCSSのエラー修正、HTML属性内の文字のエスケープ処理などが含まれます。

2.1 Consistent Styling (一貫したスタイル設定)

 本システムでは、システム指示に小さな変更を加えることで、生成結果に特定のスタイル(色やフォントなど)を適用し、世代間の視覚的な一貫性を高めることが可能です。実験では、例えば「Classic」や「Wizard Green」といった詳細なスタイルをプロンプトで指定したところ、モデルは生成された画像やアイコンを含むすべての要素を自動的にそのスタイルに適応させました。

3 Results (結果)

 ユーザー選好度の評価は、人間の専門家が作成したウェブサイト、Google検索のトップ結果、テキスト、標準マークダウン出力、およびGenerative UIの5つの形式を比較して行われました。評価にはLMArenaからランダムにサンプリングされた100のプロンプトが使用され、人間評価者によるペアワイズ選好度比較(どちらを好むか)が収集されました。評価は生成時間を考慮せず、事前にキャッシュされた結果に対して行われました。

 LMArenaのプロンプトセットにおける結果(Table 1, Table 2)によると、Generative UIはELOスコア1710.7を獲得し、人間の専門家(1756.0)を除き、他のすべての形式に対して強力なユーザー選好度を示しました。特に、次に優れた方法であるマークダウンUIと比較した場合、Generative UIは82.8%の確率で好まれました。

3.1 Emergent Capability (創発的な能力)

 Generative UIの能力は、新しいモデルになるにつれて大幅に向上する創発的な能力であることが示されました。バックボーンモデル(LLM)の影響を比較した結果、最新のGemini 3モデルはELOスコア1706.7で最も高く、以前のモデル(例:Gemini 2.0 Flash-Lite)で発生していた高いエラー率(60%)が、Gemini 3では0%に劇的に低下しました。この結果は、最新かつ最も有能なモデルを使用することが、ユーザー選好度の増加と生成エラーの削減に不可欠であることを示しています。

3.2 Prompt Ablations (プロンプトの比較検証)

 プロンプト戦略が結果に与える影響も分析されました。画像検索・画像生成・有効なHTML出力の指示のみを含む最小限のプロンプトと、完全なプロンプトを比較した結果、評価者は完全なプロンプトで生成されたUIを有意に多く好みました。完全なプロンプトからコアとなる「哲学」や「対応する例」といった特定の部分を取り除くと、性能が低下することも確認されています。このことから、単なる技術的な指示だけでなく、詳細なガイドラインや設計哲学を伝えることが、高品質なUI生成に重要であることがわかります。

4 The PAGEN Dataset (PAGENデータセット)

 Generative UIの実装を明確かつ一貫して評価しやすくするために、PAGEN (Pages by Expert Humans for Generative UI Evaluation) と呼ばれる、人間の専門家が作成したウェブサイトのデータセットが構築・公開されました。

 データセットの作成にあたっては、高評価の独立したウェブ開発者がオンラインのフリーランスプラットフォーム(Upwork Global Inc.など)を通じて契約されました。このデータ収集方法が選択された理由は、特定のユーザープロンプトに対するウェブサイトの明確なペアリングを作成するため、時間と投資の一貫性を維持するため、ユーザー体験を最優先し(SEO最適化のような外部考慮事項を排除)、著作権のないコンテンツを確保するため、そして多様な請負業者からの品質を保証するためです。請負業者にはAIツールの使用も明示的に許可されていました。

5 Related Work (関連研究)

 Generative UIは、高レベルの記述からユーザーインターフェースを自動生成するという、HCIやソフトウェアエンジニアリングにおける長年の目標に基づいています。

  • UI Generation from Natural Language (自然言語からのUI生成): 初期の研究は、構造化入力や制約された言語に依存していましたが、深層学習の進展により、手書きのモックアップからコードを生成するアプローチも生まれました。本アプローチは、LLMに単一のプロンプトからデータ駆動型でインタラクティブなウェブアプリケーション全体を生成させる点で、既存研究と一線を画しています。
  • Large Language Models for Code Generation (コード生成のための大規模言語モデル): 本システムの基盤は、CodexやAlphaCode、Code LlamaといったLLMによるコード生成能力の進歩によって実現されています。これらのモデルは、通常、開発者のアシスタントとして使われますが、本研究では、完全なユーザー向け製品の自律的なエンドツーエンド生成という、異なる目的で活用されています。この能力は、最新のモデルの創発的な特性であると見られています。
  • Interaction Paradigms for AI (AIのための対話パラダイム): LLMとの標準的な対話UIは静的なマークダウンですが、LLMが事前定義されたウィジェットを呼び出して応答を豊かにする「テンプレート化されたUI (Templated UI)」という中間的なアプローチも存在します。本研究は、静的なマークダウンや制約されたテンプレートから脱却し、モデルがUI自体を生成することで、プロンプトの特定のニーズに合わせた特注で動的な体験(ゲーム、シミュレーター、カスタムデータ可視化など)を実現するパラダイムシフトを表しています。

6 Discussion (議論)

 本論文は、モデルがあらゆるプロンプトに対してカスタムの視覚的・インタラクティブなインターフェースを生成できるGenerative UIの新しい実装を提示しました。生成速度を無視した場合、標準のマークダウンUIと比較して、評価されたケースの83%でユーザーに圧倒的に好まれることが示されています。

 また、Generative UIが、最も有能な最新モデルの創発的な能力であることを改めて示しました。本実装は、ツールの使いやすい形での公開、詳細なシステム指示(プロンプト)、および一般的な問題を修正するためのポストプロセッサの組み合わせに依存しています。

 PAGENデータセットを公開することで、将来の研究による評価が容易になることが期待されます。人間の専門家が作成したページにはまだ及ばないものの、Generative UIの実装は44%のケースでその品質に匹敵することが示されています。

 制限事項と今後の方向性として、主要な制限の一つは、生成速度が遅いことです(しばしば1〜2分かかる)。生成結果をストリーミングすることで、この時間を約半分に短縮できますが、投機的デコーディング (speculative decoding) のような技術の最適化がさらなる改善をもたらす可能性があります。もう一つの重要な制限は、JavaScriptやCSS、HTMLのエラーなどが時折発生することです。

 Generative UIはまだ初期段階にあり、重要な制限が存在しますが、本論文の著者は、ユーザーが有限なアプリケーションライブラリから選ぶのではなく、ニーズに合わせて適切な「エフェメラル(一時的・はかない)」なインターフェースがその場で生成される、無限のカタログにアクセスできる未来に期待を寄せています。

まとめ

 本稿では、LLMの応用範囲を単なるコンテンツ生成からインタラクティブなUI生成へと拡張する、Generative UIの画期的な実装について詳細に解説しました。

 この研究の重要なポイントは、LLMが、検索や画像生成などの外部ツールを適切に利用し、詳細な設計哲学と技術的要件を含むプロンプトに従うことで、リッチで複雑なカスタムアプリケーションを自律的に構築できることを示した点にあります。特に、最新モデルでこの能力が明確に向上し、「創発的」に現れているという事実は、AI技術の進化がUXデザインやウェブ開発のあり方を根本的に変えうる可能性を秘めていることを示唆しています。

 Generative UIは、ユーザーの要求に対してその場限りの最適なデジタル体験を提供し、「無限のアプリケーションカタログ」を実現する第一歩です。今後、生成速度の向上やエラーの削減といった課題が解決されるにつれて、デジタル体験がよりパーソナライズされ、動的なものへと進化していくことが期待されます。

この記事が気に入ったら
フォローしてね!

  • URLをコピーしました!
  • URLをコピーしました!
目次