はじめに
本稿では、AIを活用したアプリケーション開発を支援するプラットフォーム「GitHub」が発表した、AI開発ツールに関する重要なアップデートについて、2025年6月18日にGitHubの公式ブログで公開された「Use multiple custom variables in AI evaluations tooling」をもとに、解説します。AIの品質を担保する「評価」というプロセスが、今回のアップデートによってどのように進化し、開発者にとってどのようなメリットがあるのかを、前提知識から丁寧に掘り下げていきます。
引用元記事
- タイトル: Use multiple custom variables in AI evaluations tooling
- 発行元: GitHub
- 発行日: 2025年6月18日
- URL: https://github.blog/changelog/2025-06-18-use-multiple-custom-variables-in-ai-evaluations-tooling/
要点
- GitHubのAI評価ツールが、これまで {{input}} という単一の変数しか扱えなかった制限を撤廃し、任意の名前を持つ複数のカスタム変数(例:{{city}}, {{tone}})をサポートするようになった。
- この機能強化により、旅行プランナーやEメール作成アシスタントなど、複数の条件を組み合わせる現実世界の複雑なユースケースに即したAIのテスト(評価)が、より簡単かつ正確に実施できるようになった。
- AIの出力品質を開発サイクルの早い段階で検証できるようになり、より信頼性の高いAIアプリケーションの構築が可能になる。
詳細解説
そもそも「AIの評価」とは何か?
AIアプリケーションを開発する上で、「AIの評価」は非常に重要なプロセスです。これは、私たちが作ったAIが、期待通りに、そして意図した通りに動作するかを確認するためのテストを指します。Github の公式ブログでは、これを「AIの出力に対する単体テスト(unit tests for AI outputs)」と表現しています。
通常のソフトウェア開発では、プログラムの各部品が正しく機能するかを確かめるために「単体テスト」を行いますが、AIの評価もそれに似ています。例えば、ユーザーからの質問に対して不適切な回答をしたり、事実と異なる情報(ハルシネーション)を生成したりしないか、あらかじめ様々なパターンでテストしておくことで、AIの品質と信頼性を高めることができます。この評価プロセスを丁寧に行うことが、安全で便利なAIサービスを提供する上で不可欠です。
これまでの課題:単一変数 {{input}} の限界
GitHubが提供するAI評価ツールでは、プロンプト(AIへの指示文)に「変数」を埋め込むことで、様々なパターンのテストを効率的に行うことができます。変数とは、テスト実行時に具体的な値に置き換えられる、{{ }} で囲まれたプレースホルダーのことです。
しかし、これまでのツールには大きな制約がありました。それは、{{input}} という名前の変数を一つしか使えなかったことです。
例えば、「日本の首都について教えて」という単純な質問をテストするだけなら、{{input}} に「日本の首都」というテキストを入れて実行すれば問題ありませんでした。しかし、もっと複雑な条件、例えば「{{都市}}で、{{予算}}円以内で楽しめる{{食事のジャンル}}を教えて」といった、複数の情報を組み合わせたいプロンプトをテストしようとすると、この制約が壁となっていました。これでは、現実世界で使われるような複雑なAIの動作を十分にテストすることが難しかったのです。
今回のアップデート:複数カスタム変数でテストが劇的に柔軟に
今回のアップデートは、この根本的な制約を取り払うものです。具体的には、以下の2点が大きく変わりました。
- {{ }} で囲めば、どんな名前の変数でも認識されるようになった。
- プロンプト内で、複数の変数を同時に使用できるようになった。
この変更により、先ほどの例のような「{{都市}}で、{{予算}}円以内で楽しめる{{食事のジャンル}}を教えて」というプロンプトも、そのまま評価ツールでテストできるようになりました。
ブログでは、このアップデートによって効果的にテストできるようになったプロンプトの例として、以下を挙げています。
- 旅行・買い物アシスタント: {{city}}(都市)、{{intent}}(意図)、{{budget}}(予算)を組み合わせて、ユーザーに合わせた推薦をテストする。
- Eメール・コンテンツ生成: {{tone}}(文調)、{{audience}}(読者層)、{{length}}(長さ)を指定し、ブランドイメージに沿った文章が生成されるかを確認する。
- ゲームの対話エンジン: {{character_trait}}(キャラクターの特性)、{{quest_stage}}(クエストの進行度)、{{player_choice}}(プレイヤーの選択)に応じて、動的な会話が生まれるかを検証する。
このように、複数の条件を動的に変えながらAIの応答をテストできるようになったことで、開発者はより現実に即した、信頼性の高い評価を行うことが可能になりました。
4. 評価の具体的な方法
この新しい機能を利用する方法は、主に2つあります。
- 比較ビュー(Comparison View)を使う:
GitHubのUI上で、複数の変数を埋め込んだプロンプトを貼り付けると、各変数に設定する値を入力する欄が表示されます。そこにテストしたい値を入力して、手軽に評価を実行できます。 - 設定ファイル(.prompt.yml)を使う:
より体系的・自動的に評価を行いたい場合、.prompt.yml という設定ファイルにプロンプトと変数を記述します。これにより、評価プロセスをコードとして管理でき、チーム内での共有や、開発プロセスへの組み込みが容易になります。
まとめ
本稿では、GitHubのAI評価ツールが複数のカスタム変数をサポートするようになったアップデートについて解説しました。
この一見地味に見える変更は、AI開発の現場に大きなインパクトを与える可能性があります。これまでテストが難しかった、複数の条件が絡み合う複雑なAIの挙動を、開発の初期段階で簡単かつ正確に検証できるようになったからです。これは、AIアプリケーション全体の品質と信頼性を大きく向上させることに繋がります。