[開発者向け]Gemini APIの新機能!URLを指定するだけでPDFや画像も読み込める「URLコンテキストツール」

目次

はじめに

 本稿では、Google Developers Blogで公開された記事「URL context tool for Gemini API now generally available」を基に、Gemini APIの新しいツールである「URLコンテキストツール」について、解説します。このツールは、AIアプリケーション開発において、外部の情報をより手軽かつ強力に活用するためのものです。

参考記事

要点

  • Gemini APIの「URLコンテキストツール」が、本番環境で利用可能な正式版としてリリースされた。
  • このツールにより、開発者はプロンプト内でURLを指定するだけで、ウェブページ、PDF、画像といった多様なコンテンツを直接モデルのコンテキスト(文脈)として与えることが可能である。
  • 従来の手動でのファイルアップロードが不要となり、開発プロセスが大幅に簡略化される。
  • 料金体系は、追加された入力トークン量に応じて、使用するGeminiモデルの標準レートで課金される仕組みであり、コスト管理が容易である。
  • これにより、より文脈に即した正確で強力な生成AIアプリケーションの開発が促進される。

詳細解説

URLコンテキストツールとは?

 通常、Geminiのような大規模言語モデルは、特定の時点までのデータで学習された静的な知識しか持っておらず、直接インターネットにアクセスして最新情報を取得することはできません。

 この課題を解決するため、Googleはこれまでも「Google検索によるグラウンディング」という、モデルをWebに接続してリアルタイムの情報を参照させる機能を提供してきました。これは広範囲の情報を「発見」するのに適しています。

 今回正式版となったURLコンテキストツールは、このグラウンディングをさらに一歩進めるものです。検索結果の要約(スニペット)だけでなく、指定されたURLのウェブページ全体のコンテンツをモデルが深く読み込み、内容を理解して推論することを可能にします。

 つまり、「Google検索で関連情報を発見し、URLコンテキストツールでその詳細を分析する」という強力な組み合わせが、より高度で複雑なタスクを実行するAIエージェントなどの開発基盤となるのです。

サポートされるコンテンツが大幅に拡大

 今回の正式リリースに伴い、URLコンテキストツールが扱えるコンテンツの種類が大幅に増え、多様な用途に対応できるようになりました。

  • PDFのサポート
     これまで難しかったPDFファイルへの直接リンクに対応しました。特筆すべきは、単にテキストを抽出するだけでなく、PDF内の表や文書全体の構造まで理解できる点です。これにより、研究論文、業務レポート、マニュアルなどの内容をAIが正確に把握し、分析や要約に活用できます。
  • 画像のサポート
     PNG、JPEG、BMP、WebPといった主要な画像形式の処理・分析が可能になりました。これはGeminiのマルチモーダル(複数の種類の情報を同時に扱う能力)を活用するもので、グラフや図表、設計図などの視覚情報をAIが理解し、プロンプトの文脈に含めることができます。
  • ウェブおよびデータファイル
     従来のHTML(ウェブページ)、JSON、XML、CSV(構造化データ)、プレーンテキスト、CSS、JavaScriptなどにも引き続き対応しています。

本番環境でのスケーラブルな利用

 URLコンテキストツールは、大規模な商用アプリケーションでも安心して利用できるよう、本番環境に対応した仕様になっています。

  • レート制限: APIの利用上限は、選択したGeminiモデル(例: gemini-1.5-flash)のレート制限に基づきます。これにより、大規模なトラフィックにも対応可能です。
  • 料金体系: 料金は非常にシンプルです。URLから読み込まれてコンテキストに追加された入力トークンの量に対して、使用しているモデルの標準的なトークン単価で課金されます。これにより、コストが明確で予測しやすくなっています。

具体的なユースケース

 このツールを活用することで、以下のようなAIアプリケーションの開発が考えられます。

  1. 顧客対応のパーソナライズ:
    顧客のウェブサイトや製品マニュアルのURLをAIチャットボットに読み込ませることで、常に最新かつ正確な情報に基づいた問い合わせ対応が可能になります。
  2. 複数ドキュメントの比較・分析:
    複数のレポート、記事、論文のPDFリンクを渡すことで、それらの内容の違いを比較したり、共通の傾向を分析したりすることができます。
  3. コンテンツの統合と新規作成:
    いくつかの情報源となるURLを基に、内容を正確に統合・要約し、新しいブログ記事やレポートを自動生成させることができます。
  4. コードと技術ドキュメントの分析:
    GitHubのリポジトリや技術ドキュメントのURLを指定し、コードの解説、セットアップ手順の生成、技術的な質問への回答などを自動化できます。

実際に利用するためのコード例

 実際にPythonでURLコンテキストツールを利用するのは非常に簡単です。以下に公式ブログで紹介されているコード例を示します。

from google import genai
from google.genai.types import Tool, GenerateContentConfig

# クライアントを初期化
client = genai.Client()

# 使用するモデルを指定
model_id = "gemini-2.5-flash" 

# ここでURLコンテキストツールを有効化
tools = [
    {"url_context": {}},
]

# プロンプト内に直接URLを記述してAPIを呼び出す
response = client.models.generate_content(
    model=model_id,
    contents="What are the top 3 recent announcements from the Gemini API according to https://ai.google.dev/gemini-api/docs/changelog",
    config=GenerateContentConfig(
        tools=tools,
    )
)

# 結果を出力
for each in response.candidates[0].content.parts:
    print(each.text)

 このコードの重要なポイントは、toolsの定義で{“url_context”: {}}と指定するだけでツールが有効になる点と、contents(プロンプト)の中に分析したいURLを自然な文章の一部として含めるだけで良い点です。これにより、指定されたURL(この場合はGemini APIの変更履歴ページ)の内容をモデルが読み込み、最新の発表トップ3を回答してくれます。

まとめ

 今回正式版となったURLコンテキストツールは、Gemini APIの能力を飛躍的に向上させる重要な機能です。開発者は、URLを指定するというシンプルな方法で、ウェブ上の多様な情報をAIの思考の材料として与えることができるようになりました。これにより、手動でのデータ準備の手間が省けるだけでなく、より文脈に忠実で、正確性の高いAIアプリケーションを迅速に開発することが可能になります。本番環境にも対応しているため、小規模なプロトタイプから大規模なサービスまで、幅広いシーンでの活用が期待されます。ぜひ、この新しいツールを使って、次世代のAIアプリケーション開発に挑戦してみてください。

この記事が気に入ったら
フォローしてね!

  • URLをコピーしました!
  • URLをコピーしました!
目次