[開発者向け]Google「Gemini 3 Pro Preview」をオープンソースフレームワークと統合する方法

目次

はじめに

 Googleが2025年11月19日、AIエージェント開発に特化した新モデル「Gemini 3 Pro Preview」を発表しました。本稿では、Google Developers Blogの発表記事と公式ドキュメントをもとに、Gemini 3の主要機能、オープンソースフレームワークとの統合、実装時の注意点について解説します。

参考記事

メイン記事:

関連情報:

要点

  • Gemini 3 Pro Previewは、複雑な意思決定を行う高度なAIエージェント開発のために設計された推論特化型モデルである
  • thinking_levelパラメータにより推論の深さを制御でき、Thought Signaturesにより複数ステップにわたる推論の一貫性を維持できる
  • LangChain、AI SDK by Vercel、LlamaIndex、Pydantic AI、n8nなど主要なオープンソースフレームワークが初日からサポートを表明している
  • 100万トークンの入力コンテキストウィンドウと最大64,000トークンの出力に対応し、知識カットオフは2025年1月である
  • 従来のプロンプトエンジニアリング手法を簡略化し、temperatureパラメータはデフォルトの1.0を維持することが推奨される

詳細解説

Gemini 3 Pro Previewの位置づけ

 Googleによれば、Gemini 3 Pro Previewは「これまでで最も強力なエージェント用モデル」として位置づけられ、高度なワークフローの中核的なオーケストレーターとして機能するよう設計されています。このモデルは、単純なチャットボットから、現実世界で複雑な意思決定を行う半自律的システムへとAIエージェントが進化する流れの中で開発されました。

 Gemini 3は「最先端の推論能力を基盤に構築された最も知的なモデルファミリー」と説明されており、エージェント型ワークフロー、自律的なコーディング、複雑なマルチモーダルタスクをマスターすることを目的としています。

 コンテキストウィンドウは入力100万トークン、出力最大64,000トークンに対応し、知識カットオフは2025年1月です。料金体系は、20万トークン未満で入力2ドル/出力12ドル、20万トークン以上で入力4ドル/出力18ドル(いずれも100万トークンあたり)となっています。

thinking_level:推論の深さを制御する新パラメータ

 Gemini 3の主要な特徴の一つが、thinking_levelパラメータです。Googleによれば、このパラメータはモデルの内部推論プロセスの最大深度を制御し、コスト、レイテンシ、推論の深さに対する細かな制御を開発者に提供します。

 公式ドキュメントでは、thinking_levelに設定できる値として以下が示されています:

  • low: レイテンシとコストを最小化。シンプルな指示追従、チャット、高スループットアプリケーションに最適
  • medium: ローンチ時点では未対応
  • high(デフォルト): 推論の深さを最大化。最初のトークン生成まで時間がかかる可能性があるが、より慎重に推論された出力を生成

 thinking_levelをhighに設定すると、深い計画立案、バグ発見、複雑な指示追従に適した処理が行われます。一方、lowに設定すると、Gemini 2.5 Flashに匹敵するレイテンシで、より優れた出力品質を実現できます。

 この仕組みは、従来のChain of Thoughtのような複雑なプロンプトエンジニアリング手法を不要にする可能性があります。モデル自体が推論の深さを調整できるため、開発者はより簡潔なプロンプトで同等以上の結果を得られると考えられます。

Thought Signatures:推論の一貫性を保つ仕組み

 Gemini 3のもう一つの重要な機能が、Thought Signaturesです。Googleによれば、これはモデルがツールを呼び出す前に生成する内部推論を表す暗号化された署名で、この署名を会話履歴に戻すことで、エージェントが正確な思考の流れを保持し、コンテキストを失うことなく信頼性の高い複数ステップの実行を確保できます。

 公式ドキュメントでは、Thought Signaturesの扱いについて以下のルールが示されています:

Function Calling(厳格な検証): モデルがfunctionCallを生成する際、thoughtSignatureに依存して次のターンでツールの出力を正しく処理します。署名が欠落している場合、APIエラー(400)が返されます。

テキスト/チャット(検証なし): 標準的なチャットやテキスト生成では、署名の存在は保証されません。ただし、署名が返された場合は送り返すことで最高のパフォーマンスを維持できます。

 複数ステップの処理が必要な場合、すべての蓄積された署名を履歴に含める必要があります。例えば、フライトをチェックしてからタクシーを予約する2段階のタスクでは、両方のfunctionCallの署名を保持し、順番通りに返す必要があります。

 公式SDKを使用している場合、Thought Signaturesは自動的に処理されるため、開発者が手動で管理する必要はありません。これにより、複雑なエージェント型ワークフローの実装が大幅に簡素化されると言えるでしょう。

media_resolution:マルチモーダル処理の最適化

 Gemini 3では、media_resolutionという新しいパラメータが導入されました。公式ドキュメントによれば、このパラメータは画像や動画フレームごとに割り当てられる最大トークン数を決定し、解像度が高いほど細かいテキストの読み取りや小さな詳細の識別能力が向上しますが、トークン使用量とレイテンシも増加します。

 推奨設定は以下の通りです:

  • 画像: media_resolution_high(最大1,120トークン)を推奨。ほとんどの画像分析タスクで最大品質を確保
  • PDF: media_resolution_medium(最大560トークン)を推奨。標準的な文書ではmediumで品質が飽和し、highに上げてもOCR結果が改善されることは稀
  • 動画(一般): media_resolution_low(フレームあたり70トークン)を推奨。アクション認識や説明タスクには十分
  • 動画(テキスト密度が高い): media_resolution_high(フレームあたり280トークン)が必要。動画フレーム内の密なテキスト読み取りや小さな詳細が必要な場合のみ

 注目すべき点として、動画の場合はlowとmediumが同じ70トークンに設定されており、コンテキスト使用量を最適化するための措置が取られています。この設定により、用途に応じてトークン消費量を細かく制御できるため、コスト最適化が可能になります。

オープンソースエコシステムの初日サポート

 Googleは、オープンソースコミュニティと密接に連携し、主要なフレームワークがGemini 3を初日からサポートできるよう取り組みました。

LangChain: LangChainのHarrison Chase氏は、「新しいGeminiモデルは、複雑なエージェント型ワークフロー、特に高度な推論とツール使用を必要とする人にとって大きな前進です」とコメントしています。LangGraphを使用することで、グラフとしてワークフローを表現し、ステートフルなマルチアクターAIエージェントを構築できます。

AI SDK by Vercel: VercelのAparna Sinha氏によれば、内部ベンチマークでGemini 3 Proは推論とコード生成で大幅な改善を示し、Gemini 2.5 Proと比較して成功率が約17%向上し、Next.jsリーダーボードでトップ2に入りました。

LlamaIndex: LlamaIndexのJerry Liu氏は、「早期アクセステストで、Gemini 3 Proは複雑なツール呼び出しとコンテキスト維持において前世代を上回る性能を示しました」と述べています。LlamaIndexは、データに接続されたナレッジエージェントを構築するための専門フレームワークです。

Pydantic AI: Pydantic AIのDouwe Maan氏は、「Gemini 3の高度な推論とPydantic AIの型安全性を組み合わせることで、本番環境のエージェントに必要な信頼性が得られます」とコメントしています。型安全性により、エージェントワークフローが予測可能で型的に正しいデータを生成することが保証されます。

n8n: n8nのAngel Menendez氏は、「Gemini 3は、ソフトウェアエンジニアだけでなく、すべての人に高度な推論の力をもたらします」と述べています。n8nは、技術者と非技術者の両方がコードを書かずにAIエージェントを構築できるワークフロー自動化プラットフォームです。

 これらのフレームワークが初日からサポートを表明していることは、開発者エコシステムにおけるGemini 3の受け入れ態勢が整っていることを示しています。

実装時のベストプラクティスと注意点

 Googleは、Gemini 3への移行を成功させるためのガイドラインを提示しています:

プロンプトの簡素化: 複雑な「Chain of Thought」プロンプトエンジニアリングを使用する必要はありません。thinking_levelパラメータに推論の深さの処理を任せ、プロンプトは簡潔にすることが推奨されます。

Temperature設定: 公式ドキュメントでは、temperatureパラメータをデフォルト値の1.0に保つことを強く推奨しています。以前のモデルでは創造性と決定性のバランスを取るためにtemperatureの調整が有効でしたが、Gemini 3の推論能力はデフォルト設定で最適化されています。temperatureを1.0未満に設定すると、特に複雑な数学や推論タスクでループや性能低下などの予期しない動作が発生する可能性があります。

Thought Signaturesの処理: Function Callingでは必須、テキスト/チャットでは推奨される扱いとなります。公式SDKを使用している場合は自動処理されますが、カスタム実装では適切に処理する必要があります。

ビジュアルトークンの最適化: PDFにはmedia_resolution_mediumを設定し(ここで品質が飽和してトークンを節約)、画像の密な詳細にのみhighを予約することが推奨されます。

移行時の注意点: Gemini 2.5からの移行では、PDFのデフォルトOCR解像度が変更されているため、密な文書解析に依存していた場合は新しいmedia_resolution_high設定をテストする必要があります。また、Gemini 3 Proのデフォルトに移行すると、PDFでトークン使用量が増加する可能性がありますが、動画では減少する可能性があります。

 なお、画像セグメンテーション機能(オブジェクトのピクセルレベルマスクを返す)はGemini 3 Proではサポートされていないため、この機能が必要なワークロードではGemini 2.5 Flashまたは別のモデルの使用を検討する必要があります。

その他の技術的特徴

 公式ドキュメントでは、Gemini 3が以下のツールをサポートしていることが明記されています:

  • Google Search(検索グラウンディング)
  • File Search
  • Code Execution
  • URL Context
  • Function Calling(カスタムツール用)

 Google MapsとComputer Useは現時点ではサポートされていません。

 また、Structured Outputsを組み込みツールと組み合わせて使用できることも示されています。これにより、Google SearchやURL Contextなどのツールを使いながら、構造化されたJSON形式で結果を取得することが可能です。

 Batch APIとContext Cachingもサポートされており、Context Cachingを開始するために必要な最小トークン数は2,048トークンです。これらの機能により、大規模なバッチ処理やコスト効率の高い実装が可能になります。

 プロンプティングのベストプラクティスとして、公式ドキュメントでは以下が推奨されています:

  • 簡潔な指示: Gemini 3は直接的で明確な指示に最もよく反応します。古いモデル用に使用されていた冗長または過度に複雑なプロンプトエンジニアリング手法は過剰分析を招く可能性があります
  • 出力の冗長性: デフォルトでGemini 3は冗長性が低く、直接的で効率的な回答を好みます。より会話的または「おしゃべりな」ペルソナが必要な場合は、プロンプトで明示的に指示する必要があります
  • コンテキスト管理: 大規模なデータセット(書籍全体、コードベース、長い動画など)を扱う場合、データコンテキストの後に、最後に具体的な指示や質問を配置することが推奨されます

まとめ

 Gemini 3 Pro Previewは、推論の深さを制御するthinking_level、複数ステップの一貫性を維持するThought Signatures、メディア処理を最適化するmedia_resolutionという3つの主要機能を備えています。主要なオープンソースフレームワークが初日からサポートを表明しており、開発者エコシステムの準備も整っています。temperatureは1.0を維持し、プロンプトは簡潔にするなど、従来とは異なる実装アプローチが推奨されている点に注意が必要です。

この記事が気に入ったら
フォローしてね!

  • URLをコピーしました!
  • URLをコピーしました!
目次