はじめに
本稿では、Google Developers Blogが2025年10月2日に発表した内容をもとに、Googleの最先端の画像生成・編集AIモデル「Gemini 2.5 Flash Image」の一般提供(GA: General Availability)開始について、追加された新機能や開発者向け情報を含めて詳しく解説します。
参考記事
- タイトル: Gemini 2.5 Flash Image now ready for production with new aspect ratios
- 発行元: Google Developers Blog
- 発行日: 2025年10月2日
- URL: https://developers.googleblog.com/ja/gemini-2-5-flash-image-now-ready-for-production-with-new-aspect-ratios/
要点
- Googleの画像生成・編集モデル「Gemini 2.5 Flash Image」が一般提供を開始し、本番環境での利用が可能になった。
- 新たに10種類のアスペクト比に対応し、横長の風景から縦長のSNS投稿まで、多様なフォーマットの画像を直接生成できるようになった。
- APIリクエスト時に、出力を画像のみに限定する指定が可能になり、アプリケーションへの組み込みがより容易になった。
- Gemini APIを通じてGoogle AI Studioやエンタープライズ向けのVertex AIから利用でき、具体的な料金体系も公開された。
- 開発者がすぐに利用を開始できるよう、Pythonのサンプルコードが提供されている。
詳細解説
「Gemini 2.5 Flash Image」とは
「Gemini 2.5 Flash Image」(別名: Nano Banana 🍌)は、Googleが開発した最先端の画像生成・編集AIモデルです。このモデルの主な特徴は以下の通りです。
- 複数の画像のシームレスな合成
- 物語性のあるコンテンツ制作のためのキャラクター一貫性の維持
- 自然言語の指示による、画像の特定部分の編集
- Geminiモデルが持つ広範な知識を活用した画像生成と修正
これらの機能により、単に画像を生成するだけでなく、より高度で意図に沿ったクリエイティブな作業を可能にします。
今回のアップデートの重要なポイント
今回の発表は、このモデルが「一般提供(GA)」されたことです。これは、これまでプレビュー版などで提供されてきた機能が、安定した正式なサービスとして、企業などが自社の製品やサービス(本番環境)に組み込めるようになったことを意味します。
それに伴い、以下の重要な新機能が追加されました。
1. 10種類のアスペクト比に対応
クリエイティブな活用の幅を広げるため、新たに対応アスペクト比が追加されました。これにより、用途に応じた画像を直接生成でき、後からトリミングする手間を省けます。
- ランドスケープ(横長): 21:9, 16:9, 4:3, 3:2
- スクエア(正方形): 1:1
- ポートレート(縦長): 9:16, 3:4, 2:3
- フレキシブル: 5:4, 4:5
2. 画像のみの出力指定が可能に
APIを介してモデルを利用する際、出力を画像のみに限定できるようになりました。これにより、開発者はモデルからの応答をシンプルに扱うことができ、アプリケーションへの統合がスムーズになります。
開発者向けの利用方法とサンプルコード
「Gemini 2.5 Flash Image」は、Gemini APIを通じて「Google AI Studio」や、エンタープライズ向けの「Vertex AI」から利用できます。
Googleは、開発者がすぐにこのモデルを試せるように、Pythonのサンプルコードを公開しています。以下にそのコードと解説を示します。
from google import genai
from google.genai import types
from PIL import Image
# クライアントを初期化
client = genai.Client()
# モデルに与えるプロンプト(指示文)
prompt = "この画像の被写体が1980年代に生きていたら、という設定で写真を作成してください。当時の特徴的なファッション、髪型、そして時代全体の雰囲気を捉えた写真にしてください。"
# 編集したい元の画像を読み込む
# '/path/to/image.png' の部分は実際のファイルパスに置き換えてください
image = Image.open('/path/to/image.png')
# モデルにリクエストを送信
response = client.models.generate_content(
model="gemini-2.5-flash-image", # 使用するモデルを指定
contents=[prompt, image], # プロンプトと画像を入力として渡す
config=types.GenerateContentConfig(
# 新機能:レスポンスを画像モダリティのみに限定
response_modalities=["IMAGE"],
image_config=types.ImageConfig(
# 新機能:画像のアスペクト比を16:9に指定
aspect_ratio="16:9",
)
)
)
# レスポンスから画像データを取得して表示
for part in response.parts:
if part.inline_data is not None:
generated_image = part.as_image()
generated_image.show()
このコードでは、response_modalities=[“IMAGE”]とaspect_ratio=”16:9″という部分で、今回追加された新機能を実際に利用しています。
料金体系
料金は以下の通りです。
- 画像生成: 1画像あたり $0.039
- トークン出力: 100万出力トークンあたり $30.00
その他の入出力(テキストなど)に関する料金は、標準のGemini 2.5 Flashモデルの料金体系に準じます。
まとめ
今回、「Gemini 2.5 Flash Image」が一般提供を開始したことで、開発者や企業は、この高性能な画像生成・編集機能を自社のサービスに本格的に組み込めるようになりました。特に、多様なアスペクト比への対応と画像のみの出力指定という新機能は、コンテンツ制作の柔軟性と開発効率を向上させるものです。公開されたサンプルコードやGoogle AI Studioを活用することで、誰でもすぐにその性能を試すことができます。