[AIツール利用者向け]OpenAI、画像編集の精度を大幅改善した「GPT Image 1.5」を発表

目次

はじめに

 OpenAIが2025年12月16日、新しい画像生成モデル「GPT Image 1.5」を搭載したChatGPT Imagesを公開しました。本稿では、この発表内容をもとに、画像編集機能の改善点、生成速度の向上、新しいユーザー体験について解説します。

参考記事

要点

  • GPT Image 1.5は、画像編集時に照明、構図、人物の外見といった重要な要素を保持しながら、指示通りの変更を実現する
  • 画像生成速度が従来比で最大4倍高速化され、複数の画像を同時に生成できる
  • テキストレンダリング能力が向上し、より密度の高い小さな文字を正確に描画できる
  • ChatGPT内に専用のImages機能が追加され、プリセットフィルターやトレンドプロンプトで創作を支援する
  • API経由でも利用可能で、画像入出力のコストが20%削減された

詳細解説

GPT Image 1.5の主要な改善点

 OpenAIによれば、GPT Image 1.5は同社の「最も優れた画像生成モデル」と位置づけられています。このモデルは、画像をゼロから作成する場合でも、既存の写真を編集する場合でも、ユーザーが想像している出力を実現することを目指して設計されました。

 主な改善点として、OpenAIは以下の3つを挙げています。

  • 細部まで正確な編集を行いながら重要なディテールを保持する能力
  • 生成速度の最大4倍の高速化
  • より自然で表現力豊かな変換を実現する

 画像生成AIの分野では、「編集時に元の画像の特徴をどれだけ保持できるか」が重要な技術課題とされてきました。GPT Image 1.5は、この課題に対して、照明条件や構図、人物の顔の特徴といった要素を維持しながら、ユーザーが指示した部分のみを変更する仕組みを実現したと考えられます。

精密な編集機能

 OpenAIの発表では、アップロードした画像に対して編集を依頼すると、モデルがユーザーの意図に忠実に従い、細部に至るまで正確な変更を行うとされています。重要なのは、変更を求めた部分のみを変更し、照明、構図、人物の外見といった要素を入力、出力、その後の編集を通じて一貫して保持する点です。

 この機能により、実用的な写真編集、より信憑性の高い服装や髪型の試着、スタイリスティックなフィルター、元の画像の本質を保持した概念的な変換など、ユーザーの意図に合致した結果が得られるとのことです。OpenAIは、これによってChatGPTが「ポケットの中のクリエイティブスタジオ」として機能し、実用的な編集と表現的な再構築の両方に対応できると説明しています。

 具体的な編集タイプとして、追加、削除、結合、ブレンド、転置といった操作が挙げられています。これらの操作を通じて、ユーザーが望む変更を実現しながら、画像を特別なものにしている要素を失わないように設計されています。

 従来の画像編集では、部分的な変更を加えると画像全体の整合性が崩れることが多く、特に照明条件や人物の特徴を維持することは技術的に困難でした。この改善により、より実用的な編集ワークフローが可能になったと言えます。

クリエイティブな変換機能

 OpenAIによれば、モデルのクリエイティビティは、テキストやレイアウトなどの要素を変更・追加する変換を通じて発揮され、重要なディテールを保持しながらアイデアを実現します。これらの変換は、シンプルな概念でも複雑な概念でも機能し、新しいChatGPT Images機能のプリセットスタイルやアイデアを使用することで、書面によるプロンプトなしで簡単に試すことができるとされています。

 発表された例では、2人の男性の写真を1950年代風のハリウッド映画ポスターに変換したり、人物を80年代風のフィットネスインストラクターのスタイルに変えたりする変換が示されています。これらの変換では、元の人物の特徴を保持しながら、時代感や雰囲気を大きく変更することが可能です。

 このような変換機能は、マーケティング素材の作成やソーシャルメディア投稿用の画像制作など、ビジュアルコンテンツの多様なバリエーションを迅速に生成する必要がある場面で有用と考えられます。

指示追従性能の向上

 OpenAIの発表では、モデルが初期バージョンよりも確実に指示に従うようになったとされています。これにより、より精密な編集と、要素間の関係が意図通りに保持された複雑なオリジナル構成の両方が可能になります。

 発表資料では、6×6のグリッドに特定のアイテム(ギリシャ文字のベータ、ビーチボール、レモン、ロボットなど)を配置する複雑な指示の例が示されています。新しいモデル(GPT Image 1.5)と従来モデル(GPT Image 1.0)の比較では、新モデルがより正確に指示に従っていることが確認できます。

 画像生成AIにおける「指示追従」は、プロンプトで指定した内容を正確に画像化する能力を指します。複雑な構成や複数の要素を含む指示に対して、どれだけ正確に応えられるかが、実用性を左右する重要な要素となります。

テキストレンダリング能力の向上

 OpenAIによれば、GPT Image 1.5はテキストレンダリングにおいて「さらに一歩前進」し、より密度が高く小さなテキストを扱えるようになったとされています。

 発表資料では、新聞記事形式でMarkdown形式のテキストをレイアウトする例が示されています。この例では、見出し、本文、データテーブルなど、複雑なテキストレイアウトを含む画像が生成されています。従来、画像生成AIにとってテキストの正確な描画は技術的な課題の一つでしたが、この改善により、インフォグラフィックやポスター、広告素材など、テキストを含むビジュアルコンテンツの作成がより実用的になったと考えられます。

 特に、小さく密度の高いテキストを正確に描画できることは、名刺、ポスター、広告バナーなど、詳細なテキスト情報を含む実用的なデザイン作業において重要な進歩と言えます。

新しいImages体験

 OpenAIは、ChatGPT内に画像生成専用のスペースを新設しました。これは、モバイルアプリとchatgpt.comのサイドバーから利用でき、画像の探索と試行を迅速かつ簡単にすることを目的としています。

 この新機能には、数十種類のプリセットフィルターとプロンプトが含まれており、これらは定期的に更新されて新しいトレンドを反映するとのことです。ユーザーは、これらのプリセットを使用することで、テキストでプロンプトを書かなくても、すぐに画像生成を開始できます。

 このような専用スペースの提供は、画像生成をより日常的なツールとして使いやすくする取り組みと考えられます。プリセットの提供により、プロンプトエンジニアリングの知識がないユーザーでも、すぐに高品質な画像生成を試すことができる点は、ツールの敷居を下げる効果があると思います。

APIでの提供と価格改善

 GPT Image 1.5は、APIを通じても利用可能です。OpenAIの発表によれば、APIバージョンはChatGPT Imagesと同じ改善を提供し、GPT Image 1.0よりも画像の保持と編集において優れた性能を発揮します。

 特に注目すべき点として、ブランドロゴや重要なビジュアルの保持が向上しており、マーケティングやブランド作業(グラフィックやロゴの作成)、eコマースチームが単一の元画像から完全な製品画像カタログ(バリエーション、シーン、角度)を生成する用途に適しているとされています。

 価格面では、基本的にGPT Image 1.5の画像入出力コストがGPT Image 1.0と比較して20%削減されました。OpenAIによれば、これにより同じ予算でより多くの画像を生成し、反復作業を行えるとのことです。

※Image tokens

ModelInputCached InputOutput
gpt-image-1.5$8.00$2.00$32.00
chatgpt-image-latest$8.00$2.00$32.00
gpt-image-1$10.00$2.50$40.00
gpt-image-1-mini$2.50$0.25$8.00
gpt-realtime$5.00$0.50
gpt-realtime-mini$0.80$0.08

 コスト削減と性能向上の両立は、商用利用において重要な要素です。特にeコマースやマーケティングなど、大量の画像生成が必要な分野では、この価格改善が導入の障壁を下げる効果があると考えられます。

 既にWix、Canva、Higgsfield、Figma、Envatoといった企業がGPT Image 1.5を使用しているとのことです。Wixの事例では、「GPT Image 1.5は、強力なプロンプト追従性を持ち、構図、照明、細かなディテールを保持した高忠実度の画像を生成する」と評価されています。

改善点と制限事項

 OpenAIは、初期の画像生成モデルのローンチ時の多くの例を再実行して性能を評価しました。その結果、モデルは幅広いケースで明確な改善を示したものの、結果は依然として完璧ではないとされています。

 発表資料では、「深海生物のポスター」の例が示されており、新モデルでは科学的な不正確さがまだ約30%残っているものの、グラフィックがより鮮明になり、早期のクロッピング(切り取り)が回避されているとのことです。

 OpenAIは、「このリリースは意味のある進歩を表しているが、今後のイテレーションには依然として大きな改善の余地がある」と述べています。この誠実な制限事項の提示は、技術の現状を正確に理解する上で重要な情報と言えます。

まとめ

 OpenAIが公開したGPT Image 1.5は、画像編集時の精度向上、生成速度の4倍高速化、テキストレンダリング能力の改善など、複数の面で進化を遂げました。ChatGPT内の専用Images機能とAPI提供により、個人ユーザーから企業まで幅広い利用が可能になっています。ただし、OpenAI自身が認めるように、まだ改善の余地があり、今後のアップデートに注目が集まります。

この記事が気に入ったら
フォローしてね!

  • URLをコピーしました!
  • URLをコピーしました!
目次