はじめに
本稿では、中国のテクノロジー企業ByteDanceの研究チーム「ByteDance-Seed」が発表した、最新のオープンソース・マルチモーダルAIモデル「BAGEL」について解説します。 BAGELは、テキストと画像を統合的に理解し生成する能力において、既存のオープンソースモデルを凌駕し、一部の商用最先端モデルに匹敵する可能性を秘めた、注目すべきAIです。
引用元記事
- タイトル: BAGEL • Unified Model for Multimodal Understanding and Generation
- 発行元: ByteDance (ByteDance-Seed)
- 発行日: 2025年5月20日
- URL:
- 公式ウェブサイト: https://bagel-ai.org/
- Hugging Face: https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
- GitHub: https://github.com/ByteDance-Seed/Bagel
- 論文 (arXiv): https://arxiv.org/abs/2505.14683
要点
- BAGELは、70億の活性パラメータ(総計140億)を持つオープンソースのマルチモーダル基盤モデルである。
- テキスト、画像、動画、ウェブデータを含む大規模なインターリーブド(交互配置)マルチモーダルデータで学習されている。 これにより、テキストと画像が混在する複雑な情報を自然に扱うことができる。
- アーキテクチャにはMixture-of-Transformer-Experts (MoT) を採用し、モデルの処理能力と学習効率を最大化している。
- 画像理解タスクにおいて、既存の主要なオープンソースVLM(Visual Language Model:視覚言語モデル)を上回る性能を示し、テキストからの画像生成においては、SD3(Stable Diffusion 3)のような専門的な画像生成モデルに匹敵する品質を実現する。
- 従来の画像編集機能に加え、より自由度の高いフリーフォームの視覚操作、複数の視点からの画像を合成するマルチビュー合成、さらには画像内の空間を移動するかのようなワールドナビゲーションといった、高度な「ワールドモデリング」タスクに対応する能力を持つ。
- BAGELは、プロンプト(指示)に基づいて応答を生成する際に、内部で「考える」プロセス(マルチモーダルChain-of-Thought)を実行し、より詳細で文脈に即した、一貫性のある出力を目指す。
- ライセンスはApache 2.0であり、研究者や開発者は比較的自由にファインチューニングや再配布を行うことが可能である。
詳細解説
BAGELとは何か?
BAGELは、ByteDance社によって開発された、テキストと画像という異なる種類の情報(モダリティ)を人間のように統合的に理解し、それに基づいて新たな情報を生成することができる、最先端のマルチモーダルAIモデルです。 「マルチモーダル」とは、複数の情報源を扱えるという意味で、BAGELの場合は特に視覚情報と言語情報の連携に優れています。
このモデルの大きな特徴の一つは、オープンソースとして公開されている点です。 これにより、世界中の研究者や開発者が自由にBAGELを利用し、改良を加えたり、特定の目的に合わせて調整(ファインチューニング)したり、さらにはそれを再配布したりすることが可能になります。
BAGELは、70億の活性パラメータ(モデルの複雑さや能力を示す指標の一つで、計算に関与する部分)を持ち、全体では140億のパラメータを有する大規模なモデルです。 開発目標として、OpenAIのGPT-4oやGoogleのGeminiといった、現在最も進んでいるとされる商用AIモデルに匹敵する機能を提供することが掲げられています。
BAGELの技術的な特徴
BAGELが持つ高い性能は、いくつかの革新的な技術的要素によって支えられています。
アーキテクチャ: Mixture-of-Transformer-Experts (MoT)
BAGELは、その頭脳部分の構造に「Mixture-of-Transformer-Experts (MoT)」と呼ばれるアーキテクチャを採用しています。 これは、AIの分野で広く使われている「Transformer(トランスフォーマー)」という基本構造を複数組み合わせ、それぞれを特定の専門知識を持つ「エキスパート」として機能させるものです。入力された情報に応じて、最適なエキスパートが処理を担当したり、複数のエキスパートが協調して動作したりすることで、モデル全体の処理能力と効率を高めています。 このMoT構造により、BAGELは非常に多様で複雑なマルチモーダル情報を効率的に学習し、処理することができます。
学習パラダイム: Next Group of Token Prediction
BAGELの学習方法の核となるのが、「Next Group of Token Prediction(次のトークングループ予測)」という考え方です。 「トークン」とは、AIが情報を処理する際の最小単位のことで、テキストの場合は単語や文字の一部、画像の場合は画像の一部領域などに相当します。従来の言語モデルが「次に来る単語(トークン)」を予測することで言語能力を獲得するのと同様に、BAGELはテキストと画像が混在したデータ列において、「次に来るテキストのまとまり、あるいは画像」を予測するように学習します。 これにより、テキストの流れを理解するだけでなく、視覚的な情報を生成したり、テキストと画像の関係性を深く理解したりする能力を養います。
デュアル画像エンコーダ
人間が物を見る時、細部と全体像の両方を捉えるように、BAGELも画像の情報をより豊かに、かつ多角的に理解するために、2種類の画像エンコーダ(情報を符号化する仕組み)を利用しています。 一つは、画像のピクセルレベルの細かな特徴を捉えるためのエンコーダ、もう一つは、画像全体の意味的な、より高次の特徴を捉えるためのエンコーダです。 これら2つのエンコーダからの情報を組み合わせることで、生成される画像の細部のリアリティと、画像全体の意味的な整合性の両方を高めることを目指しています。
大規模インターリーブドデータによる学習
BAGELの強力なマルチモーダル能力は、その学習に用いられるデータの質と量に大きく依存しています。BAGELは、テキストと画像(あるいは動画フレーム)が交互に配置された「インターリーブドデータ」と呼ばれる形式の、数兆トークン規模という膨大なデータセットで事前学習されています。 このデータには、一般的なテキスト文書や画像だけでなく、動画データやウェブページの情報も含まれており、これによりBAGELは、より複雑な文脈や状況を理解し、多様なコンテンツを生成する能力を獲得しています。 インターリーブドデータで学習することにより、モデルはテキストと視覚情報の間の関連性をより自然な形で学ぶことができます。
創発特性 (Emerging Properties)
興味深いことに、BAGELのような大規模モデルでは、学習データやモデルの規模を大きくしていくと、単に既存の能力の性能が向上するだけでなく、予期していなかった新しい能力が「創発」することが観測されています。 BAGELの場合、基本的なマルチモーダルな理解能力(例:画像を見て何が写っているか答える)や生成能力(例:簡単な指示で画像を生成する)は、学習の比較的早い段階で現れます。 一方で、より複雑で知的な編集能力(例:画像の内容を理解した上で、高度な指示に従って修正する)や、高度な推論能力は、学習がさらに進んだ段階で現れてくる傾向があります。 この段階的な能力の出現は、基礎的なスキルが十分に形成された上で、それらが組み合わさることによって、より高度な知性が生まれるという、創発的なパターンを示唆していると考えられます。
BAGELで何ができるのか?
BAGELは、その高度な技術的背景を基に、多岐にわたる機能を提供します。
マルチモーダル理解 (Visual Understanding)
BAGELは、提示された画像の内容を深く理解し、それに関する質問に答えたり、詳細な説明文を生成したりすることができます。 例えば、ある絵画の画像を見せて「この絵について教えて」と尋ねると、作者や時代背景、描かれている内容などを説明してくれます。 性能評価のための標準的なベンチマークテスト(MME、MMBench、MMMUなど)においても、既存の強力なオープンソースVLMであるQwen2.5-VLなどを上回るスコアを記録しています。
テキストからの画像生成 (Text-to-Image Generation)
ユーザーが入力したテキストによる指示(プロンプト)に基づいて、高品質でフォトリアリスティックな画像を生成することができます。 例えば、「古い薬局に置かれた3つのアンティークなガラス製魔法のポーション。1つ目は青でラベルは”SDXL”、2つ目は赤でラベルは”BAGEL”、3つ目は緑でラベルは”FLUX”」といった具体的な指示から、その通りの画像を生成します。 その生成品質は、画像生成に特化した強力なモデルであるStable Diffusion 3 (SD3) Medium や FLUX-1-dev と比較しても遜色ないか、一部の評価ではそれを上回ると報告されています。
「考える」機能 (Thinking / Multimodal Chain-of-Thought)
BAGELの特筆すべき機能の一つに、「考える」モードがあります。 これは、ユーザーからのプロンプトに対してすぐに出力を返すのではなく、モデルが内部的にマルチモーダルな「思考の連鎖(Chain-of-Thought)」を実行し、プロンプトの意図をより深く解釈し、生成する内容を計画するものです。 例えば、「小さな車でできた車」というような抽象的で短いプロンプトが与えられた場合、BAGELはまず「多数の小さな車が組み合わさって大きな車の形と構造を形成する画像を生成すべきである」といった中間的な思考を生成します。 その上で、「非常に詳細で創造的な画像で、多数の小さな車だけで構成された大きな車を展示し、実物大の車両の形状と構造を再現するために細心の注意を払って配置されている。小さな車は緊密に連結され、正確なプロポーションとディテールを備えたシームレスでリアルな外観を作り出している…」といった、より具体的で詳細な内部プロンプトを生成し、それに基づいて最終的な画像を生成します。 この「考える」プロセスを経ることで、より文脈に適合し、詳細で、論理的に一貫性のある高品質なアウトプットが期待できます。
画像編集 (Image Editing)
既存の画像に対して、テキストによる指示に基づいて自然で高度な編集を行うことができます。 例えば、人物が写っている画像に対して「彼がしゃがんで犬の頭を撫でている」という指示を与えることで、そのように画像を編集することができます。 BAGELは特に、動画データからも学習しているため、編集対象の物体や人物のアイデンティティ(同一性)や細部のディテールを保ちながら、自然な動きや変化を加える編集が得意であるとされています。
さらに、単なる指示通りの編集だけでなく、文脈を理解した上での「インテリジェント編集」も可能で、これは従来の画像編集モデルの能力を超えるものと期待されています。 ベンチマーク評価では、GEdit-BenchやIntelligentBenchといった指標で高いスコアを示しています。
高度な応用機能
BAGELは、上記の中核機能に加えて、さらに高度で多様な応用能力を備えています。
- フリーフォーム視覚操作: より自由な形式で、直感的に画像を操作する機能。
- マルチビュー合成: 一つの対象物やシーンに対して、異なる角度や視点からの画像を生成する機能。
- ワールドナビゲーション: まるで画像や映像の中の世界を「ナビゲート」するように、視点を連続的に移動させたり、周囲を見渡したりするような画像を生成する機能。 例えば、ある風景画像に対して「0.4秒後に前進して」といった指示で、少し進んだ視点の画像を生成できます。
- 未来フレーム予測: 動画の数フレームを与えると、その続きのフレームを予測して生成する機能。
- 3D操作: 2Dの画像情報から、3次元的な物体の形状や配置を理解し、操作するようなタスクへの応用。
- シーケンシャル推論: 時間的または論理的な順序を持つ一連の情報(例えば、手順を説明したテキストと画像)を理解し、それに基づいて推論を行う能力。
- 構成的なタスク (Composition): 一つの完結したタスクだけでなく、複数の指示や対話を通じて、段階的にコンテンツを共同で作り上げていくことができます。 例えば、まず「エメラルドグリーンとシルバーの優美なドレスを着た、妖精かエルフのような女性コスプレイヤー」の画像を生成し 、次に「彼女をジェリーキャットのぬいぐるみに変えて」という指示でスタイルを変更し 、さらに「この人形を子供向けに宣伝したい。キャッチーなスローガンを考えて」と依頼すると、「魔法の妖精人形で想像力の翼を広げよう!」といった提案をしてくれます。 このように、複数のステップにまたがる創造的な作業をサポートします。
推論時のハイパーパラメータ
BAGELの能力を最大限に引き出し、望むような出力を得るためには、推論時(実際にモデルを使って何かを生成・処理させる際)にいくつかのハイパーパラメータを調整することが推奨されています。 これらは、生成されるテキストや画像の品質、プロンプトへの忠実度、入力画像の詳細保持の度合いなどをコントロールするための設定値です。
- cfg_text_scale: 生成される内容が、与えられたテキストプロンプトにどれだけ強く従うかを調整します。値が大きいほどプロンプトに忠実になりますが、大きすぎると不自然になることもあります。一般的な推奨範囲は4.0から8.0です。
- cfg_image_scale: 画像編集などの際に、入力された元の画像のディテールをどれだけ保持するかを調整します。値が大きいほど元画像の特徴を強く残します。一般的な推奨範囲は1.0から2.0です。
その他にも、CFG(Classifier-Free Guidance:ガイダンスなし分類器)を適用するタイミングを制御する cfg_interval 、ノイズ除去ステップの配分を調整してレイアウトやディテールに影響を与える timestep_shift 、総ノイズ除去ステップ数を決める num_timesteps(通常50) 、CFGの正規化に関する cfg_renorm_min や cfg_renorm_type など、細かな調整項目が用意されています。これらを適切に設定することで、計算コストを抑えつつ品質を追求したり、生成物の特定の側面(例えば、細部の鮮明さや全体の構図)を強調したりすることが可能です。
ライセンスと利用
BAGELは、Apache 2.0ライセンスという非常に寛容なオープンソースライセンスの下で公開されています。 これにより、学術研究目的だけでなく、商用利用も含めて、比較的自由にBAGELを利用、複製、改変、再配布することができます。
モデルの重みファイル(学習済みのAIモデル本体)や関連するコードは、AIモデルの共有プラットフォームであるHugging Faceや、ソフトウェア開発プラットフォームのGitHubを通じて公開されており、誰でもダウンロードして自分の環境で試すことができます。 クイックスタートガイドも提供されており、Python環境と必要なライブラリをセットアップすれば、Jupyter NotebookやGradio WebUIを通じてBAGELを動かすことができます。
また、BAGELは、同じくApache 2.0ライセンスで公開されている既存の高性能モデル(Qwen2.5-7B-Instructやsiglip-so400m-14-384-flash-attn2、FLUX.1-schnell VAEモデルなど)をベースにファインチューニングされているため、これらのモデルや関連ツールとのエコシステムの中での連携や発展も期待されます。
クイックスタート
公式のGithubでは以下のように利用方法が紹介されています。
1.環境設定
git clone https://github.com/bytedance-seed/BAGEL.git
cd BAGEL
conda create -n bagel python=3.10 -y
conda activate bagel
pip install -r requirements.txt
pip install flash_attn==2.5.8 --no-build-isolation
2.重みのダウンロード
from huggingface_hub import snapshot_download
save_dir = "models/BAGEL-7B-MoT"
repo_id = "ByteDance-Seed/BAGEL-7B-MoT"
cache_dir = save_dir + "/cache"
snapshot_download(cache_dir=cache_dir,
local_dir=save_dir,
repo_id=repo_id,
local_dir_use_symlinks=False,
resume_download=True,
allow_patterns=["*.json", "*.safetensors", "*.bin", "*.py", "*.md", "*.txt"],
)
3.Gradio WebUIを利用してGUIで操作することが可能
# For 32GB+ VRAM GPU or multi GPUs.
python app.py
# For 12~32GB VRAM GPU, recommend using NF4 quantization. And use Chinese interface.
python app.py --mode 2 --zh
# For 22~32GB VRAM GPU, not recommended to use INT8 quantization.
python app.py --mode 3
まとめ
本稿では、ByteDance社から新たに登場したオープンソースのマルチモーダルAIモデル「BAGEL」について、その驚くべき概要、支える技術的特徴、そして画像理解からテキスト・画像生成、高度な画像編集、さらにはインタラクティブなコンテンツ作成に至るまでの多彩な機能を紹介しました。
BAGELは、Mixture-of-Transformer-Experts (MoT)アーキテクチャ、デュアル画像エンコーダ、そしてテキストと画像が織り交ぜられた大規模なインターリーブドデータによる徹底的な学習といった、複数の先進的な技術要素を組み合わせることで、テキストと画像の間の壁を取り払い、両者を高度に統合した処理を実現しています。
特に、単に指示に従うだけでなく、内部で「考える」プロセスを経てより高品質なコンテンツを生成しようとする姿勢や 、従来の枠を超えたインテリジェントな画像編集能力 、さらにはワールドナビゲーションや3Dオブジェクトの理解・操作といった、より現実世界とのインタラクションに近い「ワールドモデリング」タスクへの展開は、今後のAIの可能性を大きく広げるものと言えるでしょう。
何よりも、このBAGELがApache 2.0ライセンスというオープンソースの形で提供されることは、AI研究開発コミュニティ全体にとって大きな意味を持ちます。 これにより、世界中の研究者やエンジニアがこの強力な基盤モデルを自由に活用し、さらなる改良や、これまで不可能だった新たな応用事例を生み出していくことが期待されます。