［技術解説］ゼロショット動画切り抜き！Meta SAM 2.1とInstagram Editsの裏側を技術的に解説

2025-05-04

はじめに

　近年、AI（人工知能）技術は目覚ましい発展を遂げ、私たちの生活の様々な場面で活用されるようになりました。特に画像認識や生成AIの分野では、これまで専門的な知識や高価なソフトウェアが必要だった作業が、誰でも手軽に行えるようになりつつあります。

　本稿では、Meta社（旧Facebook社）が開発した画期的な画像セグメンテーションモデル「Segment Anything Model (SAM)」、特にその最新版であるSAM 2.1に焦点を当てます。この技術が、Instagramから新たにリリースされた動画編集アプリ「Edits」の「切り抜き（Cutouts）」機能にどのように応用され、クリエイターの動画制作を支援しているのかご紹介します。

引用元記事

タイトル: How Meta Segment Anything Model enables Cutouts in the Instagram Edits app
発行元: Meta AI Research
発行日: 2025年5月1日
URL: https://ai.meta.com/blog/instagram-edits-cutouts-segment-anything/

・本稿中の画像に関しては特に明示がない場合、引用元記事より引用しております。
・記載されている情報は、投稿日までに確認された内容となります。正確な情報に関しては、各種公式HPを参照するようお願い致します。
・内容に関してはあくまで執筆者の認識であり、誤っている場合があります。引用元記事を確認するようお願い致します。

要点

Instagramがリリースした新しい動画編集アプリ「Edits」には、MetaのAIモデル「SAM 2.1」を活用した「切り抜き（Cutouts）」機能が搭載されています。
この機能は、動画内の特定のオブジェクト（人、物など）をインタラクティブかつ高精度に選択し、切り抜くことを可能にします。
切り抜かれたオブジェクトは動画内で独立したレイヤーとして扱え、特定の箇所へのフィルター適用や、テキスト・スタンプの背後への配置など、高度な編集が直感的に行えます。
SAM 2.1は、前バージョン（SAM 2）から性能が向上しており、特に視覚的に類似したオブジェクトや小さなオブジェクトの認識精度、オブジェクトが隠れたり（オクルージョン）画面外に出たりした場合の追跡能力が改善されています。
Metaは、PyTorchやTorch Inductorなどの技術を用いてSAM 2.1の推論速度とレイテンシ（応答性）を大幅に改善し、アプリ上での快適なリアルタイム体験を実現しました。

詳細解説

前提知識：画像セグメンテーションとは？

　まず、本稿の核となる技術「画像セグメンテーション」について解説します。これは、デジタル画像をピクセル（画素）レベルで解析し、各ピクセルがどのオブジェクトクラス（例：人、車、空、道路など）に属するか、あるいはどのインスタンス（個々の物体、例：個々の人物）に属するかを識別するタスクです。

セマンティックセグメンテーション: 画像内の各ピクセルを、事前に定義されたクラス（例：「人」「車」「背景」）に分類します。同じクラスのオブジェクトは区別しません。
インスタンスセグメンテーション: クラスの分類に加えて、同じクラスに属する個々のオブジェクトインスタンスも区別します（例：写真に写っている3人の人物をそれぞれ個別に認識）。
パノプティックセグメンテーション: セマンティックセグメンテーションとインスタンスセグメンテーションを統合し、画像内のすべてのピクセルに対してクラスラベルとインスタンスIDの両方を割り当てます。

　SAMは、特定のクラスに限定されず、「あらゆるもの（Anything）」をセグメンテーションできる汎用的な基盤モデル（Foundation Model）として開発されました。特に、ユーザーからのプロンプト（クリック、バウンディングボックス、テキストなど）に応じて、事前の追加学習なし（ゼロショット）で対象オブジェクトのマスク（境界線）を生成できる点が画期的です。SAM 2.1は、この能力を動画へと拡張し、時間的な一貫性を持たせた追跡を可能にしています。

Instagram Editsアプリ「切り抜き」機能の内部動作

　Instagram Editsアプリの「切り抜き（Cutouts）」機能は、SAM 2.1を活用して、ユーザーが動画内のオブジェクトを容易に操作できるように設計されています。そのプロセスは以下のステップで構成されます。

オブジェクトの検出と提案:
- アプリはまず、動画の特定のフレーム（静止画）を入力として、オブジェクト検出パイプラインを実行します。これにより、フレーム内で顕著なオブジェクト（人物、動物、主要な物体など）が自動的に識別され、ユーザーに切り抜き候補として提示されることがあります。
インタラクティブなオブジェクト選択とマスク生成:
- ユーザーは提案されたオブジェクトを選択するか、手動モードに切り替えることができます。
- 手動モードでは、ユーザーは切り抜きたいオブジェクト領域にポジティブクリック（含める点）、背景や除外したい領域にネガティブクリック（除外する点）を追加します。
- これらのクリックはプロンプトとしてSAM 2.1モデルに入力されます。SAM 2.1は、これらの疎な入力から、対象オブジェクトの詳細なマスク（高精度な境界線を示すバイナリ画像）をリアルタイムで予測・生成します。このインタラクティブ性が、ユーザーが意図した通りの切り抜きを可能にする鍵となります。
オブジェクトの追跡（トラッキング）:
- ユーザーが「追跡（Track）」を選択すると、SAM 2.1はそのフレームで生成されたマスクとオブジェクトの特徴量を利用して、動画シーケンス全体を通して対象オブジェクトを追跡します。
- 後続の各フレームで、前のフレームの情報（マスク、特徴量）と現在のフレームの画像情報を基に、オブジェクトの位置と形状の変化に対応した一貫性のあるマスクを予測し続けます。これにより、オブジェクトが動いたり、カメラが動いたりしても、切り抜きが維持されます。
編集への応用:
- 追跡によって得られた一連のマスク（ビデオセグメンテーション結果）は、切り抜かれたオブジェクトのデータとなります。
- このデータはEditsアプリ内で独立したレイヤーとして扱われ、ユーザーは他の動画レイヤーや画像、テキスト、ステッカーなどと自由に組み合わせることができます。
- 例えば、切り抜いた人物の後ろにテキストを表示させたり、背景だけをぼかしたり、切り抜いたオブジェクトにのみ特定のフィルターを適用したりといった、高度な編集が容易になります。

SAM 2.1における技術的進化

　SAM 2.1は、2024年秋に発表されたSAM 2をベースに、特に動画における実用性を高めるための改良が加えられています。

類似・微小オブジェクトへの対応強化:
- SAM 2では、背景と似た色やテクスチャを持つオブジェクトや、画面内で非常に小さく表示されるオブジェクトのセグメンテーション精度に課題がありました。
- SAM 2.1では、学習データに追加のデータ拡張（Data Augmentation）技術を導入しました。これは、学習中に意図的に類似オブジェクトを合成したり、オブジェクトを縮小したりする処理を加えることで、モデルがそのような困難なケースに対しても頑健になるように訓練する手法です。
オクルージョン（隠蔽）処理能力の向上:
- 動画では、追跡対象のオブジェクトが一時的に他の物体に隠れたり、画面の端から見切れてしまう「オクルージョン」が頻繁に発生します。SAM 2では、オクルージョン後に追跡が失敗することがありました。
- SAM 2.1では、より長いフレームシーケンス（時間的により長い動画クリップ）を用いてモデルを訓練しました。これにより、モデルはより長期的な時間的文脈を学習できます。
- さらに、オブジェクトの位置情報や特徴量を時間的に記憶・参照するメカニズムであるポジショナルエンコーディングやオブジェクトポインタメモリに改良が加えられました。これにより、オブジェクトが一時的に見えなくなっても、その情報を保持し、再出現時に正しく追跡を再開する能力が向上しました。

4. パフォーマンス最適化：高速化と低レイテンシ化

　モバイルアプリで快適なユーザー体験を提供するためには、AIモデルの推論速度と応答性（レイテンシ）が極めて重要です。MetaはSAM 2.1をEditsアプリに搭載するにあたり、以下のパフォーマンス改善を実施しました。

PyTorchとプロダクションパートナー:
- Metaが開発を主導するディープラーニングフレームワークPyTorchを基盤として利用しています。PyTorchは研究から製品実装までシームレスな移行を支援するエコシステムを持っています。
Torch Inductorによる最適化:
- Torch Inductorは、PyTorch 2.0以降で導入されたコンパイラ技術で、Pythonコードを高性能な最適化済みカーネル（GPUやCPUで実行される低レベルコード）に変換します。
- 当初は量子化（モデルのパラメータや計算を低ビット精度で行うことで、モデルサイズと計算量を削減する手法）のような、より積極的なモデル圧縮技術の導入も検討されました。
- しかし、結果的にはTorch Inductorを用いることで、最小限のコード変更で大幅なパフォーマンス向上が達成できたと報告されています。具体的には、NVIDIA H100 GPU環境において、モデルのスループット（単位時間あたりの処理能力）が1.8倍に向上し、最初のフレームのプレビューが表示されるまでのエンドツーエンドのレイテンシが3分の1に短縮されました。これらの改善は、SAM 2のオープンソースリポジトリにも反映されています。

今後の展望：SAM 3へ

　Metaはすでに次世代モデルSAM 3の開発を進めています。SAM 3は、オープンボキャブラリー（事前に定義されていない任意の単語）のテキストプロンプト（例：「公園の白い犬を切り抜いて」）やクリック操作に応じて、画像や動画内のオブジェクトを自動的に検出し、セグメンテーションし、追跡する初のモデルを目指しています。これが実現すれば、プロンプトだけでより複雑な編集指示が可能になり、画像・動画編集ツールだけでなく、ロボティクス、AR/VR、医療画像解析など、さらに広範な分野での応用が期待されます。

まとめ

　本稿では、Metaの最新AIモデル「SAM 2.1」が、Instagramの新しい動画編集アプリ「Edits」の「切り抜き」機能でどのように活用されているか、その技術的な背景と進化、そしてパフォーマンス最適化について詳しく解説しました。

　SAM 2.1は、高度な画像セグメンテーション技術を、インタラクティブなプロンプト、高精度なマスク生成、頑健なオブジェクト追跡、そして高速な処理と組み合わせることで、専門知識のないユーザーでも直感的に使える強力な動画編集ツールを実現しています。特に、データ拡張による精度向上、オクルージョン耐性の強化、Torch Inductorによる効率的な最適化は、AIモデルを実世界のアプリケーションに展開する上での重要なエンジニアリング的側面を示しています。

　SAM 2.1とEditsアプリの事例は、最先端のAI研究が急速に製品化され、私たちのデジタル体験を変えつつあることを示しています。エンジニアとしては、これらの技術の仕組みを深く理解し、その可能性と課題の両面を見据えながら、今後の技術動向を注視していくことが重要です。