[技術紹介]ハードウェアの壁に挑むDeepSeek-V3:次世代AIを支える協調設計の本質と低コストの秘密

目次

はじめに

 本稿では、DeepSeek-AIが発表した論文「Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures」を基に、大規模言語モデル(LLM)の急速な進化に伴い顕在化するハードウェアの限界と、その課題に革新的なアプローチで挑むDeepSeek-V3の取り組みについて詳しく紹介します。

 特に、DeepSeekがどのようにして従来よりも大幅に低いコストで最先端のオープンLLMを構築できたのか、その技術的な秘訣に迫ります。

引用元記事

  • タイトル: Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures
  • 発行元: DeepSeek-AI
  • 発行日: 2024年5月16日
  • URL: https://arxiv.org/abs/2405.09658

・あくまで個人の理解に基づくものであり、正確性に問題がある場合がございます。
 必ず参照元論文をご確認ください。
・本記事内での画像は、上記論文より引用しております。

※論文の詳細を確認したい方はこちら

あわせて読みたい
[論文解説]DeepSeek-V3から学ぶ、大規模言語モデル開発を支えるハードウェアとモデルの協調設計 はじめに  AI技術の進化は目覚ましく、大規模言語モデル(LLMs)は私たちの生活や仕事に革命をもたらしつつあります。最新モデルが次々と登場していますが、それらのモ...

要点

  • 大規模言語モデル(LLM)のスケール拡大は、メモリ容量、計算効率、相互接続帯域幅といった現行ハードウェアアーキテクチャの限界を露呈させている。
  • DeepSeek-V3は、2,048基のNVIDIA H800 GPU上で学習され、ハードウェアを意識したモデルの協調設計が、驚くほど低いコスト(推定560万ドル)で最先端の性能を持つ大規模学習と推論を実現できることを実証した。
  • 主要な技術革新として、メモリ効率を高めるMulti-head Latent Attention (MLA)、計算と通信のトレードオフを最適化するMixture of Experts (MoE)アーキテクチャ、ハードウェア性能を最大限に引き出すFP8混合精度学習(DeepSeek-V3はFP8で学習された初のオープンLLMとされる)、クラスタレベルのネットワークオーバーヘッドを削減するMulti-Plane Network Topologyが挙げられる。
  • MoEアーキテクチャの採用により、DeepSeek-V3はトークンあたり250 GFLOPsという低い計算量で学習可能であり、これはQwen 2.5 72B(394 GFLOPs/token)やLlama 3.1 405B(2,448 GFLOPs/token)と比較して大幅に効率的である。
  • MLAの採用により、推論時のメモリ使用量はトークンあたり70KBと、Qwen 2.5 72B(328KB/token)やLlama 3.1 405B(516KB/token)と比較して格段に少ない。
  • GPUノード内通信(ノード間通信の4倍高速)を最大限活用するため、MoEのルーティングを最大4ノード内に制限するなどの工夫が凝らされている。
  • DeepSeek-V3の開発で直面したハードウェアのボトルネックを踏まえ、将来のハードウェアの方向性として、高精度な低精度計算ユニット、スケールアップとスケールアウトの融合、低遅延通信ファブリックの革新が議論されている
  • ハードウェアとモデルの協調設計は、増大し続けるAIワークロードの要求に応えるための鍵であり、DeepSeekによる技術詳細の公開は、より広範なチームが最先端技術を改善する道を開いた。

詳細解説

LLMの進化とハードウェアの壁

 近年、大規模言語モデル(LLM)は目覚ましい進歩を遂げ、その能力は私たちの想像を超えるものとなりつつあります。しかし、この急速なスケールアップは、現在のコンピュータハードウェア、特にAIの学習や推論に不可欠なGPU(Graphics Processing Unit)の設計に大きな課題を突きつけています。論文では、主に以下の3つの制約が指摘されています。

  1. メモリ容量の制約: LLMのパラメータ数が増大するにつれて、モデル全体をGPUのメモリ内に保持することが困難になります。これは、学習効率や推論速度の低下に直結します。
  2. 計算効率の制約: より複雑な計算をより速く行う必要がありますが、既存の計算ユニットの能力には限界があります。
  3. 相互接続帯域幅の制約: 大規模なLLMの学習では、多数のGPUを連携させて並列処理を行いますが、GPU間のデータ転送速度(帯域幅)がボトルネックとなり、全体の処理速度が頭打ちになってしまいます。

 これらの課題は、まるで高性能なエンジンを積んだ車が、細く曲がりくねった道や小さな燃料タンクによってその性能を発揮しきれない状況に似ています。

DeepSeek-V3における革新的アプローチ

 DeepSeek-V3は、これらのハードウェアの壁を乗り越えるため、ハードウェアを深く理解し、モデル設計とインフラ構築を一体として最適化する「協調設計」というアプローチを採用しました。具体的には、2,048基のNVIDIA H800 GPU(各ノードに8基のGPUを搭載)から成るクラスタ上で、以下の主要な技術革新を導入しています。

1. Mixture of Experts (MoE): 計算と通信の最適化

 Mixture of Experts (MoE)は、モデルの一部を「専門家(Expert)」と呼ばれる小さなニューラルネットワークの集合体として構成するアーキテクチャです。MoEの各層には、複数の「専門家」ネットワークと、入力データに基づいてどの専門家(複数可)を使用するかを選択する「ルーター(routing module)」が含まれます。これにより、異なる専門家が異なる種類の入力データに特化して学習を進めることができます。

 MoEアーキテクチャの大きな利点は、モデル全体のパラメータ数を増やしながらも、特定の入力に対する計算量を抑えられる点です。なぜなら、全ての入力に対して全ての専門家が計算を行うのではなく、ルーターによって選択された一部の専門家のみが活性化されるためです。DeepSeek-V3では、この特性を活かし、トークンあたりの計算量を大幅に削減しました。具体的には、DeepSeek-V3の学習に必要な計算量はトークンあたり250 GFLOPs(Giga Floating point Operations Per Second、1秒間に実行できる浮動小数点演算の回数をギガ単位で示したものに、1トークン処理にかかる時間を乗じたもの、実質的な計算量を示す)です。これは、他の大規模モデルであるQwen 2.5 72B(720億パラメータ)の394 GFLOPs/tokenや、Llama 3.1 405B(4050億パラメータ)の2,448 GFLOPs/tokenと比較して著しく低い値であり、計算効率の高さを示しています。

2. FP8混合精度学習: ハードウェア能力の解放

 コンピュータにおける数値表現の「精度」は、計算の正確さと速度・メモリ使用量のトレードオフになります。DeepSeek-V3では、FP8(8ビット浮動小数点数)を用いた混合精度学習を導入しました。これは、線形変換のような計算量の多い処理にはFP8を使用し、埋め込み層の計算など精度がより求められる処理にはFP16(16ビット)やFP32(32ビット)を使用するというものです。

 NVIDIA H800のような最新GPUはFP8演算をハードウェアレベルでサポートしており、これにより計算速度の大幅な向上とメモリ消費量の削減が可能になります。DeepSeekの論文によれば、DeepSeek-V3はFP8を使用して学習された最初のオープンLLMであると主張しており、これはハードウェアの最新機能を最大限に活用した先進的な取り組みと言えます。

3. Multi-head Latent Attention (MLA): メモリ効率の向上

 アテンションメカニズムはLLMの文脈理解に不可欠ですが、メモリ消費が大きいという課題があります。DeepSeek-V3で採用されたMulti-head Latent Attention (MLA)は、入力情報をよりコンパクトな潜在表現に圧縮してからアテンション計算を行うことで、この問題を解決します。

 その効果は特に推論時のメモリ効率に顕著に現れます。DeepSeek-V3のMLAは、トークンあたり70キロバイトのメモリしか使用しません。これは、他のモデルで採用されているアテンションの亜種、例えばQwen 2.5 72Bで使われているGQA(Grouped-Query Attention)が328キロバイト/トークン、Llama 3.1 405BのGQAが516キロバイト/トークンであるのと比較すると、圧倒的にメモリ効率が良いことを示しています。これにより、より長いコンテキストを少ないメモリで処理できるようになります。

4. 効率的なGPUクラスタ運用とMulti-Plane Network Topology

 2,048基ものGPUを効率的に連携させるためには、ネットワーク設計とGPUの利用効率が鍵となります。DeepSeekチームは以下の工夫を凝らしました。

  • 通信速度差を考慮したルーティング: GPUノード内(同じサーバー内の8GPU間)の通信は、ノード間(異なるサーバー間)の通信よりも約4倍高速であることを観測しました。このため、MoEにおける専門家へのトークンルーティング処理を、最大4ノード(32GPU)の範囲内に制限することで、高速なノード内通信を優先的に利用し、通信遅延を最小化しました。
  • 計算と通信のオーバーラップ: GPUの遊休時間を減らし、使用率を最大化するために、各GPUへの入力データを分割し、チップがデータの一部の計算(アテンションやMoE層の処理)を行っている間に、同時並行で別のデータの部分を他のGPUに送信したり、他のGPUから集約したりするようにしました。これにより、計算と通信のパイプライン化を実現し、スループットを向上させています。
  • Multi-Plane Network Topology: (前回の記述と同様)データ通信の経路を複数系統(プレーン)に分散・最適化することで、特定の経路に通信が集中してボトルネックとなることを防ぎ、GPUクラスタ全体としての通信効率と耐障害性を高める設計です。

DeepSeekの成果と意義

驚異的な低コストでのSOTA達成

 DeepSeek-V3は、2023年12月のリリース時、当時トップクラスのLLMであったLlama 3.1 405Bを一部のベンチマークで上回る性能を示しながら、その学習コストが推定560万ドルと報告され、大きな注目を集めました。これは、通常、最先端モデルの学習に数千万ドルから数億ドルかかるとされる中で、驚異的な低コストです。

 この560万ドルという数字に対して、一部からは懐疑的な見方も示されました。具体的には、この金額には研究者の給与、データ収集・アノテーションのコスト、失敗した学習試行のコスト、その他の研究開発費が含まれていないのではないかという指摘です。また、同時にリリースされたDeepSeek-R1の学習コストは依然として不明です。しかし、これらの点を考慮したとしても、DeepSeekが示したコスト効率の高さは注目に値します。

技術詳細公開の重要性

 従来、最先端のLLM開発は、潤沢な予算と巨大なリソースを持つ一部の企業に限られていました。DeepSeekは、その状況に一石を投じましたが、モデルリリース当初はその具体的な手法を明らかにしていませんでした。今回の論文による詳細な技術情報の公開は、より広範な研究者や開発チームが最先端のモデル構築手法を学び、さらに改良していくことを可能にするという点でりました非常に大きな意義があります。

 DeepSeek-R1のリリース直後、一部のエンジニアから(証拠は提示されなかったものの)DeepSeekが彼らの研究をコピーしたのではないかという主張がありました。DeepSeekによる今回の学習方法の詳細な開示は、そのような残存する疑問を払拭する助けとなるはずであり、彼らの研究が真に革新的であったことを示すものだと評価できます。

将来のハードウェアへの提言

 DeepSeek-V3の開発経験を通じて得られた知見は、単に現行モデルの最適化に留まらず、将来のAIハードウェア設計に対する重要な提言へと繋がっています。論文では、学術界および産業界のパートナーと共に、以下のような将来の方向性について議論しています。

  1. 高精度な低精度計算ユニット (Precise low-precision computation units): FP8のような低精度計算は効率が良い一方で、さらなる精度と汎用性が求められます。ハードウェアレベルでより誤差が少なく、多様な演算に対応できる低精度計算ユニットの実現が期待されます。
  2. スケールアップとスケールアウトの融合 (Scale-up and scale-out convergence): 「スケールアップ」は個々のプロセッサの性能向上(より強力な単一GPU)を指し、「スケールアウト」はプロセッサの数を増やすこと(多数のGPUを連携)を指します。これら二つのアプローチをよりシームレスに融合させ、バランスの取れたシステム全体の性能向上が求められます。
  3. 低遅延通信ファブリックの革新 (Innovations in low-latency communication fabrics): GPU間のデータ転送は依然として大きな課題であり、より高速で遅延の少ない、革新的な通信技術(光インターコネクトなど)の開発が不可欠です。

 これらの提言は、AIの進化を持続可能なものにするために、ハードウェアメーカー、研究機関、AIモデル開発者が連携して取り組むべき課題を示唆しています。

まとめ

 本稿では、DeepSeek-AIによる論文を基に、大規模言語モデルの進化を支えるハードウェアの課題と、それに対するDeepSeek-V3の先進的な取り組み、そして将来のハードウェアへの展望を解説しました。

 DeepSeek-V3が示した、Multi-head Latent Attention (MLA)によるメモリ効率の改善、Mixture of Experts (MoE)による計算・通信の最適化(結果としてトークンあたりの計算量を大幅削減)、FP8混合精度学習によるハードウェア性能の最大活用(オープンLLMとしての初適用)、そして効率的なGPUクラスタ運用戦略は、いずれもLLM開発における現実的なボトルネックに対する具体的な解決策です。

 特に、従来よりも大幅に低いコストで最先端の性能を達成した事実は、AI開発の民主化という観点からも非常に重要です。ハードウェアの特性を深く理解し、モデルアーキテクチャとインフラ設計を協調させるという彼らのアプローチ、そしてその技術詳細を公開したという事実は、今後のAI開発においてますます重要になるでしょう。AIの計算需要はとどまることを知らず、より効率的で強力なAIシステムの実現には、本稿で議論されているようなハードウェアとソフトウェアの境界を越えたイノベーションが不可欠です。

 日本のAIコミュニティにとっても、DeepSeek-V3の事例は、限られたリソースの中で最先端の研究開発を進める上で、多くの示唆を与えてくれます。ハードウェアの制約を前提とした賢いモデル設計や、効率的な学習・推論基盤の構築は、今後の国際競争において日本の強みとなり得るでしょう。DeepSeekが公開した「次世代AIシステムのための実践的な設計図」は、その第一歩を踏み出すための貴重な道しるべとなるはずです。

この記事が気に入ったら
フォローしてね!

  • URLをコピーしました!
  • URLをコピーしました!
目次