[開発者向け]AppleのThunderbolt 5とRDMA技術でMacクラスタのAI性能が大幅向上

目次

はじめに

 AppleInsiderが2025年12月20日に報じた内容をもとに、macOS Tahoe 26.2で実装されたThunderbolt 5とRDMA(Remote Direct Access Memory)を活用したMacクラスタによるAI計算の性能向上について解説します。YouTuberのJeff Geerling氏による実機検証では、4台のMac Studioを接続することで合計1.5TBのメモリプールを実現し、大規模言語モデルの推論速度が大幅に向上したことが確認されました。

参考記事

要点

  • macOS Tahoe 26.2のMLXフレームワークにThunderbolt 5サポートが追加され、Mac間の接続帯域幅が従来の40Gb/sから80Gb/sへと倍増した
  • RDMA技術により、クラスタ内の各Macが他のMacのメモリに直接アクセス可能となり、4台のMac Studioで合計1.5TBのメモリプールを実現できる
  • RDMA対応のExoツールを使用した場合、大規模言語モデルの推論速度が1ノードと比較して4ノードで約1.6倍に向上した
  • 総額約4万ドルの構成は企業のAI研究チームにとって現実的な選択肢となる価格帯である
  • デイジーチェーン接続による制約や安定性の課題が残されており、将来的なM5 Ultraチップでのさらなる性能向上が期待される

詳細解説

macOS Tahoe 26.2のMLXフレームワーク強化

 AppleInsiderによれば、2025年11月にAppleが予告していたmacOS Tahoe 26.2のアップデートが、AI研究者にとって大きな転換点となる可能性があります。Appleの機械学習フレームワークMLXに対する主要な改善として、GPU搭載のニューラルアクセラレータのサポートが注目されていましたが、Thunderbolt 5によるクラスタリングサポートも重要な変更点として含まれています。

 MLXは、Appleシリコン上で効率的な機械学習処理を実現するためのフレームワークです。今回のアップデートにより、複数のMacを高速に接続して協調動作させる基盤が整ったと言えます。

Jeff Geerling氏による実証実験

 YouTuberでありテクノロジー専門家のJeff Geerling氏は、12月18日にブログ記事と動画を公開し、Appleから貸与された4台のMac Studioによるクラスタ構成の実験結果を報告しました。使用された機材は総額約4万ドルで、すべてM3 Ultraモデルでした。

 具体的な構成は、各Mac Studioが32コアCPU、80コアGPU、32コアNeural Engineを搭載しており、2台が512GBのユニファイドメモリと8TBのストレージ、残り2台が256GBのメモリと4TBのストレージという仕様です。Geerling氏によれば、これらを10インチラックに収めた状態で「ほぼ無音」に近く、各ユニットの消費電力は250ワット未満とのことです。

 企業のAI開発チームにとって、4万ドルという価格帯は高額ですが、クラウドサービスの長期利用コストと比較すると現実的な選択肢になり得ると考えられます。

Thunderbolt 5とRDMAによる飛躍的な性能向上

 従来のEthernet接続によるクラスタ計算では、最大でも10Gb/sの帯域幅に制限されていました。AppleInsiderによれば、研究者たちはより高い帯域幅を求めてThunderbolt接続を活用してきましたが、Thunderbolt 4では最大40Gb/sが限界でした。Thunderbolt 5では、この帯域幅が80Gb/sまで向上しています。

 より重要なのは、AppleがThunderbolt 5にRDMA(Remote Direct Access Memory)を実装した点です。RDMA技術により、クラスタ内の1つのCPUノードが別のノードのメモリを直接読み取ることができ、利用可能なメモリプールを拡張できます。重要なのは、この処理が名前の通り「直接的」に行われ、アクセスされる側のMacのCPUにほとんど処理負荷をかけないという点です。

 結果として、異なるプロセッサがクラスタ全体のメモリリソースに同時アクセスできるようになります。Geerling氏に貸与された4台のMac Studioの場合、合計1.5テラバイトのメモリが使用可能となりました。Thunderbolt 5による帯域幅の向上により、このメモリアクセスが大幅に改善されたとのことです。

 機械学習研究者にとって、これは単一Macのメモリ容量の理論的限界を超える巨大な大規模言語モデル(LLM)を扱う方法となります。ただし、理論上のThunderbolt 5ネットワークスイッチが存在しないため、すべてのMac Studioをデイジーチェーン接続する必要があり、ネットワーク遅延によってパフォーマンスが低下する前にクラスタ化できるユニット数は厳しく制限されます。

 RDMAは、従来のネットワーク通信と比較して、データ転送時のCPUオーバーヘッドを大幅に削減する技術として知られています。サーバークラスタやデータセンターでは広く採用されていますが、デスクトップ環境での実用化は限定的でした。

ベンチマーク結果:RDMA対応ツールの優位性

 Geerling氏は、Mac Studioのコレクションでベンチマークを実行し、実際にどれだけ有益かを測定しました。リカバリーモードでRDMAを有効にするコマンドを実行した後、ExoというオープンソースツールとLlama.cppを使用して、クラスタ全体でモデルを実行しました。ExoはRDMAをサポートしていますが、Llamaはサポートしていません。

 Qwen3 235Bを使用した最初のベンチマークでは、システムの可能性が示されました。AppleInsiderによれば、単一ノード(クラスタから単一のMac)では、Llamaが20.4トークン/秒、Exoが19.5トークン/秒とLlamaが優れていました。

 しかし、2ノードを使用すると、Llamaは17.2トークン/秒に低下した一方、Exoは26.2トークン/秒に大幅に向上しました。4ノードでは、Llamaはさらに15.2トークン/秒に低下しましたが、Exoは31.9トークン/秒まで上昇しました。

 DeepSeek V3.1 671Bを使用した場合も同様の改善が見られ、Exoの性能は単一ノードで21.1トークン/秒から、2ノードで27.8トークン/秒、4ノードで32.5トークン/秒まで向上しました。

 さらに、1兆パラメータのモデルであるKimi K2 Thinking 1T A32B(ただし、常時アクティブなのは320億パラメータのみ)のテストも行われました。このモデルは、512GBのストレージを持つ単一のMac Studioでは大きすぎて扱えません。2ノードでは、Llamaが18.5トークン/秒を報告し、ExoのRDMAがこれを21.6トークン/秒まで引き上げました。4ノードでは、Exoは28.3トークン/秒に到達しました。

 これらの結果から、RDMA対応のExoツールは、ノード数の増加に伴って性能が向上する一方、RDMA非対応のLlama.cppはむしろ性能が低下する傾向が確認されました。この差は、RDMA技術によるメモリアクセスの効率化が、分散処理において決定的な役割を果たすことを示していると考えられます。

 トークン/秒という指標は、大規模言語モデルが1秒間に生成できるテキストの単語数(正確にはトークン数)を表します。実用的な対話型AIアプリケーションでは、20-30トークン/秒程度の速度があれば、ユーザーが待機時間を感じにくい快適な応答速度になると言われています。

実用化に向けた課題と将来の可能性

 Geerling氏のテストから得られた大きな教訓は、機械学習研究者、特に巨大なLLMを扱う研究者にとって、多くの性能が利用可能であるということです。AppleInsiderによれば、AppleはRDMAとThunderbolt 5の利用可能な帯域幅のおかげで、パフォーマンスを犠牲にすることなく可能であることを確実に実証しました。

 このようなクラスタを作成することは、一般的なユーザーにとっては依然として高額です。しかし、約4万ドルのセットアップは、AI開発に既得権益を持つ企業で働くチームにとっては、かなり手頃な価格の費用です。

 ただし、いくつかの懸念事項もあります。Thunderbolt経由でHPLベンチマークを実行する際に発生する安定性の問題や、プレリリースソフトウェアに表面化するその他のバグなどが報告されています。Geerling氏は、Exoの開発チームが秘密主義であることについて、特にオープンソースプロジェクトであることを考慮すると、信頼の問題があると付け加えています。

 しかし、ここには未実現の可能性もあります。このクラスタは、Thunderbolt 5をサポートする最速のチップであるM3 Ultraを使用しており、より遅いThunderbolt 4は使用していません。M4 Ultraチップは別の話ですが、M5 Ultra Mac Studioは、GPUニューラルアクセラレータサポートの使用により、はるかに優れている可能性があると提案されています。これにより、Appleがそのチップをリリースすれば、機械学習研究にさらなる後押しが与えられます。

 Geerling氏はまた、Appleがデバイス間のThunderbolt 5接続をさらに拡張して、SMB Directを含めることができるかどうかについても疑問を呈しています。ネットワーク共有がMacに直接接続されているかのような速度で動作すれば、レイテンシに敏感で高帯域幅のアプリケーションを扱う人々、例えばYouTuberのビデオ編集などに大きな助けになると彼は推測しています。

 SMB Directは、RDMA技術をファイル共有プロトコルSMBに適用したもので、ネットワークストレージへのアクセスをローカルストレージと同等の速度にする技術です。動画編集などの大容量ファイルを扱う作業では、この技術の恩恵は非常に大きいと思います。

まとめ

 AppleのThunderbolt 5とRDMA技術の組み合わせは、Macクラスタによる大規模AI計算の実用性を大きく前進させました。4台のMac Studioで合計1.5TBのメモリプールを実現し、大規模言語モデルの推論速度が最大1.6倍に向上したことは、企業のAI研究チームにとって魅力的な選択肢と言えます。デイジーチェーン接続の制約や安定性の課題は残されているものの、将来的なM5 Ultraチップの登場やSMB Direct対応により、さらなる性能向上と用途拡大が期待できそうです。

この記事が気に入ったら
フォローしてね!

  • URLをコピーしました!
  • URLをコピーしました!
目次