［技術紹介］Microsoftの最新AIデータセンター「Fairwater」の内部構造と思想

2025-09-19

はじめに

　本稿では、Microsoftが公式ブログで公開した記事「Inside the world’s most powerful AI datacenter」を基に、同社が建設した最新のAIデータセンター「Fairwater」を解説します。AIのトレーニングや大規模モデルの実行に特化したこの施設は、従来のデータセンターとは一線を画す設計思想で構築されています。

参考記事

タイトル： Inside the world’s most powerful AI datacenter
著者： Scott Guthrie – Executive Vice President, Cloud + AI
発行元： Microsoft
発行日： 2025年9月18日
URL： https://blogs.microsoft.com/blog/2025/09/18/inside-the-worlds-most-powerful-ai-datacenter/

要点

Microsoftは、AIワークロード専用の最新データセンター「Fairwater」を米国ウィスコンシン州に開設した。
AIデータセンターは、Webサイトなどをホストする従来の施設とは異なり、施設全体が一つの巨大なAIスーパーコンピュータとして機能するように設計されている。
数十万基のNVIDIA最新GPU（GB200サーバー）を、単一のフラットな超高速ネットワークで相互接続し、既存のスーパーコンピュータの10倍の性能を目指す。
高密度なハードウェアを効率的に冷却するため、施設規模での閉ループ液体冷却システムを導入し、運用中の水消費をゼロに抑える。
複数のAIデータセンターを広域ネットワーク（AI WAN）で接続し、地理的に分散した、より巨大で回復性の高いAIスーパーコンピュータを構築する構想である。

詳細解説

AIデータセンターとは何か？ ― AI時代の新たな「工場」

　AIデータセンターとは、その名の通り、AIモデルのトレーニング（学習）や推論（実行）といった、極めて高い計算能力を要求するタスクに特化して設計された施設です。私たちが普段利用するウェブサイトやメール、ビジネスアプリケーションなどを動かす従来のクラウドデータセンターは、比較的小さな独立した多数の処理を効率的に捌くことに最適化されています。

　一方、Microsoftが「AI時代の工場」と呼ぶAIデータセンターは、全く異なる思想に基づいています。ここでは、数十万基ものGPU（Graphics Processing Unit） が一つの巨大な集合体として連携し、全体で単一の超高性能スーパーコンピュータとして動作します。これは、一つの巨大なAIモデルを並行して学習させるために不可欠な設計です。

驚異的な規模とハードウェア構成

　ウィスコンシン州に建設された「Fairwater」は、その規模もさることながら、内部の技術仕様が注目されます。

最先端のGPUを大規模導入
　中核をなすのは、NVIDIA社の最新サーバー「GB200」です。Microsoft Azureは、クラウドプロバイダーとして世界で初めてこのサーバーを大規模に導入しました。各ラックには72基のNVIDIA Blackwell GPUが搭載され、ラック全体がまるで一つの巨大なアクセラレータのように動作します。これにより、毎秒86万5000トークンという高い処理能力を実現しています。
性能の鍵を握るネットワーク技術
　スーパーコンピュータの性能は、個々の計算ユニットの速さだけでなく、それらをいかに高速かつ低遅延で接続するかにかかっています。Microsoftは、このネットワーク設計に多大な工夫を凝らしています。
- ラック内接続： GPU間は、NVIDIA独自の高速インターコネクト技術「NVLink」で接続され、メモリと帯域幅の障壁を取り払います。
- ラック間接続： 複数のラックを接続するため、「InfiniBand」やEthernetファブリックといった技術を採用し、800Gbpsの高速通信を実現。どのGPUも他のすべてのGPUと遅滞なく通信できる「ノンブロッキングアーキテクチャ」を構築しています。
- 物理レイアウトの工夫： さらに、物理的な距離による遅延を最小限に抑えるため、ラックを2階建て構造で配置し、隣だけでなく上下のラックとも直接ネットワーク接続しています。これにより、データセンター全体がより緊密に結合された一つのコンピュータとして機能します。

環境への配慮：施設規模の液体冷却システム

　AIハードウェアは非常に高密度に実装されており、膨大な熱を発生させます。従来の空冷方式では、この熱を効率的に除去することは困難です。そこでFairwaterでは、施設全体に閉ループの液体冷却システムを組み込んでいます。

　これは、冷却液を循環させるパイプをサーバーに直接接続し、熱を効率的に奪う仕組みです。熱を帯びた冷却液は、施設の外部に設置された巨大な冷却設備へ送られ、172個の大型ファンによって冷やされた後、再びサーバーへと循環します。このシステムは「閉ループ」であるため、一度充填した水は蒸発することなく再利用され続け、運用段階での水消費は実質的にゼロとなります。これは、サステナビリティの観点からも非常に重要な点です。

AIを支える巨大ストレージと広域ネットワーク構想

　AIの学習には、膨大なデータセットを保管し、高速に読み書きできるストレージが不可欠です。Fairwaterには、フットボール場5つ分にも及ぶ長さの専用ストレージ棟が併設されています。Microsoftは、このAIワークロードに対応するため、クラウドストレージサービスであるAzure Blob Storageの基盤を再設計し、毎秒200万トランザクションを超える圧倒的な性能を実現しました。

　さらに、Microsoftの構想は一つのデータセンターに留まりません。「AI WAN」と呼ばれる広域ネットワークを通じて、世界中のAIデータセンターを相互接続し、地理的に分散した、より巨大で回復力のある単一のAIスーパーコンピュータとして機能させることを目指しています。これにより、顧客は場所を問わず、安定してAIの計算資源を利用できるようになります。