はじめに
本稿では、AI技術の急速な発展に伴い、ネットワークインフラに求められる要件がどのように変化し、Googleがそれにどう対応しているのかを解説します。AIの大規模なモデル学習や推論は、従来のネットワーク利用とは異なる、爆発的なデータ量と特有の通信パターンを生み出しています。これに加え、常時接続が前提となるサービスにおいて、ネットワークの信頼性はかつてないほど重要になっています。Google Cloud Nextで発表された、Googleの次世代グローバルネットワークを支える技術について、その核心を分かりやすく紐解いていきましょう。
引用元記事
- タイトル: Diving into the technology behind Google’s AI-era global network
- 発行元: Google Cloud Blog
- 発行日: 2025年4月23日
- URL: https://cloud.google.com/blog/products/networking/google-global-network-technology-deep-dive?hl=en
要点
Googleの次世代グローバルネットワークは、AI時代の要求に応えるため、以下の4つの主要な設計原則に基づいています。
- 指数関数的なスケーラビリティ(Exponential Scalability): 複数の独立したネットワーク(シャード)を組み合わせることで、需要に応じて柔軟かつ大幅に拡張できる能力。
- 99.9999999%を超える信頼性(Beyond-9s Reliability): 障害の影響を最小限に抑え、ほぼゼロに近い停止時間を実現するための多層的な冗長化と回復メカニズム。
- インテント駆動のプログラマビリティ(Intent-Driven Programmability): ビジネス要件やポリシー(意図=インテント)に基づいて、ネットワークの動作を詳細に制御できる柔軟性。
- 自律型ネットワーキング(Autonomous Networking): AI/MLを活用し、ネットワークの計画、運用、障害対応などを自動化・自律化するアプローチ。
詳細解説
1. 指数関数的なスケーラビリティ:マルチシャードネットワーク
AIの学習や推論では、短時間に膨大なデータがネットワークを行き交います。従来の、単一の巨大なネットワークを拡張していく方法(垂直スケーリング)では、限界や複雑性の問題がありました。そこでGoogleは、マルチシャードネットワークというアプローチを採用しました。これは、ネットワークを複数の独立した「シャード」と呼ばれる単位に分割する考え方です。
- 水平スケーリング: 容量がさらに必要になった場合、既存のシャードを拡張するだけでなく、新しいシャードを追加することで対応できます。これは、一つの道路をひたすら拡幅するのではなく、新しい道路を次々と建設していくイメージに近いです。これにより、柔軟かつ指数関数的な拡張が可能になります。
- 独立したプレーン: 各シャードは、制御(コントロールプレーン)、データ転送(データプレーン)、管理(マネジメントプレーン)が独立しています。これにより、あるシャードで問題が発生しても、他のシャードへの影響を最小限に抑えることができます。例えば、あるシャードの設定ミスがネットワーク全体に波及するリスクを低減できます。
記事では「WANは新しいLANであり、大陸はデータセンターである」と表現されています。これは、AIワークロードによって、データセンター間を結ぶ広域ネットワーク(WAN)にも、データセンター内のローカルネットワーク(LAN)のような大容量と低遅延が求められるようになったことを意味します。マルチシャードアーキテクチャは、この要求に応えるための鍵となります。実際に、2020年から2025年にかけて、GoogleのWANトラフィックは平均7倍に増加し、ピーク時には1桁以上の増加が見られたと述べられています。

2. 99.9999999%を超える信頼性:回復力の設計
AIを活用したサービスは、停止することが許されません。Googleは、「Beyond-9s」(9が9つ以上並ぶ、つまり99.9999999%以上)という極めて高い可用性を目指し、あらゆる階層で多様性と独立性を重視した設計を取り入れています。これにより、「Shared Fate」(一蓮托生、つまり一つの障害が連鎖的に全体へ広がる)のリスクを回避します。
- マルチシャードによる分離: 前述の通り、シャードごとに各プレーンが独立しているため、障害の影響範囲が限定されます。さらに、異なるベンダーの機器を各シャードで採用するマルチベンダー戦略により、特定のベンダーのソフトウェアやハードウェアの脆弱性がネットワーク全体に影響を与えるリスクを低減しています。これは、長年にわたるオープンなAPIとモデルの開発によって可能になりました。
- リージョン分離: 各地域(リージョン)のネットワークは、その地域内のトラフィックを処理し、地域間のトラフィックはゲートウェイでポリシーに基づいて制御されます。これにより、特定の地域で発生したイベント(災害や大規模障害など)が、他の地域へ波及するのを防ぎます。

- Protective ReRoute: これは、Google独自の画期的な技術です。従来、ネットワーク経路の障害はルーターが検知し、迂回経路を計算して切り替えていました。Protective ReRouteでは、通信の送り手(ホスト)が能動的にネットワーク経路の状態を監視し、異常を検知すると即座に(RTT: Round Trip Time、通信の往復時間レベルの速さで)別の健全な経路(別のシャードの経路も含む)に通信を切り替えます。パケットヘッダーの数ビットを変更するだけで経路を切り替えられるため、非常に高速な回復が可能です。これにより、従来のルーティング技術だけでは防ぎきれなかったユーザーが体感する停止時間を大幅に短縮できます。実際に、この技術により累積停止時間が最大93%削減されたと報告されています。

3. インテント駆動のプログラマビリティ:詳細なネットワーク制御
顧客の多様なニーズ(規制遵守、データ主権、特定のアプリケーション性能要件など)に応えるためには、ネットワークを柔軟かつ詳細に制御できる必要があります。Googleのネットワークは、SDN(Software-Defined Networking)によって、これを実現しています。
- SDNコントローラー: ネットワーク全体がインテント(意図)に基づいて動作します。Orionと呼ばれる階層化されたSDNコントローラープラットフォームが、最上位のビジネス要件(インテント)を解釈し、それを具体的なネットワーク設定に変換して各ネットワーク機器に指示を出します。これにより、ネットワーク全体で一貫したポリシー適用が可能になります。
- 普遍的なネットワークモデル: MALT (Multi-Abstraction-Layer Topology representation) という共通のモデルを使用することで、抽象的なインテントやビジネスポリシーを定義し、それを具体的なネットワーク設定に落とし込むことができます。
- 標準化されたAPI: OpenConfigという標準化されたソフトウェアレイヤーを利用することで、異なるベンダーのルーティング機器を相互に利用可能にしています。これにより、前述のマルチベンダー戦略が可能となり、ネットワークの堅牢性が向上します。
このプログラマビリティにより、例えば特定の重要なアプリケーションのために帯域幅を確保したり、規制要件に基づいてデータが特定の経路を通るように制御したりすることが可能になります。
4. 自律型ネットワーキング:AIによるネットワーク運用
Googleほどの規模と複雑性を持つグローバルネットワークでは、従来の人手に頼る運用や単純な自動化では対応しきれません。運用コストの増大を抑え、ネットワークの計画、設計、運用を効率化するためには、よりインテリジェントな自律的なアプローチが必要です。Googleは、AI/ML技術をネットワーク運用に積極的に活用しています。
- ネットワーク障害対応: GeminiやVertex AIを用いたAIエージェントが、障害の迅速な特定と緩和、効果的な根本原因分析を行います。これにより、障害検知時間(MTTD)と解決時間(MTTR)の短縮を目指しています。
- 需要予測とキャパシティプランニング: AutoMLを用いてトラフィック需要を正確に予測し、グラフ最適化技術を用いてネットワーク容量計画を最適化します。
- ルーティング最適化: 強化学習を用いて、ネットワーク性能などの特定の目的に合わせてルーティング設定を自動的に調整します。
これらの自律的な運用により、障害緩和にかかる時間を数時間から数分に短縮するなど、ネットワークの回復力と顧客体験を向上させています。
まとめ
Googleの次世代グローバルネットワークは、AI時代特有の課題に対応するために、マルチシャードによるスケーラビリティ、多層的な回復力設計、SDNによる柔軟なプログラマビリティ、そしてAI/MLを活用した自律運用という革新的なアプローチを取り入れています。これらの技術により、今日のミッションクリティカルなサービスやAI/MLアプリケーションが要求する規模、信頼性、性能、セキュリティを提供しています。この変革は、単に技術的な課題を解決するだけでなく、顧客がAI時代においてイノベーションを起こし、成功するための基盤となるものです。Googleのネットワークは、目に見えないながらも、テクノロジーと接続性の未来を推進する不可欠な力となることを目指しています。