はじめに
Googleが2025年11月7日、第7世代Tensor Processing Unit(TPU)「Ironwood」の一般提供を開始しました。クラウド顧客向けに提供されるこのチップは、AI推論処理に特化した設計により、前世代比4倍以上の性能向上を実現しています。本稿では、Ironwoodの技術的特徴と、AI基盤における位置づけについて解説します。
参考記事
- タイトル: 3 things to know about Ironwood, our latest TPU
- 著者: Ari Marini
- 発行元: Google Blog
- 発行日: 2025年11月25日
- URL: https://blog.google/products/google-cloud/ironwood-google-tpu-things-to-know/
要点
- Ironwoodは、高負荷・低遅延のAI推論とモデル提供に特化して設計された第7世代TPUである
- 前世代と比較して、訓練と推論の両ワークロードで1チップあたり4倍以上の性能向上を達成した
- 最大9,216チップを単一ドメインで接続するスーパーポッド構成が可能で、9.6Tb/sのInter-Chip Interconnect(ICI)ネットワークを実装している
- AlphaChipと呼ばれる強化学習手法を用いて、過去3世代のTPU設計に最適化されたレイアウトが生成されている
詳細解説
推論時代に特化した設計思想
Googleによれば、Ironwoodは「推論時代」(age of inference)を支えるハードウェアとして位置づけられています。AI業界の焦点が、フロンティアモデルの訓練から、実用的で応答性の高いモデルとの対話へと移行する中で、高負荷かつ低遅延のAI推論処理に対応する専用設計が求められています。
TPUは、大量の並列計算を効率的に処理するアーキテクチャを持ち、チップ内部でのデータ転送時間を大幅に短縮することで、複雑なAI処理を高速化します。この設計により、前世代(Trillium)と比較して、訓練と推論の両方のワークロードで1チップあたり4倍以上の性能向上を実現しました。
推論処理とは、訓練済みモデルを使って実際の予測や応答を生成する段階を指します。ChatGPTやGeminiのような対話型AIサービスでは、ユーザーの入力に対してリアルタイムで応答を返す必要があり、この推論処理の速度と効率が直接的にユーザー体験に影響します。Ironwoodの設計は、こうした大規模推論処理の需要に応えるものと考えられます。
スーパーポッドによる大規模並列処理
IronwoodはGoogleのAI Hypercomputerシステムの中核を構成します。AI Hypercomputerは、コンピュート、ネットワーキング、ストレージ、ソフトウェアを統合したスーパーコンピューティングシステムで、システム全体のパフォーマンスと効率を最適化する設計です。
TPUは個別のチップを「ポッド」と呼ばれる相互接続されたユニットにグループ化する構成を採ります。Ironwoodでは、最大9,216チップを単一ドメインで接続する「スーパーポッド」構成が可能です。これらのチップは、9.6Tb/s(テラビット毎秒)で動作するInter-Chip Interconnect(ICI)ネットワークで接続されています。
この大規模な接続性により、数千のチップが高速に通信し、合計1.77ペタバイトのHigh Bandwidth Memory(HBM)に共有アクセスできます。HBMは、従来のメモリと比較して帯域幅が大幅に広く、AI処理で頻繁に発生する大量のデータ転送を高速化する技術です。この構成により、最も要求の厳しいモデルでもデータのボトルネックを回避できると説明されています。
大規模なモデル訓練や推論では、複数のチップ間でのデータ同期が頻繁に発生します。チップ間の通信速度が遅いと、計算処理自体は高速でも全体のスループットが低下してしまいます。Ironwoodの高速ICIネットワークとHBM共有は、こうした分散処理の効率を大幅に向上させる設計と言えます。
AIを使ったチップ設計の循環
Ironwoodの特徴的な点として、AI研究者とTPUエンジニアの直接的な協働体制が挙げられます。Googleでは、Google DeepMindの研究者がGeminiのようなモデルで特定のアーキテクチャ上の進歩を必要とする際、TPUエンジニアと直接協力してハードウェア設計に反映させる体制が構築されています。
競合企業が外部ベンダーに依存するのに対し、Googleはこの垂直統合アプローチにより、最新のTPU世代でモデルを訓練し、前世代のハードウェアと比較して大幅な速度向上を実現していると説明しています。
さらに注目すべき点として、「AlphaChip」と呼ばれる手法が用いられています。これは強化学習を使って次世代チップの優れたレイアウトを生成する手法で、過去3世代のTPU(Ironwoodを含む)の設計に活用されています。
半導体チップの物理的レイアウト設計は、膨大な組み合わせの中から最適解を見つける極めて複雑な問題です。従来は人間の設計者が経験と直感に基づいて設計していましたが、AlphaChipのような強化学習手法を用いることで、人間では思いつかない効率的なレイアウトを発見できる可能性があります。つまり、AIがAI用のハードウェアを設計するという循環構造が実現されていると考えられます。
まとめ
Ironwoodは、AI推論処理に特化した設計と、大規模並列処理を可能にするスーパーポッド構成により、前世代比4倍以上の性能向上を達成しました。さらにAIを活用したチップ設計という手法により、ハードウェアとソフトウェアの相互最適化が進められています。クラウドサービスとしての一般提供開始により、高度なAI推論処理の実用化が加速する可能性があります。
