はじめに
近年、私たちの生活や経済活動において、正確な天気予報はますます重要になっています。日々の通勤や旅行の計画から、農業や漁業、エネルギー産業、そして災害対策まで、あらゆる分野で天気予報が活用されています。
従来の天気予報は、「数値天気予報(NWP)」と呼ばれる複雑なシステムに基づいて作られています。これは、地球の大気の動きを物理法則に基づいてシミュレーションするもので、長年の研究と技術の粋を集めたものです。しかし、NWPシステムは、膨大な計算資源を必要とし、予測のスピードや精度には限界があるという課題も抱えています。
そんな中、機械学習、特にAI(人工知能)の分野が急速に発展し、天気予報のあり方を大きく変える可能性が示唆されています。そして今、AIが従来のNWPの枠組みを超え、天気予報の全プロセスをデータから直接学習する「エンドツーエンドのデータ駆動型天気予測システム」が登場し、注目を集めています。
本記事では、2024年に発表された研究論文「End-to-end data-driven weather prediction」の革新的な天気予測システム「Aardvark Weather」について、解説していきます。(2025年3月20日に科学誌「Nature」に掲載)
解説論文
- 記事タイトル:Aardvark weather: end-to-end data-driven weather forecasting
- 参照元URL:https://arxiv.org/abs/2404.00411
- 発行日:2024年3月24日
・あくまで個人の理解に基づくものであり、正確性に問題がある場合がございます。
必ず参照元論文をご確認ください。
・本記事内での画像は、上記論文より引用しております。
要点
本論文で紹介されている「Aardvark Weather」は、従来の数値天気予報(NWP)システムに頼ることなく、生(raw)の観測データを入力として、地球規模の格子状の天気予報と特定の地点の天気予報を直接出力できる、世界初のエンドツーエンドのデータ駆動型天気予測システムです。
主な要点は以下の通りです。
- NWPからの完全な独立:
予測時に従来のNWPの出力を一切使用せず、観測データのみに基づいて天気予報を行います。 - 高い予測精度:
地球規模の天気予報において、複数の気象変数と予測期間で、既存の高性能なNWPシステム(HRES)と比較して遜色ない、あるいはそれ以上の精度を達成しています。 - 高速かつ低コスト:
従来のNWPシステムと比較して、約3桁も少ない計算資源で天気予報を生成できます。例えば、HRESがデータ同化と予測に約1000ノード時間を要するのに対し、「Aardvark Weather」はわずか4つのNVIDIA A100 GPUで約1秒で予測を完了します。 - 柔軟なカスタマイズ:
特定の地域や関心のある気象現象に対して、システム全体をエンドツーエンドで最適化することが可能です。 - シンプルなモデル:
複雑な物理モデルの代わりに、ニューラルプロセスモデルという比較的シンプルな機械学習モデルを使用しています。 - 限られた入力データ:
既存のNWPシステムが利用できる観測データのわずか約8%のデータ量で、高い予測性能を実現しています。
これらの特徴により、「Aardvark Weather」は、計算資源が限られた地域での高性能な局地予報の実現や、特定のニーズに合わせたオーダーメイドの天気予報システムの迅速かつ安価な開発を可能にするなど、様々な分野で大きな変革をもたらす可能性を秘めています。

詳細解説
ここからは、論文の各項目に沿って、「Aardvark Weather」の詳細について解説していきます。
Introduction(はじめに)
1950年代の最初のコンピューターによる天気予報から始まり、NWPシステムは数十年にわたる地球観測、データ同化、流体力学、統計的後処理の研究に基づいて発展してきました。現代のNWPシステムは、15日先までの様々な気象変数を、10kmといった非常に細かい解像度で予測することが可能になっています。しかし、これらのシステムは複雑なモデルの組み合わせで構成されており、実行には専用のスーパーコンピューターが必要となります。
このような背景から、より高速で軽量、そしてカスタマイズ可能な代替手段の開発が求められていました。近年、機械学習が多くの分野で複雑な人間が設計したワークフローを置き換えることで革命を起こしており、天気予報においてもデータ駆動型のモデルがNWPパイプライン全体を置き換える可能性が示唆されてきました。
実際、機械学習モデルは、予測計算の数値ソルバーの代替、衛星データからの変数導出、予測データの後処理といった、NWPパイプラインの個々のコンポーネントにおいて、既存の最先端技術を凌駕する成果を上げています。しかし、最も困難なコンポーネントであるデータ同化システムを機械学習で置き換える研究は、まだ初期段階に留まっており、完全なエンドツーエンドのデータ駆動型ソリューションは、これまで実現されていませんでした。 2024年初頭の時点でも、AIによる天気予報の専門家は、完全なエンドツーエンドシステムは「おそらく数年先のこと」と考えていました。しかし、本論文では、そのようなブレークスルーが予想よりも早く実現したことが報告されています。それが、「Aardvark Weather」という、従来のNWPからの入力を一切必要とせず、生の観測データから直接天気予報を生成できる、世界初のエンドツーエンドのデータ駆動型天気予測システムです。
Results(結果)
Aardvark Weather
「Aardvark Weather」は、深層学習モデルであり、東向き風、北向き風、比湿、ジオポテンシャル、気温を複数の高度(200, 500, 700, 850hPa)、そして地表付近の風速(10m)、気温(2m)、海面更正気圧を地球規模の密な格子で予測します。さらに、特定の観測地点における気温(2m)と風速(10m)の予測も可能です。
「Aardvark」は、エンコーダ(Encoder)、プロセッサ(Processor)、デコーダ(Decoder)という3つの主要なモジュールで構成されています (Fig. 1 bottom)。トレーニング時には、高品質な過去の再解析データ(ERA5)を活用しますが、実際の予測時にはNWPの生成物を一切使用しません。
- エンコーダモジュール(Encoder Module):
様々なソースからの生(raw)の観測データを入力として受け取り、地球規模の格子状の初期状態を推定します。これには、リモートセンシング(衛星)データや、地上・海洋の観測プラットフォーム、ラジオゾンデ(高層気象観測)などのオンザグリッドおよびオフザグリッドのデータが含まれます (Fig. 2)。エンコーダは、欠損データや不規則なサンプリングデータに対応するために、深層学習の最新技術を活用しています。従来のNWPのデータ同化システムとは異なり、過去の予測を初期推測として使用するのではなく、観測データから直接予測を行います。これにより、シンプルでトレーニングと展開が容易なシステムとなり、時間経過に伴う不安定性や性能低下の影響を受けにくくなります。エンコーダのバックボーンには、Vision Transformer (ViT) が採用されています。 - プロセッサモジュール(Processor Module):
エンコーダによって推定された初期状態を入力として受け取り、24時間後の格子状の天気予報を生成します。それ以降の予測(例えば48時間後、72時間後など)は、プロセッサモジュールの予測結果を再び入力として自己回帰的(autoregressively)にフィードバックすることで生成されます。プロセッサモジュールも、Vision Transformerをベースとした複数のネットワークで構成されています。変数間の相互作用を捉えるために、クロスアテンションという仕組みが導入されています。プロセッサは、初期状態から将来の状態への直接的な予測ではなく、残差(前のステップからの変化量)を予測するようにトレーニングされます。 - デコーダモジュール(Decoder Module):
格子状の予測結果を入力として受け取り、特定のタスク(本研究では局地的な地点予報)に合わせた予測を出力します。デコーダモジュールは、軽量な畳み込みニューラルネットワーク(CNN)のアーキテクチャで実装されており、SetConvレイヤー を用いて格子状の予測を任意の地点の予測に変換します。本研究では、局地的な観測地点の気温と風速を予測するデコーダが用いられています。
Input variables
大気の状態を正確に推定するため、地表から高層まで多様な観測データが用いられます。地上観測は気象観測所や船舶から、高層観測はラジオゾンデから取得されます。これらの観測範囲が限られているため、衛星データが重要な補完となります。特に、表面風の散乱計、高層の温度・湿度プロファイルのマイクロ波・赤外線サウンダー、大気の状態を瞬間的に捉える静止気象サウンダーが主要な衛星データ源です。これらの観測は、リードタイムゼロの1時間から24時間前までの時間枠で取得され、時間的・地形的な変数も加味されます。

Performance evaluation: global forecasting(性能評価:地球規模の予測)
地球規模の格子状の天気予報の性能を評価するために、「Aardvark Weather」は4つのベースラインと比較されました。
- Persistence(持続性):現在の気象状態が将来も変化しないと仮定する最も単純なベースライン。
- Hourly climatology(毎時気候値): 過去の気象データの平均値(気候値)を予測とするベースライン。
- GFS(Global Forecast System): 米国国立環境予測センター(NCEP)の運用NWPシステム。
- HRES(High Resolution Forecast): 欧州中期気象予報センター(ECMWF)の運用NWPシステムであり、一般的にGFSよりも高い精度を示すことが多い。
評価には、緯度で重み付けされたRMSE(Root Mean Squared Error、二乗平均平方根誤差)という指標が用いられ、ERA5再解析データが正解(ground truth)として使用されました。
Fig. 3 および Fig. 6 に、主要な気象変数におけるRMSEの性能比較が示されています。


「Aardvark Weather」は、以下の点で注目すべき結果を示しました。
- 2m気温、海面更正気圧:
9日先までの予測で、GFSを大きく上回り、長期的にはHRESの性能に近づいています。 - 10m東向き風、10m北向き風:
8日先までの予測で、GFSと同程度の誤差であり、5日目以降はGFSを、7日目以降はHRESを上回る性能を示しています。 - 850hPa気温:
全ての予測期間でGFSを上回り、8日目以降はHRESを上回っています。 - 700hPa比湿:
最初の1日間はGFSと同程度、2日目以降はGFSを、5日目以降はHRESを上回る性能です。 - 500hPaジオポテンシャル:
他の変数と比較して誤差が大きいものの、8日先までHRESおよびGFSと同程度の性能を維持しています。 - 700hPa東向き風:
最初の4日間はGFSよりもわずかに誤差が大きいものの、その後はGFSを上回り、7日目以降はHRESに匹敵し、上回る性能を示しています。
Fig. 4 (および Fig. 7-29論文参照のこと) には、10m東向き風の地球規模の予測例が示されており、「Aardvark Weather」が中緯度システムや熱帯の特徴といった大規模な大気のパターンを捉え、南インド洋で発生した熱帯低気圧ベルギッタの形成と進路を正確に予測していることが分かります。これは、「Aardvark Weather」がメソスケール(中間規模)の高インパクトな気象現象を予測する可能性を示唆しています。

ただし、これらの結果を解釈する際には、いくつかの考慮事項があります。一般的に、「Aardvark」の誤差は、高層大気および短い予測期間で、運用ベースラインよりも大きくなる傾向があります。これは、地表付近の観測データがより豊富であることに起因する可能性が高いです。また、長期的な予測においては、予測モジュールを将来の誤差を最小化するように微調整することで、スペクトルがぼやける現象(高周波成分の損失)が見られますが、これはデータ駆動型の天気予測システムで一般的に見られる傾向です。
Performance evaluation: station forecasting(性能評価:地点予報)
次に、地球規模の格子状予測を基に、エンドユーザー向けのプロダクトとして重要な局地的な地点予報の性能評価が行われました。本研究では、人々の健康、農業、エネルギーなど、様々な分野で重要な2m気温と10m風速の予測に焦点が当てられています。
世界の異なる気象機関では、エンドユーザー向けの予報の作成方法が大きく異なります。資源が豊富な国(例えば米国)では、地球規模モデルに加えて、より高解像度の地域モデルや統計的な後処理が用いられます。一方、資源が限られた地域では、HRESやGFSといった地球規模モデルは利用できるものの、高解像度の地域モデルを実行したり、出力を後処理したりする計算資源や専門知識がないことが多いです。
このような状況を考慮し、地点予報のベースラインとして、単純な持続性や気候値に加えて、以下の2つの挑戦的なベースラインが設定されました。
- Station-corrected HRES(地点補正済みHRES): HRESの0.25度格子の最も近い格子点の予測値をまず選択し、その後、各観測地点ごとに学習されたアフィン変換(スケールとバイアス)を用いて系統的な誤差を補正したものです。この補正により、特に西アフリカや太平洋地域でHRESの性能が大幅に向上し、強力なベースラインとなっています。
- NDFD(National Digital Forecast Database): 米国国立気象局(NWS)が提供する、運用中のエンドツーエンドの予測システムです。30以上の予測モデルのアンサンブル、後処理、そして人間の予報官の判断が組み合わされています。地点予報は、約2kmの解像度を持つ最終的なNDFD予報の最も近い格子点の値として取得されました。
Fig. 5 (top) に、様々な地域における「Aardvark Weather」の地点予報の性能が示されています。
- 全世界: 気温と風速の両方で、10日先までの予測において、地点補正済みHRESと競争力のある性能を示しています。
- CONUS(米国本土)およびヨーロッパ: 気温予測において、地点補正済みHRESと遜色ない性能であり、驚くべきことに、CONUSにおいては運用中のNDFDベースラインと同等の性能を達成しています。
- 西アフリカおよび太平洋: 資源が限られたこれらの地域では、全ての予測期間において、地点補正済みHRESを上回る性能を示しています。
- 10m風速: CONUSでは地点補正済みHRESよりも誤差が大きいものの、NDFDベースラインを大幅に上回っています。ヨーロッパでは、4日目までは地点補正済みHRESと同程度の誤差であり、それ以降は上回っています。西アフリカでは一般的に地点補正済みHRESを上回っていますが、太平洋地域ではわずかに劣る結果となっています。
これらの結果は、「Aardvark Weather」が、特に従来の高性能な局地モデルが利用できない、資源の限られた地域において、非常に有望な局地予報ソリューションとなる可能性を示唆しています。

End-to-end tuning(エンドツーエンドのチューニング)
NWPプロダクトの利用者は通常、特定の地域や用途に関心を持っています。従来のNWPシステムでは、特定のユーザーのニーズに合わせてシステム全体を最適化することは困難でコストもかかります。しかし、「Aardvark Weather」の強力な機能の一つは、関心のある任意の変数や地域に対して、エンドツーエンドでシステム全体を直接最適化できることです。
この機能を検証するために、「Aardvark Weather」は、全世界および4つの特定の地域(CONUS、ヨーロッパ、西アフリカ、太平洋)における1日先の2m気温と10m風速の予測性能を最適化するように微調整(fine-tune)されました。
Fig. 5 (bottom) に示されているように、微調整を行うことで、全世界および全ての地域において性能の向上が確認されました。気温では、ヨーロッパ、西アフリカ、太平洋、そして全世界で平均絶対誤差(MAE)が6%の大幅な削減、CONUSでは3%の改善が見られました。10m風速では、太平洋を除く全ての地域で1-2%の統計的に有意な改善が観察されました。
これらの改善を既存のNWPシステムの進歩と比較すると、ECMWFのIFSの最新のサイクルアップデートでは、地表変数のスコアが2〜6%改善するのに、多くの科学者チームが1年以上の開発期間を要しています。このことから、「Aardvark Weather」のエンドツーエンドチューニングの有効性が示唆されます。
Discussion(考察)
本論文では、NWPパイプライン全体に取り組む初のデータ駆動型システムである、エンドツーエンドの天気予測システム「Aardvark Weather」が紹介されました。既存の、数値ソルバーの代わりに最新のAI予測モデルを活用するシステムを含む、あらゆる既存のシステムよりも桁違いに安価に、正確な予測を提供し、複数のタスクで運用NWPシステムを凌駕しています。
観測データからの完全な予測の生成には、4つのNVIDIA A100 GPU上で約1秒しかかかりません。これは、HRESがデータ同化と予測だけで約1000ノード時間を必要とするのと比較して、驚異的な計算コストの削減です。
エンドツーエンドモデルを学習することで、任意の変数や関心のある地域における性能を最大化するようにシステムを最適化できるという追加の機能が提供され、世界中のあらゆる地域向けに、安価でオーダーメイドのモデルを作成する道が開かれます。
エンドツーエンド予測は、現実世界に大きな影響を与える可能性を秘めています。従来のNWPシステムと比較して、機械学習システムは高速で計算コストが低いだけでなく、改善と保守が大幅に容易です。従来のNWPでは、例えば新しい物理過程のパラメーター化や微物理スキームの新しいモジュールを構築し、モデルに統合するには、チームがかなりの時間を要する可能性があります。一方、「Aardvark」のようなエンドツーエンドのデータ駆動型システムは、この複雑なパイプラインを単一のモデルに置き換えることで、この問題をエレガントに回避します。
このシステムのシンプルさは、NWPをすでに運用しているユーザーにとって展開と保守を容易にするだけでなく、従来のシステムを実行するためのリソースと専門知識が不足している発展途上地域においても、オーダーメイドのNWPを実行できる可能性を広げます。また、特定の地域や変数に対する予測スキルを最大化するために、オーダーメイドのモデルを微調整できる能力には、農業、再生可能エネルギー、保険、金融といった多様な分野のエンドユーザーが大きな関心を持っています。
本研究で提示された結果は、「Aardvark Weather」と、より広範なエンドツーエンドのデータ駆動型天気予測システムの可能性のほんの表面をなぞったに過ぎません。より多くの入力データモダリティを追加したり、エンコーダモジュールの観測期間を増やしたり、全てのモジュールに高解像度でより洗練されたアーキテクチャを利用したりすることで、このシステムをさらに改善できます。このパラダイムは、地球規模の予測にさらに多くの変数と高度を追加するなど、他の多くの予測モダリティを提供するように容易に拡張できます。また、ハリケーン、洪水、激しい対流、火災気象、その他の異常気象警報など、さまざまな種類のエンドユーザー予測を提供するための多様なデコーダモジュールを追加することもサポートしており、季節予測プロダクトを生成するより長いリードタイムにも同様に適用できます。さらに、追加の観測モダリティにより、大気質の予測のための大気化学や、海洋予測のための海洋パラメーターなど、地球システムの他のコンポーネントのモデリングも可能になります。「Aardvark Weather」が、これらの多様なタスクに取り組む新しい世代のエンドツーエンド天気予測システムの先駆けとなると考えています。
Methodology(方法論)
このセクションでは、「Aardvark Weather」のトレーニングに使用されたデータセット、モデルのアーキテクチャ、トレーニングの手法、評価指標などの技術的な詳細が説明されています。
「Aardvark Weather」のトレーニングには、過去の気象観測データ(衛星データ、地上観測データ、ラジオゾンデデータなど)と、ECMWFのERA5再解析データが用いられました。モデルのアーキテクチャは、ニューラルプロセス という種類の機械学習モデルをベースにしており、特にVision Transformer (ViT) と SetConvレイヤー を組み合わせた、新しいアーキテクチャを採用しています。
トレーニングは、エンコーダ、プロセッサ、デコーダの各モジュールに対して、個別の目的関数と手法を用いて行われました。特に、エンコーダモジュールは、観測データから大気の初期状態を正確に推定するように、プロセッサモジュールは、時間発展を予測するように、そしてデコーダモジュールは、格子状の予測から地点予報を生成するようにトレーニングされました。
性能評価には、地球規模の予測に対しては緯度重み付きRMSE、地点予報に対してはRMSE が用いられました。また、ベースラインとの比較や、エンドツーエンドの微調整の効果を検証するための実験も詳細に記述されています。
まとめ
本記事では、画期的なエンドツーエンドのデータ駆動型天気予測システム「Aardvark Weather」について解説しました。「Aardvark Weather」は、従来の数値天気予報(NWP)に頼らず、生の観測データから直接、高精度な地球規模および局地の天気予報を、驚くほど少ない計算資源で生成することができます。
その高い予測精度、高速性、低コスト、そして柔軟なカスタマイズ性は、天気予報の分野に革命をもたらす可能性を秘めています。特に、これまで高性能な局地予報システムを利用することが難しかった地域や、特定のニーズに合わせた天気予報システムの開発が、より容易かつ安価になることが期待されます。
「Aardvark Weather」の研究は、AIが複雑な科学的問題に対して、全く新しいアプローチを提供できることを示す好例と言えるでしょう。今後のこの技術の発展と、それが私たちの社会にもたらす恩恵に、大いに期待したいと思います。
コメント