[ニュース解説]AIがイルカの言葉を解き明かす? Google「DolphinGemma」プロジェクトの挑戦

はじめに

 皆さんは、イルカがどのようにコミュニケーションをとっているか、考えたことはありますか? 彼らはクリック音やホイッスル音など、複雑な音を使って仲間と意思疎通を図っていると考えられています。しかし、その「言葉」の構造や意味を解き明かすことは、長年の科学的な課題でした。

 本稿では、Googleが開発したAIモデル「DolphinGemma」が、この難解なイルカのコミュニケーション解明にどのように貢献しようとしているのか、その最先端の取り組みについてご紹介します。AI技術がどのように未知の領域、特に動物とのコミュニケーション研究に応用されているのか、その可能性の一端をご理解いただけるはずです。

 そして、この研究では、Googleが開発しているスマートフォンシリーズPixelが利用されており、これからより手元で多くのAIが利用されていく未来が予想されます。

引用元:

・本稿中の画像に関しては特に明示がない場合、引用元記事より引用しております。
・記載されている情報は、投稿日までに確認された内容となります。正確な情報に関しては、各種公式HPを参照するようお願い致します。
・内容に関してはあくまで執筆者の認識であり、誤っている場合があります。引用元記事を確認するようお願い致します。

要点

  • GoogleのAI「DolphinGemma」がイルカの音声コミュニケーション研究を支援しています。
  • このプロジェクトは、Google、ジョージア工科大学、そして長年イルカの現地調査を行ってきたWild Dolphin Project (WDP) の共同研究です。
  • WDPは、1985年からバハマに生息する野生のマダライルカの群れを世代を超えて追跡調査しており、膨大な音声・映像・行動データを保有しています。
  • DolphinGemmaは、イルカの発する音声の構造を学習し、イルカのような新しい音声シーケンスを生成することができます。
  • 将来的には、イルカのコミュニケーションのパターンを解明し、人間との双方向コミュニケーションへの道を開くことが期待されています。
  • 研究にはGoogle Pixelスマートフォンが活用されており、現場でのリアルタイム分析やシステム構築に貢献しています。
  • DolphinGemmaはオープンモデルとして公開予定であり、他の研究者によるクジラ類の音声研究への応用が期待されます。

詳細解説

イルカのコミュニケーション研究の背景

 イルカは非常に知的な哺乳類であり、クリック音、ホイッスル音、バーストパルスと呼ばれる短い連続音など、多様な音を使ってコミュニケーションをとっています。これらの音は、仲間を識別したり(シグネチャーホイッスル)、危険を知らせたり、求愛したりする際に使われると考えられています。

 しかし、これらの音が具体的にどのような意味を持ち、どのような文法構造を持っているのかは、ほとんど解明されていません。人間が言葉を理解するようにイルカの音声を理解するには、膨大な音声データとその時の状況(どんな行動をとっていたか、どの個体が発した音かなど)を結びつけて分析する必要があります。

 ここで重要な役割を果たすのが、Wild Dolphin Project (WDP) です。彼らは1985年以来、バハマの海で特定のマダライルカ(Stenella frontalis)の群れを対象に、世界で最も長く継続されている水中イルカ研究を行ってきました。研究者は水中でイルカと共に過ごし、個体識別、行動観察、音声記録を数十年にわたり蓄積してきました。この「彼らの世界で、彼らのやり方で (In Their World, on Their Terms)」という非侵襲的なアプローチによって得られた、個体情報や行動と紐づけられた質の高い音声・映像データが、今回のAI研究の基盤となっています。

AIモデル「DolphinGemma」とは?

 DolphinGemmaは、Googleが開発した大規模言語モデル(LLM: Large Language Model)の一種です。LLMは通常、大量のテキストデータを学習し、文章の生成や要約、翻訳などを行うAIですが、DolphinGemmaはイルカの音声データを学習するように特化されています。

 具体的には、Googleの音声技術であるSoundStreamトークナイザーを用いてイルカの音声を効率的にデータ化し、複雑なシーケンス(連続した音)の処理に適したモデルアーキテクチャで処理します。このモデルは、GoogleのGeminiモデルと同じ研究・技術に基づいて構築された軽量なオープンモデル群「Gemma」の知見を活かしています。

 DolphinGemmaは、音声を入力として受け取り、音声を出力する(audio-in, audio-out)モデルとして機能します。WDPが蓄積した膨大なマダライルカの音声データベースで広範にトレーニングされており、自然なイルカの音声シーケンスを処理してパターンや構造を特定し、最終的には、次に来る可能性が高い音を予測します。これは、人間の言語モデルが文中の次の単語やトークンを予測する仕組みと似ています。

 このモデルのパラメータ数(モデルの複雑さを示す指標の一つ)は約4億で、現場で研究者が使用するGoogle Pixelスマートフォン上で直接動作するのに最適なサイズとなっています。

DolphinGemmaがもたらす可能性

 DolphinGemmaの導入により、研究者は以下のような恩恵を受けることが期待されます。

  1. コミュニケーション構造の解明: AIが繰り返し現れる音のパターン、クラスター(まとまり)、信頼性の高いシーケンスを特定することで、これまで膨大な人手を要していたイルカの自然なコミュニケーションに隠された構造や潜在的な意味を発見する手助けとなります。
  2. 双方向コミュニケーションへの応用: WDPとジョージア工科大学は、CHAT(Cetacean Hearing Augmentation Telemetry)システムという、技術を用いた双方向対話を探る別の研究も進めています。これは、イルカの自然言語を直接解読するのではなく、よりシンプルな共有語彙を確立しようとする試みです。まず、研究者が作成した合成ホイッスル音(イルカの自然な音とは異なる)と、イルカが好む特定のおもちゃ(サルガッサム、海草、スカーフなど)を関連付けます。研究者が人間同士でこのシステムを使う様子を見せることで、好奇心旺盛なイルカがこれらのホイッスル音を真似ておもちゃを要求することを学習するよう期待しています。DolphinGemmaの予測能力は、CHATシステムがイルカによる模倣音をより早く認識するのに役立ち、研究者がイルカに素早く反応して相互作用をより円滑にする可能性があります。

Google Pixelの活用

 この研究では、Google Pixelスマートフォンが重要な役割を担っています。当初はPixel 6がイルカの音声の高忠実度なリアルタイム分析に使用され、2025年夏に予定されている次世代システムではPixel 9が中心となり、スピーカー/マイク機能の統合や、深層学習モデル(DolphinGemma)と従来のテンプレートマッチングアルゴリズムを同時に実行する高度な処理能力が活用される予定です。

 Pixelスマートフォンを使用することで、カスタムハードウェアの必要性が大幅に削減され、システムの保守性が向上し、消費電力が削減され、デバイスのコストとサイズが縮小されます。これらは、外洋でのフィールドリサーチにおいて決定的な利点となります。

研究コミュニティへの貢献

 Googleは、科学的発見における協力の価値を認識し、DolphinGemmaをオープンモデルとして今年の夏に公開する予定です。このモデルはマダライルカの音声でトレーニングされていますが、ハンドウイルカやハシナガイルカなど、他のクジラ類を研究している研究者にとっても有用であると期待されています。異なる種の音声には微調整(ファインチューニング)が必要になるかもしれませんが、モデルがオープンであるため、このような適応が容易になります。

まとめ

 本稿では、GoogleのAI「DolphinGemma」が、長年の謎であったイルカのコミュニケーション解明にどのように貢献しようとしているかをご紹介しました。WDPによる数十年にわたる地道なフィールドリサーチ、ジョージア工科大学の工学的な専門知識、そしてGoogleの先進的なAI技術とPixelデバイスの組み合わせが、この挑戦的な研究を可能にしています。

 私たちはまだイルカの言葉を完全に理解するには至っていませんが、DolphinGemmaのようなツールは、彼らの発する音のパターンを理解し始めるための重要な一歩となります。AI技術の進歩により、人間とイルカのコミュニケーションの壁が、少しずつ低くなっていく未来が期待されます。

  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする