[開発者向け]GoogleのオンデバイスAIが音声に対応:Google AI Edge Galleryアプリで実力を簡単に体験可能に

目次

はじめに

 本稿では、Google Developers Blogの発表を基に、軽量AIモデル「Gemma 3n」が音声認識に対応した件、そしてその機能を実際に試せるデモアプリケーション「Google AI Edge Gallery」がGoogle Playストアで公開された件について紹介します。

参考記事

要点

  • GoogleのオンデバイスAI処理技術「Google AI Edge スタック」が、新たに音声入力に対応した。
  • 音声に対応した最初のモデルは、Googleが開発した軽量大規模言語モデル「Gemma 3n」である。
  • 主な新機能として、高品質な音声の文字起こしと、音声を異なる言語のテキストへ翻訳する機能が利用可能になった。
  • これらの新機能を実機で体験できるオープンソースのデモアプリ「Google AI Edge Gallery」が、Google Playストアで公開された。これにより、開発者でなくとも手軽に最新技術を試せる。
  • アプリ内の新機能「Audio Scribe」を使えば、インターネット接続なしで、スマートフォン上で直接音声の文字起こしを実行できる。

詳細解説

そもそも「オンデバイスAI」とは?

 今回の発表内容を理解する上で、まず「オンデバイスAI」という技術について知っておく必要があります。

 従来のAI機能の多くは、データを一度インターネット経由でサーバーに送信し、サーバー上の強力なコンピュータで処理した結果をデバイスに返す「クラウドAI」という仕組みで動作していました。

 

 それに対して「オンデバイスAI」は、スマートフォンやPCなどのデバイス内部でAI処理を完結させる技術です。これには、主に以下の3つの大きな利点があります。

  1. プライバシーの保護: 音声や画像などの個人情報を含むデータを外部に送信しないため、プライバシー漏洩のリスクを大幅に低減できます。
  2. 低遅延(リアルタイム性): サーバーとの通信が不要なため、処理結果が素早く得られます。リアルタイムでの応答が求められる機能に適しています。
  3. オフラインでの利用: インターネット接続がない環境でもAI機能を利用できます。

 このように、オンデバイスAIは、より安全で快適なAI体験を実現するための重要な技術です。

Gemma 3nが音声に対応

 今回の発表のポイントは、GoogleのオンデバイスAI技術群である「Google AI Edgeスタック」が、従来のテキストや画像に加えて新たに「音声」を扱えるようになったことです。

 この機能を最初に搭載したモデルが、Google製の軽量言語モデル「Gemma 3n」です。開発者は、「MediaPipe LLM Inference API」というツールを通じて、AndroidアプリやWebアプリに以下の機能を組み込めるようになります。

  • 高品質な音声文字変換: マイクで録音した声や音声ファイルの内容を、高精度にテキスト化します。
  • 音声翻訳テキスト変換: ある言語の音声を、別の言語のテキストに翻訳します。

 現時点では、最大30秒までの音声クリップを処理する形式(バッチ推論)に対応しており、今後はリアルタイムで音声を処理し続ける「ストリーミング音声」への対応も計画されています。これにより、リアルタイム翻訳アプリなど、さらに高度な応用が期待されます。

誰でも試せるデモアプリ「Google AI Edge Gallery」

 Googleは、この新しい音声機能を開発者や利用者が手軽に体験できるように、デモアプリ「Google AI Edge Gallery」をGoogle Playストアでオープンベータ版として公開しました。

 このアプリは、オンデバイスAIの様々な機能を試せるインタラクティブな遊び場のようなもので、ソースコードは引き続きGitHubで公開されています。つまり、「Playストアで手軽に試し、GitHubでコードを学ぶ」という環境が提供されたことになります。

 特に注目すべきは、アプリ内に追加された「Audio Scribe」という新機能です。これを使えば、デバイスのマイクで音声を録音したり、音声ファイルをアップロードしたりするだけで、Gemma 3nがスマートフォン上で直接文字起こしを実行します。前述の通り、この処理はすべてデバイス内で完結するため、インターネット接続は不要です。

今後の展望

 Googleは、今回のリリースは始まりに過ぎないとしており、今後数ヶ月でさらなる機能強化を計画しています。

  • iOSへの対応: 現在はAndroidのみですが、iOSユーザーにもアプリを提供予定です。
  • より高度なAI機能の追加: 外部の知識データベースを参照して回答を生成する「RAG(検索拡張生成)」や、AIが外部ツールを呼び出してタスクを実行する「オンデバイス関数呼び出し」といった、より複雑な機能のデモを追加予定です。
  • 開発の柔軟性向上: アプリの動作基盤を、より透明性の高いオープンソースの実行環境である「LiteRT-LM」に移行し、開発者がより自由にカスタマイズできるようにします。

 これらの計画からは、GoogleがオンデバイスAIの可能性をさらに広げ、開発者コミュニティと共にエコシステムを構築していこうとする強い意志が感じられます。

まとめ

 今回の発表は、GoogleのオンデバイスAI技術が、テキストや画像だけでなく、私たちのコミュニケーションの基本である「音声」という領域にまで拡大したことを示しています。そして、その最先端技術を安全かつ手軽に体験できる「Google AI Edge Gallery」アプリがPlayストアで公開されたことで、オンデバイスAIの普及がさらに加速することが期待されます。

 特に、プライバシーを保護しながら高度な音声処理がオフラインで可能になる点は、今後のアプリケーション開発に大きな影響を与えると考えられます。

この記事が気に入ったら
フォローしてね!

  • URLをコピーしました!
  • URLをコピーしました!
目次