音声認識– tag –
-
[開発者向け]NVIDIA、多言語音声AIの障壁を低減する新データセットとモデルを公開
はじめに 本稿では、NVIDIAが新しく公開した多言語音声AIのためのデータセットとモデルについて、その技術的なポイントや意義を詳しく解説します。音声認識や翻訳AIは急速に発展していますが、対応言語の数には大きな偏りがあるのが現状です。今回NVIDIA... -
[技術紹介]声でAIを自由自在に操る時代へ!Gemini 2.5の音声生成技術の最前線
はじめに 本稿では、Google DeepMindが発表した最新AIモデル「Gemini 2.5」に搭載された、高度な音声対話および音声生成機能についてGoogle Blogに掲載された「Advanced audio dialog and generation with Gemini 2.5」をもとに詳しく解説します。 引用...
1