AI技術– category –
-
OpenAIの新しい音声AI「gpt-realtime」登場:画像入力や電話連携で、より人間に近い対話へ
はじめに 本稿では、OpenAIが2025年8月28日に発表した、新しい音声対話(Speech-to-Speech)モデル「gpt-realtime」と、その基盤となる「Realtime API」の正式リリースに伴うアップデートについて詳しく解説します。この発表は、AIが音声で人間と対話す... -
[技術紹介]YouTubeのリアルタイムAIエフェクトの裏側:大規模モデルをスマホで動かす技術
はじめに YouTube Shortsで、自分の表情に合わせてキャラクターが動いたり、顔がアニメ風になったりするエフェクトを使ったことはありますか?まるで魔法のようにリアルタイムで動作するこれらの生成AIエフェクトは、実は非常に高度な技術の結晶です。大... -
[技術紹介]AIが拓くRNA治療の未来:機械学習による最適な「運び屋」ナノ粒子の設計
はじめに 近年、新型コロナウイルス感染症(COVID-19)のワクチンで一躍注目を集めたmRNA(メッセンジャーRNA)ワクチンをはじめとする、RNAを利用した医薬品開発が世界中で活発に進められています。このRNA医薬品は、従来の医薬品では難しかった様々な... -
[技術紹介]太陽活動予測の新時代:NASAとIBMのAIモデル「Surya」が拓く宇宙天気予報の未来
はじめに 本稿では、NASAが2025年8月20日に公開した記事「NASA, IBM’s ‘Hot’ New AI Model Unlocks Secrets of Sun」をもとに、NASAとIBMが共同で開発した太陽物理学の新たなAI基盤モデル「Surya(スーリヤ)」について、その技術的な側面と社会的な意義... -
[開発者向け]Gemini APIの新機能!URLを指定するだけでPDFや画像も読み込める「URLコンテキストツール」
はじめに 本稿では、Google Developers Blogで公開された記事「URL context tool for Gemini API now generally available」を基に、Gemini APIの新しいツールである「URLコンテキストツール」について、解説します。このツールは、AIアプリケーション開... -
[開発者向け]Googleの最新画像生成AI「Imagen 4」がAPIで利用可能に!3つのモデルを使い分けて創造性を加速
はじめに 本稿では、Google Developers Blogで2025年8月15日に公開された記事「Announcing Imagen 4 Fast and the general availability of the Imagen 4 family in the Gemini API」を基に、Googleの最新テキスト画像生成モデル「Imagen 4」ファミリー... -
[開発者向け]NVIDIA、多言語音声AIの障壁を低減する新データセットとモデルを公開
はじめに 本稿では、NVIDIAが新しく公開した多言語音声AIのためのデータセットとモデルについて、その技術的なポイントや意義を詳しく解説します。音声認識や翻訳AIは急速に発展していますが、対応言語の数には大きな偏りがあるのが現状です。今回NVIDIA... -
[技術紹介]軽量モデルで実現するプライバシー保護合成データ生成の新技術「CTCL」
はじめに 近年、AI技術は目覚ましい発展を遂げていますが、その学習には大量のデータが不可欠です。しかし、個人情報や機密情報を含むデータを扱う際には、プライバシーの保護が極めて重要な課題となります。この課題を解決する一つの方法として、元のデ... -
[技術紹介]Microsoft Researchが発表した大規模AIモデルの学習を加速する新最適化アルゴリズム「Dion」とは?
はじめに 本稿では、近年のAIモデルの大規模化に伴う学習コストの増大という課題に取り組むための新しい技術として、Microsoft Researchが発表した最適化アルゴリズム「Dion」について解説します。AIの学習において、どの様にパラメータを更新するかを決... -
[事例紹介]AIが宇宙から苗木を数える:Meta社の「DINOv3」が拓く森林再生の未来
はじめに 本稿では、AI技術が地球規模の環境問題、特に森林再生の取り組みをどのように支援しているかについて、具体的な事例をもとに解説します。最先端のAIが、宇宙から一本一本の苗木の成長を見守る。そんな未来がすでに現実のものとなりつつあります...