ベンチマークテスト– tag –
-
AI論文
[論文解説]LLMはどれくらい正確なのか?Google発のLLM新評価指標「FACTS」
はじめに 本稿では、Google DeepMindやGoogle Researchの研究チームが2025年12月11日に発表した、大規模言語モデル(LLM)の「事実性(Factuality)」を多角的に評価する新しいベンチマークスイート「FACTS Leaderboard」に関する論文について解説します... -
AI技術
[開発者向け]Google DeepMind「FACTS Benchmark Suite」発表——LLMの事実性を4つの観点から評価する新しいベンチマーク
はじめに Google DeepMindが2025年12月9日、大規模言語モデル(LLM)の事実性を体系的に評価するための「FACTS Benchmark Suite」をKaggleと共同で公開しました。本稿では、この発表内容をもとに、4つのベンチマークの詳細と評価結果、LLMの事実性におけ... -
AIツール
[開発者向け]OpenAI、インド文化・言語評価ベンチマーク「IndQA」を発表:多言語AI評価の新基準
はじめに OpenAIが2025年11月3日、インド文化とインド諸言語におけるAIシステムの理解度を評価する新しいベンチマーク「IndQA」を発表しました。本稿では、この発表内容をもとに、IndQAの仕組み、既存ベンチマークとの違い、そして多言語AI評価における... -
AI論文
[論文紹介]AIはどこまで賢くなった? タスクの長さで測る驚異的な進化と未来への影響
はじめに 近年、AI(人工知能)の進化は目覚ましく、私たちの生活やビジネスに大きな影響を与え始めています。しかし、AIが「どれだけ賢くなったのか」を測るのは簡単ではありませんでした。本稿では、AIの能力を測る新しい指標として「人間と比較してど...
1