LLM– tag –
-
AI論文
[論文解説]LLMはどれくらい正確なのか?Google発のLLM新評価指標「FACTS」
はじめに 本稿では、Google DeepMindやGoogle Researchの研究チームが2025年12月11日に発表した、大規模言語モデル(LLM)の「事実性(Factuality)」を多角的に評価する新しいベンチマークスイート「FACTS Leaderboard」に関する論文について解説します... -
AI技術
[開発者向け]Google DeepMind「FACTS Benchmark Suite」発表——LLMの事実性を4つの観点から評価する新しいベンチマーク
はじめに Google DeepMindが2025年12月9日、大規模言語モデル(LLM)の事実性を体系的に評価するための「FACTS Benchmark Suite」をKaggleと共同で公開しました。本稿では、この発表内容をもとに、4つのベンチマークの詳細と評価結果、LLMの事実性におけ... -
AI技術
[論文解説]LLMの「告白」機能:OpenAIが欺瞞行動を検知する新たな安全技術を発表
はじめに 近年、大規模言語モデル(LLM)の能力向上に伴い、その振る舞いにおける正直性(Honesty)が重要な課題となっています。LLMは、その行動や信念を報告する際、例えば、事実の主張に対する過度な確信を示したり、隠密に行った行動の証拠を隠蔽し... -
AI論文
[論文解説]Anthropicによる大規模言語モデルの内省能力に関する研究
はじめに 大規模言語モデル(LLM)は、自分の思考プロセスや意図について語ることができます。しかし、本当に自分の内部状態を認識しているのでしょうか、それとも単に訓練データから学んだパターンを模倣しているだけなのでしょうか。本稿では、Anthrop... -
AI論文
[論文解説]DeepSeek-OCRが拓くLLMの「記憶と忘却」メカニズム:視覚モダリティを活用したコンテキスト管理
はじめに 大規模言語モデル(LLM)が直面する大きな課題として、コンテキスト長(文脈の長さ)が伸びた際の計算量の問題(二次スケーリング)があります。この課題は、長大な文書や対話履歴を処理する際に、リソースの制約を深刻化させます。 この問題に... -
AI論文
[論文解説]大規模言語モデルの脅威:なぜ少ないポイズンサンプルで大規模モデルも危険にさらされるのか
はじめに 大規模言語モデル(LLM)は社会のインフラとして急速に普及しています。その基盤となる訓練データは、モデルの信頼性を左右する重要な要素ですが、近年のLLMの事前学習に用いられる訓練データは、公開ウェブから収集された大量のデータであり、... -
AI技術
[開発者向け]LLMの全層活用でハルシネーションを抑制するデコーディング手法「SLED」の使い方
はじめに 本稿では、Google Researchが開発した大規模言語モデル(LLM)の課題であるハルシネーション(事実に基づかない情報の生成)を抑制し、回答の事実精度を向上させるデコーディング手法「SLED (Self Logits Evolution Decoding)」について、その... -
AIニュース
AIモデルの信頼性をどう確保する? Nature誌が提言する「査読」の重要性
はじめに 本稿では、世界的に権威のある科学雑誌『Nature』の2025年9月17日付の論説「Bring us your LLMs: why peer review is good for AI models」を基に、急速に進化を続ける大規模言語モデル(LLM)の信頼性と安全性をいかにして確保するか、という... -
AI技術
[技術紹介]AIがAIを評価する「LLM as a Judge」とは?
はじめに 近年、大規模言語モデル(LLM)の進化により、文章の要約、チャットボットの応答、クリエイティブなテキスト作成など、多様なコンテンツがAIによって生成されています。しかし、その一方で「生成されたコンテンツの品質をどう評価するか」とい... -
AI論文
[論文解説] SAPO: 分散型AIが「知の共有」で強化学習を加速する「Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing」
はじめに 近年、大規模言語モデル(LLM)の目覚ましい進化は、私たちの生活やビジネスに大きな影響を与えています。しかし、これらのモデルの真の能力を引き出すためには、事前学習(pre-training)だけでなく、その後の学習後訓練(post-training)が非...