LLM– tag –
-
AI技術
[開発者向け]OpenAI Codex CLIのエージェントループを解剖する——プロンプト構築から推論、ツール呼び出しまで
はじめに OpenAIが2026年1月23日、ソフトウェアエージェント「Codex CLI」の内部動作を解説する技術記事「Unrolling the Codex agent loop」を公開しました。本稿では、エージェントループの基本構造、プロンプトの構築方法、パフォーマンス最適化の工夫... -
AI技術
[開発者向け]LLMには数学的な限界がある──エージェント型AIの可能性を問う研究
はじめに 大規模言語モデル(LLM)を基盤とするAIエージェントには、数学的に証明可能な限界が存在する──。こうした研究結果が、米国の技術メディアGizmoDoによって2026年1月23日に報じられました。本稿では、この報道をもとに、LLMの計算能力の限界と、エ... -
AI論文
[論文解説]LLMはどれくらい正確なのか?Google発のLLM新評価指標「FACTS」
はじめに 本稿では、Google DeepMindやGoogle Researchの研究チームが2025年12月11日に発表した、大規模言語モデル(LLM)の「事実性(Factuality)」を多角的に評価する新しいベンチマークスイート「FACTS Leaderboard」に関する論文について解説します... -
AI技術
[開発者向け]Google DeepMind「FACTS Benchmark Suite」発表——LLMの事実性を4つの観点から評価する新しいベンチマーク
はじめに Google DeepMindが2025年12月9日、大規模言語モデル(LLM)の事実性を体系的に評価するための「FACTS Benchmark Suite」をKaggleと共同で公開しました。本稿では、この発表内容をもとに、4つのベンチマークの詳細と評価結果、LLMの事実性におけ... -
AI技術
[論文解説]LLMの「告白」機能:OpenAIが欺瞞行動を検知する新たな安全技術を発表
はじめに 近年、大規模言語モデル(LLM)の能力向上に伴い、その振る舞いにおける正直性(Honesty)が重要な課題となっています。LLMは、その行動や信念を報告する際、例えば、事実の主張に対する過度な確信を示したり、隠密に行った行動の証拠を隠蔽し... -
AI論文
[論文解説]Anthropicによる大規模言語モデルの内省能力に関する研究
はじめに 大規模言語モデル(LLM)は、自分の思考プロセスや意図について語ることができます。しかし、本当に自分の内部状態を認識しているのでしょうか、それとも単に訓練データから学んだパターンを模倣しているだけなのでしょうか。本稿では、Anthrop... -
AI論文
[論文解説]DeepSeek-OCRが拓くLLMの「記憶と忘却」メカニズム:視覚モダリティを活用したコンテキスト管理
はじめに 大規模言語モデル(LLM)が直面する大きな課題として、コンテキスト長(文脈の長さ)が伸びた際の計算量の問題(二次スケーリング)があります。この課題は、長大な文書や対話履歴を処理する際に、リソースの制約を深刻化させます。 この問題に... -
AI論文
[論文解説]大規模言語モデルの脅威:なぜ少ないポイズンサンプルで大規模モデルも危険にさらされるのか
はじめに 大規模言語モデル(LLM)は社会のインフラとして急速に普及しています。その基盤となる訓練データは、モデルの信頼性を左右する重要な要素ですが、近年のLLMの事前学習に用いられる訓練データは、公開ウェブから収集された大量のデータであり、... -
AI技術
[開発者向け]LLMの全層活用でハルシネーションを抑制するデコーディング手法「SLED」の使い方
はじめに 本稿では、Google Researchが開発した大規模言語モデル(LLM)の課題であるハルシネーション(事実に基づかない情報の生成)を抑制し、回答の事実精度を向上させるデコーディング手法「SLED (Self Logits Evolution Decoding)」について、その... -
AIニュース
AIモデルの信頼性をどう確保する? Nature誌が提言する「査読」の重要性
はじめに 本稿では、世界的に権威のある科学雑誌『Nature』の2025年9月17日付の論説「Bring us your LLMs: why peer review is good for AI models」を基に、急速に進化を続ける大規模言語モデル(LLM)の信頼性と安全性をいかにして確保するか、という...