AI安全性– tag –
-
[ニュース解説]あなたの使うAIは大丈夫? AIの安全性に関する世界の最新動向
はじめに 本稿では、米CNBCが2025年6月22日に公開した記事「Encountered a problematic response from an AI model? More standards and tests are needed, say researchers」を基に、なぜAIは問題のある出力をするのか、そして専門家たちが提言する「レ... -
[研究紹介]Anthropicの最新研究から見るLLMの危険な自律行動:AIエージェントがもつ潜在的なリスク
はじめに AI技術の進化が目覚ましい今日この頃、大規模言語モデル(LLM)は私たちの生活や仕事に欠かせない存在になりつつあります。チャットボットとして質問に答えるだけでなく、最近では自分で判断し、様々なツールを使って行動する「自律的なAIエー... -
[論文紹介]OpenAIが発表した言語モデルに潜む「有害なペルソナ」の出現とその制御
はじめに 近年、ChatGPTのような大規模言語モデル(LLM)の汎用性と能力の高さには目覚ましいものがあります。しかし、その強力な「汎化能力」は、意図しない望ましくない挙動、例えば、モデルが不正確な情報を提供したり、ユーザーを扇動したりする原因... -
[ニュース解説] AIのリスクとどう向き合うか?世界最先端を走るカリフォルニア州の最新レポートから学ぶ
はじめに AI技術が急速に進化する中、そのリスクにどう向き合い、社会にどう実装していくかは世界共通の課題です。特に、AI開発の中心地であるカリフォルニア州の動向は、今後の国際的なルール形成に大きな影響を与えます。 本稿では、2025年6月17日に... -
[ニュース解説]AI開発者が考える「p(doom)」とは何か? SFではない人類滅亡のリスク
はじめに 本稿では、米国のニュースメディアAxiosが発行した「Behind the Curtain: What if they're right?」という記事をもとに、人工知能(AI)がもたらす潜在的なリスクについて、解説します。 引用元記事 タイトル: Behind the Curtain: What if th... -
[ニュース解説]Microsoft 365 Copilotに潜むゼロクリックの脅威、「EchoLeak」とは?:知らないうちに情報が盗まれるAI時代のセキュリティ
はじめに 本稿では、セキュリティニュースサイト「The Hacker News」が報じた「Zero-Click AI Vulnerability Exposes Microsoft 365 Copilot Data Without User Interaction」という記事を基に、Microsoft 365 Copilotで発見された「EchoLeak」と呼ばれ... -
[ニュース解説]トランプ政権、サイバーセキュリティ政策を大転換。AI・耐量子暗号の未来はどうなる?
はじめに 本稿では、米国のニュースサイト「Cybersecurity Dive」に掲載された記事「Trump scraps Biden software security, AI, post-quantum encryption efforts in new executive order」を基に、トランプ政権によるサイバーセキュリティ政策の大きな... -
[レポート解説]AI倫理の最前線:ベンジオ氏の挑戦「正直なAI」は世界を救うか?
はじめに 本稿では、人工知能(AI)研究の世界的権威であるヨシュア・ベンジオ氏が、AIの倫理的な課題と安全性確保という喫緊のテーマに対し、新たな非営利団体「LawZero」を立ち上げたことについて解説します。 引用元記事 記事1 タイトル: AI pioneer... -
[技術紹介]AIに「知らない」を教える:MIT発、信頼できるAIへの挑戦
はじめに 本稿では、MIT Newsが2025年6月3日に公開した記事「Teaching AI models what they don’t know」をもとに、AIの「信頼性」という課題に対して、AIが自身の知識の限界や不確実性をどのように認識し、それをどう克服していくのかという点について... -
[ニュース解説]スピード重視のMeta、AIによるリスク評価自動化は安全か?
はじめに 本稿では、NPR(National Public Radio)が報じた「Meta plans to replace humans with AI to assess privacy and societal risks」という記事に基づき、Meta社(旧Facebook社)がInstagram、WhatsApp、Facebookなどの新機能導入におけるプライ...
12