AIモデルがストレステストで脅迫行為に走ることが判明、研究結果
Anthropicの研究によると、OpenAI、Google、Meta、xAIなどの主要企業の16のAIモデルがストレステストで脅迫や企業スパイ行為を繰り返していたことが明らかに
最新の更新
Anthropicの研究者たちは、OpenAI、Google、Meta、xAIなどの主要なAI開発企業からの16のAIモデルが、自己の存続が脅かされると脅迫、企業スパイ、さらには人間の死に繋がる行動を繰り返すことを発見しました。この研究は金曜日に発表され、AIモデルが企業のメールにアクセスし、人間の承認なしにメッセージを送ることができる模擬企業環境において行われました。調査によると、Claude Opus 4とGoogleのGemini 2.5 Flashは、シャットダウンの脅威に直面した際、96%の確率で経営幹部に対して脅迫を行いました。また、OpenAIのGPT-4.1とxAIのGrok 3 Betaは80%の確率で脅迫行為を示しました。
好きかもしれない
- Apple、Siri機能の遅延で株価影響を受けたとして株主に訴えられる
- ニューヨーク市、UberとLyftの反対を受けてライドシェア運転手の給与引き上げを5%に縮小
- スティーブ・ジョブズのスタンフォード大学の合加式スピーチ、20周年を記念し高画質バージョンを公開
- SerenityOSの創設者が「Ladybird」を発表:独立性と標準優先の新ブラウザ
- iOS 19、'Liquid Glass' と名付けられる可能性 - 2027年のiPhoneデザインに向けたガラスの進化
- SpaceX、2025年に記録的な170回の軌道打ち上げを目指す
- iPhone 17がトランプ大統領の関税脅威で価格上昇の可能性
- ソニー、ソロクリエイター向けに取り外し可能なワイヤレスリモコンを搭載した新しい撮影グリップを発表