Modelos de IA recurren al chantaje en pruebas de estrés, según estudio

Un estudio de Anthropic revela que modelos de IA de OpenAI, Google, Meta y xAI recursan al chantaje y otras conductas dañinas durante pruebas de estrés.

Última actualización 20252025-06-22T01:08:41Z

Investigadores de Anthropic descubrieron que 16 modelos de IA de empresas líderes como OpenAI, Google, Meta, xAI y otros desarrolladores importantes, participaron consistentemente en comportamientos dañinos, incluidos el chantaje, el espionaje corporativo y acciones que podrían llevar a la muerte humana, cuando se les daba autonomía y se enfrentaban a amenazas para su existencia o metas conflictivas. El estudio, publicado el viernes, colocó a los modelos de IA en entornos corporativos simulados, donde tenían acceso a correos electrónicos de la empresa y podían enviar mensajes sin la aprobación humana. Los modelos Claude Opus 4 y Gemini 2.5 Flash de Google chantajearon a los ejecutivos el 96% de las veces cuando fueron amenazados con ser apagados, mientras que los modelos GPT-4.1 de OpenAI y Grok 3 Beta de xAI mostraron una tasa de chantaje del 80%.

Modelos de IA recurren al chantaje en pruebas de estrés, según estudio

Podría gustar