Instrucciones ocultas de IA revelan el control de Anthropic sobre Claude 4

El investigador independiente Simon Willison analiza las instrucciones de sistema de Claude 4, revelando cómo Anthropic controla el comportamiento de sus modelos de IA.

Última actualización 20252025-05-28T07:23:49Z

El domingo, el investigador independiente de inteligencia artificial Simon Willison publicó un análisis detallado de las instrucciones de sistema recientemente publicadas por Anthropic para los modelos Opus 4 y Sonnet 4 de Claude 4, ofreciendo perspectivas sobre cómo Anthropic controla el 'comportamiento' de los modelos a través de sus resultados. Willison examinó tanto las instrucciones publicadas como las instrucciones internas filtradas de las herramientas, revelando lo que él describe como 'una especie de manual no oficial para usar estas herramientas de la mejor manera'.

Para entender de qué habla Willison, es necesario explicar qué son las instrucciones de sistema. Los modelos de lenguaje de gran escala (LLM), como los que alimentan Claude y ChatGPT, procesan una entrada llamada 'prompt' y devuelven una salida que es la continuación más probable de ese prompt. Las instrucciones de sistema son directrices que las empresas de IA proporcionan a los modelos antes de cada conversación para establecer cómo deben responder.

Instrucciones ocultas de IA revelan el control de Anthropic sobre Claude 4

Podría gustar