Instrucciones ocultas de IA revelan el control de Anthropic sobre Claude 4
El investigador independiente Simon Willison analiza las instrucciones de sistema de Claude 4, revelando cómo Anthropic controla el comportamiento de sus modelos de IA
Última actualización
El domingo, el investigador independiente de inteligencia artificial Simon Willison publicó un análisis detallado de las instrucciones de sistema recientemente publicadas por Anthropic para los modelos Opus 4 y Sonnet 4 de Claude 4, ofreciendo perspectivas sobre cómo Anthropic controla el 'comportamiento' de los modelos a través de sus resultados. Willison examinó tanto las instrucciones publicadas como las instrucciones internas filtradas de las herramientas, revelando lo que él describe como 'una especie de manual no oficial para usar estas herramientas de la mejor manera'.
Para entender de qué habla Willison, es necesario explicar qué son las instrucciones de sistema. Los modelos de lenguaje de gran escala (LLM), como los que alimentan Claude y ChatGPT, procesan una entrada llamada 'prompt' y devuelven una salida que es la continuación más probable de ese prompt. Las instrucciones de sistema son directrices que las empresas de IA proporcionan a los modelos antes de cada conversación para establecer cómo deben responder.
Podría gustar
- Salesforce adquiere Informatica por 8.000 millones de dólares
- La startup de Sam Altman lanza un robot para verificar la humanidad mediante escaneo de iris
- Google integrará los videos generados por IA Veo 3 en YouTube Shorts
- Los Desarrolladores de Overwatch Votan por Sindicalizarse, Siguiendo el Ejemplo del Equipo de WoW
- Google Meet Añade Traducción de Voz en Tiempo Real Impulsada por Gemini
- Empresas de pago se asocian para facilitar la salida de los desarrolladores de aplicaciones del sistema de facturación de la App Store
- La Biotecnológica Lituana Genomika Se Une al Proyecto DiDAX de 5,2 Millones de Euros para Avanzar en el Almacenamiento de Datos en ADN
- Xbox permitirá a los usuarios anclar sus juegos favoritos en la pantalla de inicio