Instrucciones ocultas de IA revelan el control de Anthropic sobre Claude 4
El investigador independiente Simon Willison analiza las instrucciones de sistema de Claude 4, revelando cómo Anthropic controla el comportamiento de sus modelos de IA
Última actualización
El domingo, el investigador independiente de inteligencia artificial Simon Willison publicó un análisis detallado de las instrucciones de sistema recientemente publicadas por Anthropic para los modelos Opus 4 y Sonnet 4 de Claude 4, ofreciendo perspectivas sobre cómo Anthropic controla el 'comportamiento' de los modelos a través de sus resultados. Willison examinó tanto las instrucciones publicadas como las instrucciones internas filtradas de las herramientas, revelando lo que él describe como 'una especie de manual no oficial para usar estas herramientas de la mejor manera'.
Para entender de qué habla Willison, es necesario explicar qué son las instrucciones de sistema. Los modelos de lenguaje de gran escala (LLM), como los que alimentan Claude y ChatGPT, procesan una entrada llamada 'prompt' y devuelven una salida que es la continuación más probable de ese prompt. Las instrucciones de sistema son directrices que las empresas de IA proporcionan a los modelos antes de cada conversación para establecer cómo deben responder.
Podría gustar
- Salesforce adquiere Informatica por 8.000 millones de dólares
- La startup de Sam Altman lanza un robot para verificar la humanidad mediante escaneo de iris
- Montana se convertirá en el primer centro de EE. UU. para tratamientos médicos no aprobados
- Jony Ive critica el Rabbit R1 y el Humane AI Pin como 'productos muy pobres'
- La IXPE de la NASA arroja luz sobre la fuente de rayos X en chorros de agujeros negros
- Google Utiliza Inteligencia Artificial para Combatir Estafas en Chrome
- El láser ZEUS de EE. UU. alcanza un récord de 2 billones de vatios de potencia
- Microsoft lanza Command Palette: una potente herramienta de lanzamiento de aplicaciones y búsqueda