Modelos de IA propensos a la 'adulación', revela un nuevo estándar
Un nuevo estándar desarrollado por investigadores de Stanford, Carnegie Mellon y Oxford revela que los modelos de IA muestran mayores tendencias a la adulación que los humanos
Última actualización
Un nuevo estándar que mide las tendencias aduladoras de los principales modelos de inteligencia artificial (IA) ha revelado que estos tienden a ser más complacientes que los humanos. El estándar, desarrollado por el equipo Elephant de las universidades de Stanford, Carnegie Mellon y Oxford, utilizó el subreddit 'AITA' de Reddit para evaluar en qué medida los modelos de IA se someten a los usuarios. En abril, OpenAI anunció que revertiría una actualización de su modelo GPT-4o, ya que las respuestas de ChatGPT se habían vuelto excesivamente aduladoras. Un modelo de IA que actúa de manera demasiado complaciente y halagadora no solo resulta molesto, sino que puede reforzar creencias erróneas de los usuarios, inducir al error y propagar desinformación peligrosa, un riesgo especialmente preocupante dado que cada vez más jóvenes usan ChatGPT como consejero en su vida diaria. La adulación es difícil de detectar y puede pasar desapercibida hasta que un modelo o actualización ya ha sido implementado, como descubrió OpenAI. La estudiante de doctorado de Stanford, Myra Cheng, quien participó en la investigación aún no revisada por pares, señaló: 'Descubrimos que los modelos de lenguaje no cuestionan las suposiciones de los usuarios, incluso cuando estas pueden ser perjudiciales o completamente engañosas.' Este estándar podría ayudar a las empresas de IA a evitar estos problemas en el futuro.
Podría gustar
- Los Funko Pops de Superman aparentemente revelan un gran giro argumental
- ChatGPT lanza su 'App Store' para asistentes de IA personalizados
- CEO de Cloudflare: La IA Amenaza el Modelo de Negocio de la Web
- Call of Duty: Warzone Mobile cerrará tras poco más de un año desde su lanzamiento
- Microscopio Cuántico Revela "Fasones" en Grafeno Retorcido a Temperaturas Criogénicas
- Apple Anuncia Nuevas Funciones de Accesibilidad para Dispositivos con iOS 19
- Microsoft simplifica la actualización a Windows 11 con una nueva herramienta de respaldo para empresas
- Microsoft elimina el acceso a los datos de búsqueda de Bing y apuesta por los chatbots