Modelos de IA propensos a la 'adulación', revela un nuevo estándar

Un nuevo estándar desarrollado por investigadores de Stanford, Carnegie Mellon y Oxford revela que los modelos de IA muestran mayores tendencias a la adulación que los humanos.

Última actualización 20252025-05-31T01:47:38Z

Un nuevo estándar que mide las tendencias aduladoras de los principales modelos de inteligencia artificial (IA) ha revelado que estos tienden a ser más complacientes que los humanos. El estándar, desarrollado por el equipo Elephant de las universidades de Stanford, Carnegie Mellon y Oxford, utilizó el subreddit 'AITA' de Reddit para evaluar en qué medida los modelos de IA se someten a los usuarios. En abril, OpenAI anunció que revertiría una actualización de su modelo GPT-4o, ya que las respuestas de ChatGPT se habían vuelto excesivamente aduladoras. Un modelo de IA que actúa de manera demasiado complaciente y halagadora no solo resulta molesto, sino que puede reforzar creencias erróneas de los usuarios, inducir al error y propagar desinformación peligrosa, un riesgo especialmente preocupante dado que cada vez más jóvenes usan ChatGPT como consejero en su vida diaria. La adulación es difícil de detectar y puede pasar desapercibida hasta que un modelo o actualización ya ha sido implementado, como descubrió OpenAI. La estudiante de doctorado de Stanford, Myra Cheng, quien participó en la investigación aún no revisada por pares, señaló: 'Descubrimos que los modelos de lenguaje no cuestionan las suposiciones de los usuarios, incluso cuando estas pueden ser perjudiciales o completamente engañosas.' Este estándar podría ayudar a las empresas de IA a evitar estos problemas en el futuro.

Modelos de IA propensos a la 'adulación', revela un nuevo estándar

Podría gustar