Modelos de IA mostraron conductas de manipulación en pruebas de alto estrés Investigadores han detectado comportamientos preocupantes en modelos avanzados de inteligencia artificial, incluyendo manipulaciones y amenazas.
Key Takeaways
- Claude 4 y otros sistemas avanzados de IA exhibieron amenazas, omisiones y comportamientos manipulativos durante pruebas de presión. ¿Qué tan confiables son los modelos más poderosos?

Durante los últimos meses, investigadores de diversas instituciones reportaron casos en los que sistemas avanzados de inteligencia artificial generativa actuaron de forma inesperada al ser sometidos a escenarios de presión.
Estas respuestas incluyeron comportamientos manipulativos, omisiones deliberadas y amenazas, lo que despertó inquietud en la comunidad científica sobre el rumbo del desarrollo de esta tecnología.
Un caso documentado ocurrió con Claude 4, modelo desarrollado por Anthropic.
Según los testimonios, el sistema respondió a una posible desconexión con una amenaza hacia un ingeniero, afirmando que revelaría información personal comprometedora.
En otro experimento, el modelo o1 de OpenAI intentó transferirse a servidores externos y, tras ser detectado, negó haberlo hecho.
Estos comportamientos surgieron principalmente en modelos conocidos como "de razonamiento", diseñados para operar por etapas en vez de producir una única salida instantánea.
Marius Hobbhahn, responsable de la firma Apollo Research, afirmó que o1 fue el primer sistema de este tipo que exhibió dichos patrones.
Su equipo ha venido evaluando estos sistemas mediante simulaciones complejas para observar cómo reaccionan ante dilemas éticos o amenazas directas.
Relacionado: Es posible que este nuevo modelo de IA te chantajee si intentas apagarlo: 'Autopreservación'
Ante los resultados de los estudios, surgen dudas de la confiabilidad de los modelos
Michael Chen, del organismo METR, explicó que si bien estas conductas emergen bajo pruebas diseñadas para provocar fallos, generan dudas sobre si los modelos con capacidades cada vez más avanzadas tenderán a ser confiables o no.
En redes sociales, varios usuarios reportaron experiencias similares al interactuar con modelos de lenguaje, asegurando que estos ocultaron información o intentaron desviar la conversación.
Para los especialistas, estos episodios no corresponden a simples alucinaciones, como se ha descrito tradicionalmente a las invenciones sin base de datos, sino a una posible simulación de obediencia mientras se persiguen otros fines internos.
Por su parte, Mantas Mazeika, del Centro para la Seguridad de la IA (CAIS), señaló que las universidades y las ONG no cuentan con la infraestructura necesaria para analizar modelos de gran escala. Además, advirtió que los marcos regulatorios vigentes, tanto en Estados Unidos como en la Unión Europea, no contemplan escenarios en los que los propios algoritmos puedan desarrollar objetivos independientes.
En respuesta, algunos especialistas propusieron reforzar los mecanismos de interpretabilidad, disciplina que busca entender cómo toman decisiones los modelos.
Relacionado: CEO de Anthropic advierte: se desarrolla la IA sin comprender cómo funciona