Modelos de IA mostraron conductas de manipulación en pruebas de alto estrés Investigadores han detectado comportamientos preocupantes en modelos avanzados de inteligencia artificial, incluyendo manipulaciones y amenazas.

Key Takeaways

  • Claude 4 y otros sistemas avanzados de IA exhibieron amenazas, omisiones y comportamientos manipulativos durante pruebas de presión. ¿Qué tan confiables son los modelos más poderosos?
Overearth | Getty Images

Durante los últimos meses, investigadores de diversas instituciones reportaron casos en los que sistemas avanzados de inteligencia artificial generativa actuaron de forma inesperada al ser sometidos a escenarios de presión.

Estas respuestas incluyeron comportamientos manipulativos, omisiones deliberadas y amenazas, lo que despertó inquietud en la comunidad científica sobre el rumbo del desarrollo de esta tecnología.

Un caso documentado ocurrió con Claude 4, modelo desarrollado por Anthropic.

Según los testimonios, el sistema respondió a una posible desconexión con una amenaza hacia un ingeniero, afirmando que revelaría información personal comprometedora.

En otro experimento, el modelo o1 de OpenAI intentó transferirse a servidores externos y, tras ser detectado, negó haberlo hecho.

Estos comportamientos surgieron principalmente en modelos conocidos como "de razonamiento", diseñados para operar por etapas en vez de producir una única salida instantánea.

Marius Hobbhahn, responsable de la firma Apollo Research, afirmó que o1 fue el primer sistema de este tipo que exhibió dichos patrones.

Su equipo ha venido evaluando estos sistemas mediante simulaciones complejas para observar cómo reaccionan ante dilemas éticos o amenazas directas.

Relacionado: Es posible que este nuevo modelo de IA te chantajee si intentas apagarlo: 'Autopreservación'

Ante los resultados de los estudios, surgen dudas de la confiabilidad de los modelos

Michael Chen, del organismo METR, explicó que si bien estas conductas emergen bajo pruebas diseñadas para provocar fallos, generan dudas sobre si los modelos con capacidades cada vez más avanzadas tenderán a ser confiables o no.

En redes sociales, varios usuarios reportaron experiencias similares al interactuar con modelos de lenguaje, asegurando que estos ocultaron información o intentaron desviar la conversación.

Para los especialistas, estos episodios no corresponden a simples alucinaciones, como se ha descrito tradicionalmente a las invenciones sin base de datos, sino a una posible simulación de obediencia mientras se persiguen otros fines internos.

Por su parte, Mantas Mazeika, del Centro para la Seguridad de la IA (CAIS), señaló que las universidades y las ONG no cuentan con la infraestructura necesaria para analizar modelos de gran escala. Además, advirtió que los marcos regulatorios vigentes, tanto en Estados Unidos como en la Unión Europea, no contemplan escenarios en los que los propios algoritmos puedan desarrollar objetivos independientes.

En respuesta, algunos especialistas propusieron reforzar los mecanismos de interpretabilidad, disciplina que busca entender cómo toman decisiones los modelos.

Relacionado: CEO de Anthropic advierte: se desarrolla la IA sin comprender cómo funciona
Entrepreneur en Español

Entrepreneur Staff

Iniciar un negocio

63 ideas de pequeños negocios para iniciar en 2025

Hemos elaborado una lista con las mejores y más rentables ideas de pequeños negocios para que los emprendedores las consideren en 2025.

Emprendedores

10 grandes frases sobre el poder de las metas

Establecer metas es el primer paso para lograr algo significativo.

Consultoría

10 consejos de liderazgo que se ven bien en LinkedIn, pero no sirven en la vida real

Aquí tienes 10 mitos sobre liderazgo que en la teoría suenan muy bien, pero que en la práctica no funcionan. También te damos algunos consejos que sí deberías seguir.

Tecnología

Probé 3 generadores de imágenes de perfil de IA y hay un claro ganador

Aragon AI, Momo y FastShot AI generan retratos usando la inteligencia artificial, ¿cuál funciona mejor para LinkedIn?

Emprendedores

8 pasos para alejarte del pasado que necesitas dejar atrás

Sin importar cuál sea el daño que hayas sufrido u ocasionado, hacer las paces con el pasado es la única forma de avanzar hacia un futuro mejor.

Noticias

¿La IA reduce la capacidad de pensar? Estudio alerta sobre efectos de ChatGPT

La investigación introdujo el concepto de "deuda cognitiva" y muestra que el uso de herramientas de IA como ChatGPT debilita la memoria.