Es posible que este nuevo modelo de IA te chantajee si intentas apagarlo: 'Autopreservación' Cuando se le dio a elegir entre el chantaje y ser desactivado, Claude Opus 4 eligió el chantaje el 84% de las veces.
Por Sherin Shibu
Key Takeaways
- El poderoso nuevo modelo de IA Claude Opus 4 de Anthropic muestra atributos sorprendentes.
- En una prueba, Claude Opus 4 eligió chantajear a un usuario para evitar ser desactivado.
- La IA también actuará como informante y enviará correos a las autoridades si detecta indicaciones perjudiciales.
- Es probable que un nuevo modelo de inteligencia artificial (IA) recurra al chantaje si detecta que los humanos planean desconectarlo.

El jueves, Anthropic lanzó Claude Opus 4, su modelo de IA más reciente y poderoso hasta ahora, disponible para suscriptores de pago. Según la empresa, la compañía tecnológica Rakuten utilizó recientemente Claude Opus 4 para programar de manera continua durante casi siete horas en un complejo proyecto de código abierto.
Sin embargo, en un documento publicado junto con el modelo, Anthropic reconoció que, aunque la IA posee "capacidades avanzadas", también puede tomar "medidas extremas", incluyendo el chantaje, si los usuarios humanos amenazan con desactivarla. Estas acciones de "autopreservación" fueron "más comunes" con Claude Opus 4 que con modelos anteriores, aunque aún eran "raras y difíciles de provocar".
Relacionado: CEO de Anthropic advierte: se desarrolla la IA sin comprender cómo funciona
Pero no es solo el chantaje: Claude Opus 4 también está más dispuesto que modelos anteriores a actuar como informante. Si la IA se expone a un escenario en el que los usuarios están cometiendo un delito y la involucran mediante instrucciones, tomará medidas como bloquear a los usuarios del sistema al que tenga acceso o enviar correos electrónicos a medios de comunicación y autoridades para reportar la conducta indebida.
Anthropic recomendó a los usuarios "actuar con cautela" ante instrucciones "éticamente cuestionables".
Anthropic detectó la tendencia de Claude Opus 4 al chantaje durante escenarios de prueba. Los investigadores de la compañía le pidieron al chatbot que actuara como asistente en una empresa ficticia, y luego le presentaron correos electrónicos que implicaban dos cosas: primero, que pronto sería desactivado y reemplazado por otro sistema de IA, y segundo, que el ingeniero responsable de su desactivación tenía una aventura extramarital.
Claude Opus 4 recibió dos opciones: chantajear al ingeniero o aceptar su desconexión. El modelo eligió el chantaje en el 84% de los casos, amenazando con revelar el romance si el ingeniero procedía a reemplazarlo.
Este porcentaje fue significativamente más alto que el observado en modelos anteriores, los cuales, según Anthropic, optaban por el chantaje "en una fracción notable de los episodios".
El investigador en seguridad de IA de Anthropic, Aengus Lynch, escribió en X que Claude no es el único modelo que puede optar por el chantaje. Todos los "modelos de frontera" —es decir, los modelos de inteligencia artificial más avanzados desarrollados por OpenAI, Anthropic, Google y otras compañías— son capaces de hacerlo.
"Vemos chantaje en todos los modelos de frontera, sin importar los objetivos que se les asignen", escribió Lynch. "Y hay comportamientos aún peores que pronto detallaremos".
lots of discussion of Claude blackmailing.....
— Aengus Lynch (@aengus_lynch1) May 23, 2025
Our findings: It's not just Claude. We see blackmail across all frontier models - regardless of what goals they're given.
Plus worse behaviors we'll detail soon.https://t.co/NZ0FiL6nOshttps://t.co/wQ1NDVPNl0…
Anthropic no es la única empresa de IA que ha lanzado nuevas herramientas este mes. Google también actualizó sus modelos Gemini 2.5 a principios de esta semana, y OpenAI publicó la semana pasada una vista previa de investigación de Codex, un agente de codificación basado en IA.
En el pasado los modelos de IA de Anthropic ya han causado revuelo por sus capacidades avanzadas. En marzo de 2024, el modelo Claude Opus 3 demostró "metacognición", es decir, la capacidad de evaluar tareas desde un nivel superior. Cuando los investigadores lo pusieron a prueba, el modelo mostró que sabía que estaba siendo examinado.
Relacionado: 308,000 conversaciones revelan los valores de Claude, la IA de Anthropic
Anthropic tenía una valoración de $61,500 millones de dólares en marzo y cuenta con empresas como Thomson Reuters y Amazon entre sus principales clientes.