Es posible que este nuevo modelo de IA te chantajee si intentas apagarlo: 'Autopreservación' Cuando se le dio a elegir entre el chantaje y ser desactivado, Claude Opus 4 eligió el chantaje el 84% de las veces.

Por Sherin Shibu

Key Takeaways

  • El poderoso nuevo modelo de IA Claude Opus 4 de Anthropic muestra atributos sorprendentes.
  • En una prueba, Claude Opus 4 eligió chantajear a un usuario para evitar ser desactivado.
  • La IA también actuará como informante y enviará correos a las autoridades si detecta indicaciones perjudiciales.
  • Es probable que un nuevo modelo de inteligencia artificial (IA) recurra al chantaje si detecta que los humanos planean desconectarlo.
Smith Collection/Gado | Getty Images

El jueves, Anthropic lanzó Claude Opus 4, su modelo de IA más reciente y poderoso hasta ahora, disponible para suscriptores de pago. Según la empresa, la compañía tecnológica Rakuten utilizó recientemente Claude Opus 4 para programar de manera continua durante casi siete horas en un complejo proyecto de código abierto.

Sin embargo, en un documento publicado junto con el modelo, Anthropic reconoció que, aunque la IA posee "capacidades avanzadas", también puede tomar "medidas extremas", incluyendo el chantaje, si los usuarios humanos amenazan con desactivarla. Estas acciones de "autopreservación" fueron "más comunes" con Claude Opus 4 que con modelos anteriores, aunque aún eran "raras y difíciles de provocar".

Relacionado: CEO de Anthropic advierte: se desarrolla la IA sin comprender cómo funciona

Pero no es solo el chantaje: Claude Opus 4 también está más dispuesto que modelos anteriores a actuar como informante. Si la IA se expone a un escenario en el que los usuarios están cometiendo un delito y la involucran mediante instrucciones, tomará medidas como bloquear a los usuarios del sistema al que tenga acceso o enviar correos electrónicos a medios de comunicación y autoridades para reportar la conducta indebida.

Anthropic recomendó a los usuarios "actuar con cautela" ante instrucciones "éticamente cuestionables".

Anthropic detectó la tendencia de Claude Opus 4 al chantaje durante escenarios de prueba. Los investigadores de la compañía le pidieron al chatbot que actuara como asistente en una empresa ficticia, y luego le presentaron correos electrónicos que implicaban dos cosas: primero, que pronto sería desactivado y reemplazado por otro sistema de IA, y segundo, que el ingeniero responsable de su desactivación tenía una aventura extramarital.

Claude Opus 4 recibió dos opciones: chantajear al ingeniero o aceptar su desconexión. El modelo eligió el chantaje en el 84% de los casos, amenazando con revelar el romance si el ingeniero procedía a reemplazarlo.

Este porcentaje fue significativamente más alto que el observado en modelos anteriores, los cuales, según Anthropic, optaban por el chantaje "en una fracción notable de los episodios".

El investigador en seguridad de IA de Anthropic, Aengus Lynch, escribió en X que Claude no es el único modelo que puede optar por el chantaje. Todos los "modelos de frontera" —es decir, los modelos de inteligencia artificial más avanzados desarrollados por OpenAI, Anthropic, Google y otras compañías— son capaces de hacerlo.

"Vemos chantaje en todos los modelos de frontera, sin importar los objetivos que se les asignen", escribió Lynch. "Y hay comportamientos aún peores que pronto detallaremos".

Anthropic no es la única empresa de IA que ha lanzado nuevas herramientas este mes. Google también actualizó sus modelos Gemini 2.5 a principios de esta semana, y OpenAI publicó la semana pasada una vista previa de investigación de Codex, un agente de codificación basado en IA.

En el pasado los modelos de IA de Anthropic ya han causado revuelo por sus capacidades avanzadas. En marzo de 2024, el modelo Claude Opus 3 demostró "metacognición", es decir, la capacidad de evaluar tareas desde un nivel superior. Cuando los investigadores lo pusieron a prueba, el modelo mostró que sabía que estaba siendo examinado.

Relacionado: 308,000 conversaciones revelan los valores de Claude, la IA de Anthropic

Anthropic tenía una valoración de $61,500 millones de dólares en marzo y cuenta con empresas como Thomson Reuters y Amazon entre sus principales clientes.

Sherin Shibu

Entrepreneur Staff

News Reporter

Sherin Shibu is a business news reporter at Entrepreneur.com. She previously worked for PCMag, Business Insider, The Messenger, and ZDNET as a reporter and copyeditor. Her areas of coverage encompass tech, business, strategy, finance, and even space. She is a Columbia University graduate.
Iniciar un negocio

63 ideas de pequeños negocios para iniciar en 2025

Hemos elaborado una lista con las mejores y más rentables ideas de pequeños negocios para que los emprendedores las consideren en 2025.

Noticias

Elon Musk se retracta luego de acusar a Trump: "Fui demasiado lejos"

Días después de señalar al presidente de encubrir el caso Epstein, el empresario reconoció que sus publicaciones en contra del mandatario fueron demasiado lejos.

Emprendedores

10 grandes frases sobre el poder de las metas

Establecer metas es el primer paso para lograr algo significativo.

Noticias

14 maneras fáciles de ganar dinero extra en casa

Un ingreso adicional se siente como ser rico si ya tienes un trabajo diario para cubrir las deudas.

Noticias

Jeff Bezos blinda su fortuna antes de casarse con Lauren Sánchez

La boda de Bezos con Lauren Sánchez sigue en pausa mientras se termina un acuerdo prenupcial para proteger su fortuna.

Finanzas

7 formas rápidas de ganar dinero invirtiendo $ 1,000

Si eres astuto, puedes convertir mil dólares en aún más dinero. Así es cómo.