'Pokémon Azul' mete en aprietos al modelo de IA más avanzado de Google Google prueba la inteligencia de su modelo Gemini 2.5 con "Pokémon Azul" y encuentra señales de deterioro en su razonamiento.

Un experimento reveló que Gemini 2.5 Pro, el modelo de lenguaje más avanzado desarrollado por Google DeepMind, enfrenta dificultades cognitivas cuando se somete a situaciones complejas dentro del videojuego Pokémon Azul, lanzado hace más de dos décadas para la consola GameBoy.
Según un informe realizado por DeepMind, durante una serie de pruebas transmitidas en vivo a través de Twitch, el sistema demostró una pérdida notable en su capacidad de toma de decisiones bajo presión.
El documento indica que la inteligencia artificial (IA) reaccionó con patrones erráticos al enfrentarse a escenarios donde sus criaturas virtuales se quedaban sin energía. En múltiples ocasiones, el modelo insistió de manera repetitiva en aplicar estrategias poco eficientes, como intentar curar a sus Pokémon o abandonar la zona actual, sin valorar otras rutas viables.
Relacionado: Demis Hassabis advierte que, sin abrazar la inteligencia artificial, los jóvenes quedarán atrás
Una IA poderosa, pero vulnerable a la presión
El experimento, conducido con el apoyo del desarrollador independiente Joel Zhang, se estructuró en dos fases. En la primera, los investigadores ofrecieron apoyo puntual al sistema para corregir errores y guiar sus acciones. En la segunda, Gemini operó sin ningún tipo de información adicional, como si se tratara de un jugador sin experiencia previa en el juego. Los resultados mostraron una mejora considerable: el tiempo necesario para terminar el juego se redujo de 813 horas a 406.
A pesar de sus limitaciones, el modelo también mostró fortalezas. De acuerdo con el informe, Gemini 2.5 Pro logró resolver tareas específicas del juego gracias a un conjunto de herramientas internas conocidas como "herramientas agénticas", que le permitieron superar desafíos como rompecabezas o rutas laberínticas.
Lo destacable es que estas herramientas fueron diseñadas, en su mayoría, por el propio modelo, lo cual sugiere una capacidad incipiente de autoprogramación.
El desempeño de Gemini en un entorno lúdico como Pokémon Azul muestra las capacidades, y las limitaciones, de los sistemas de IA cuando se enfrentan a tareas abiertas, caóticas o emocionalmente cargadas.
Aunque el sistema logró avanzar en varias etapas del juego, su comportamiento errático fue tan notorio que los espectadores de la transmisión detectaron los momentos en que el modelo parecía "entrar en pánico".
Relacionado: ¿Deberían los niños tener acceso a la IA? Google cree que sí