Muchos creerían que la mayor prueba de la IA son las ecuaciones matemáticas. No: es Pokémon

Muchos Creerian Que La Mayor Prueba De La Ia Son Las Ecuaciones Matematicas No Es Pokemon
Sin comentarios Facebook Twitter Flipboard E-mail
pablo-fernando

Pablo Hernández

Editor

Un videojuego clásico de hace tres décadas se ha convertido en el campo de pruebas más inesperado para la inteligencia artificial. Pokémon Azul, lanzado originalmente para la Game Boy en los años 90, está siendo utilizado por empresas como Google, OpenAI y Anthropic para evaluar cómo sus modelos de IA piensan, toman decisiones y alcanzan objetivos complejos.

Lo que comenzó como un experimento transmitido en Twitch bajo el nombre “ClaudePlaysPokémon” pronto inspiró proyectos similares como “GPT_Plays_Pokémon” y “Gemini_Plays_Pokémon”. La idea es simple pero poderosa: si una IA puede superar los retos de Pokémon, desde resolver laberintos hasta derrotar a los maestros de gimnasio, entonces puede demostrar capacidades de razonamiento mucho más cercanas a las que se requieren en tareas reales.

Pokémon Azul como la prueba definitiva para la IA

El título elegido por Anthropic para probar a su modelo Claude fue Pokémon Azul, un juego que (por si no lo conocías) combina exploración, resolución de rompecabezas y combates estratégicos. Los jugadores deben decidir entre entrenar a su equipo actual o capturar nuevas criaturas, equilibrando recursos y tiempo para avanzar.

Según David Hershey, director de IA aplicada en Anthropic, este entorno ofrece una forma cuantitativa de medir el progreso de un modelo. A diferencia de juegos más simples como Pong, Pokémon presenta un desafío abierto y dinámico que obliga a la IA a planear a largo plazo y adaptarse a situaciones cambiantes.

Ed89cbc9 9e98 4c34 B849 78ac9187e095

El uso de Pokémon también ha permitido a los desarrolladores mejorar los sistemas de soporte de sus modelos mediante frameworks especializados. En el caso de Claude, se implementó un sistema de memoria que le permite recordar detalles importantes aprendidos durante la partida, algo crucial para mantener coherencia en conversaciones de largo plazo.

OpenAI y Google han llevado la idea más lejos: sus modelos ya están jugando secuelas de Pokémon, lo que demuestra que el concepto funciona correctamente como una herramienta de evaluación continua. Los investigadores señalan que este tipo de pruebas es más útil que los benchmarks tradicionales, porque permite observar cómo una IA razona y actúa durante periodos prolongados.

Pexels Introspectivedsgn 7824266

Una tradición de juegos como pruebas de IA

Pokémon no es el primer videojuego usado para medir la inteligencia artificial. Hace una década, AlphaGo de Google DeepMind sorprendió al mundo al vencer a campeones humanos en el juego de mesa Go. También se han utilizado el ajedrez, el póker y títulos como Minecraft para evaluar razonamiento y creatividad.

Incluso Kaggle, filial de Google, lanzó en 2025 la plataforma Game Arena, donde los modelos de IA compiten en torneos de juegos clásicos. En su primer evento, un campeonato de ajedrez, el modelo o3 de OpenAI se llevó la victoria.

OpenAI lanza ChatGPT Translate en México para competir con Google y promete traducciones gratis más naturales y con mejor contexto OpenAI lanza ChatGPT Translate en México para competir con Google y promete traducciones gratis más naturales y con mejor contexto

El “juego perfecto” para la IA

Para desarrolladores como Joel Zhang y Jonathan Verron, los desarrolladores que crearon las transmisiones “Gemini Plays Pokémon” y “GPT Plays Pokémon”, respectivamente, Pokémon es actualmente el mejor ejemplo de cómo probar las capacidades de un modelo:

Este es un juego perfecto para la IA ahora mismo. He intentado pensar en otros juegos, pero no he encontrado un ejemplo tan bueno como Pokémon.

En un momento en que algunos temen que la inteligencia artificial pueda estar entrando en una burbuja, proyectos como estos muestran que aún hay mucho espacio para crecer. Como dijo Jensen Huang, CEO de Nvidia, la inversión en IA apenas comienza y podría convertirse en la mayor construcción tecnológica de la historia.

Inicio