El uso de inteligencia artificial (IA) en los videojuegos evolucionó significativamente en las últimas décadas. Lo que comenzó como una forma de medir las capacidades de los modelos de IA se transformó en un campo donde la IA no solo juega, sino que también contribuye al desarrollo y optimización de los propios juegos. Un grupo de investigadores de la Universidad de California en San Diego (UCSD) puso a prueba la capacidad de los modelos de inteligencia artificial (IA) en el clásico videojuego Super Mario Bros., argumentando que representa un reto más complejo que Pokémon.
La prueba, realizada por el laboratorio Hao AI Lab, utilizó un entorno de juego modificado mediante un emulador e integrado con el framework GamingAgent. Este sistema proporcionaba a los modelos de IA información en tiempo real, como capturas de pantalla y comandos básicos, y permitía que las inteligencias artificiales controlaran a Mario mediante código en Python.
Según los resultados, Claude 3.7, de Anthropic tuvo el mejor desempeño, seguido de cerca por Claude 3.5. En contraste, modelos de renombre como Gemini 1.5 Pro de Google y GPT-4o de OpenAI tuvieron dificultades para completar el juego.
Un hallazgo interesante del estudio fue que los modelos de razonamiento, que suelen destacar en tareas complejas al abordar problemas paso a paso, mostraron un rendimiento inferior en comparación con los modelos sin razonamiento. Según los investigadores, esto se debe a que estos modelos tardan demasiado en procesar sus decisiones, lo que los hace menos efectivos en juegos de acción en tiempo real, donde fracciones de segundo pueden determinar el éxito o el fracaso.
Los videojuegos fueron utilizados durante décadas para evaluar el avance de la inteligencia artificial. Sin embargo, algunos expertos cuestionan su relevancia como referencia del progreso tecnológico. Argumentan que los juegos, aunque complejos, son entornos cerrados con reglas definidas y datos ilimitados para entrenar a la IA, lo que los aleja de los desafíos del mundo real.
Mientras tanto, el debate sobre cómo medir el verdadero avance de la IA se ha intensificado recientemente. Andrej Karpathy, investigador y miembro fundador de OpenAI, lo describió como una “crisis de evaluación”, señalando en una publicación en X: “No sé realmente qué métricas mirar ahora mismo… mi reacción es que no sé cuán buenos son estos modelos realmente.” Por ahora, lo único seguro es que la IA sigue aprendiendo, y los videojuegos continúan siendo un campo de prueba fascinante para su desarrollo.