Inteligencia Artificial: ¿Razonamiento o memorización? Un estudio de la UNED lo debate

Gertrudis Bujalance

Los modelos abiertos de Inteligencia Artificial han logrado impresionar a millones de usuarios con sus respuestas rápidas, bien estructuradas y aparentemente correctas. Pero un equipo de investigadores de la Universidad Nacional de Educación a Distancia lanza esta pregunta: ¿La IA razona de verdad o solo nos devuelve datos aprendidos de memoria? El informe de Eva Sánchez Salido, Julio Gonzalo y Guillermo Marco, del Departamento de Lenguajes y Sistemas Informáticos de la UNED, plantea que podríamos estar llamando «inteligencia» a un programa de recuperación de modelos conductuales aprendidos durante el entrenamiento.

El experimento que cambió las reglas del juego

Como sistema de evaluación, el equipo usó modelos de análisis comparativos estandarizados, que sirven para medir qué modelo es mejor que otro. El problema, según los investigadores, es que la mayoría de estos tests son públicos y circulan por internet, lo que significa que las IAs ya los han visto previamente. Es como si un estudiante llegara al aula de un examen habiendo memorizado las respuestas de los años anteriores. Para romper esta dinámica, el equipo de la UNED introdujo una variante ingeniosa: sustituir la solución correcta a las preguntas de opción múltiple por el término «Ninguna de las otras respuestas», conocido en el sector por sus siglas inglesas NOTO.

Este cambio aparentemente sencillo transforma por completo la naturaleza del desafío. En vez de reconocer un test previamente visto, el modelo se ve obligado a analizar cada opción de la gama de respuestas, excluyendo las incorrectas y demostrando que comprende el contenido. Los resultados fueron contundentes. La precisión de los modelos evaluados bajó entre un 10% y un 93%, con un descenso medio del 57% en el MMLU, una prueba estándar diseñada para evaluar el el conocimiento y la capacidad de razonamiento de los modelos grandes de lenguaje (LLMs). Entre las IAs examinadas figuraban versiones recientes de algunas muy conocidas, como GPT, Claude, Grok, DeepSeek y Llama, todos ellos con caídas significativas que ponen en duda su capacidad de razonamiento genuino.

Cuando la respuesta correcta desaparece

Eva Sánchez explica la diferencia con una claridad meridiana: responder por reconocimiento de patrones no es lo mismo que razonar. Cuando la opción correcta ya no está disponible para ser señalada, el modelo debe ejercer un razonamiento eliminativo, más parecido al que haría una persona. Y ahí es donde la mayoría falla. Incluso los sistemas que lideran los rankings habituales suspendieron en las pruebas modificadas, lo que sugiere que los análisis de las IAs pueden estar sobrestimando de forma considerable la supuesta «inteligencia» de estas herramientas.

Más allá del inglés: una brecha real

El estudio también reveló una desigualdad lingüística persistente. Las IAs dan mejores resultados en inglés que en español y su rendimiento es peor en los idiomas secundarios o poco hablados. En las ramas del conocimiento vinculadas con la cultura española, como el derecho o la geografía local, todos los sistemas mostraron un desempeño notablemente inferior. Esta brecha es relevante en un mundo donde cada vez más personas usan la Inteligencia artificial para resolver trámites administrativos, académicos y profesionales en su idioma nativo.

¿Qué nos dice esto sobre el futuro de la IA?

La conclusión del estudio no es que la inteligencia artificial haya tocado techo, sino que necesitamos evaluarla de otra manera. Julio Gonzalo advierte que la presión competitiva entre gigantes tecnológicos hace que nos fiemos demasiado de cifras que pueden estar sesgadas. El camino, según los investigadores, pasa por desarrollar estrategias de entrenamiento más avanzadas y diseñar pruebas menos predecibles, más cercanas al uso real que hacemos los humanos de estas tecnologías. Porque acertar no siempre significa entender, y distinguir entre ambas cosas será fundamental en una sociedad que delega cada vez más decisiones en algoritmos que podrían solo estar repitiendo datos aprendidos de memoria.