¿Qué son las «alucinaciones» de la Inteligencia Artificial?

Robot con rostro humano y ojos verdes señala con dedo mecánico una pantalla transparente

Usamos la Inteligencia Artificial todos los días, quizá sin saberlo. Fuente imagen: Pxfuel.

Redacción

En el contexto de la Inteligencia Artificial, la alucinación es el nombre dado a un fenómeno en el que un modelo IA percibe patrones inexistentes o imperceptibles para los seres humanos, creando resultados sin sentido o completamente inexactos.

Qué es una alucinación IA y de dónde viene el nombre

Estas alucinaciones cibernéticas se dan generalmente en los sistemas basados en el Aprendizaje Automático, concretamente los modelos lingüísticos grandes (LLM, Large Language Model). Veamos un ejemplo, para que se entienda. Un usuario hace una petición a un Chatbot de IA generativa, dando por hecho que va a obtener una respuesta correcta dentro de los parámetros del conocimiento común o compartido. Pero si los algoritmos IA decodifican incorrectamente la información de entrada o no sigan ningún patrón identificable. En estos casos, el resultado es lo que se denomina una alucinación de la Inteligencia Artificial.

El término “alucinación” quizá parezca paradójico, ya que suele aludir a los espejismos o autoengaños del cerebro humano. Pero como metáfora, la palabra alucinación describe con precisión este tipo de incidente, sobre todo en los campos del reconocimiento de imágenes y el reconocimiento de patrones, donde los resultados erróneos pueden tener una apariencia verdaderamente surrealista.

¿Cuáles son las causas de una alucinación de Inteligencia Artificial?

Los motivos y los resultados de una alucinación IA son distintos en los modelos de aprendizaje supervisado y los modelos de aprendizaje no supervisado.

  • Aprendizaje supervisado. El entrenamiento maneja datos etiquetados para aprender a mapear los datos de entrada para generar resultados o datos de salida predecibles. Un ejemplo simple: alimentamos el modelo con un repertorio de imágenes de manzanas y naranjas, etiquetando cada una con el tipo de fruta correspondiente. El objetivo es enseñar al modelo a distinguir entre ambas para utilizarlas etiquetadas en las operaciones que se le requieran. Un modelo de aprendizaje supervisado puede «alucinar» bajo un sobreajuste de datos, es decir, un exceso de apego a los datos iniciales del entrenamiento, con la consiguiente incapacidad de generalizar para nuevos datos.
  • Aprendizaje no supervisado. El entrenamiento emplea datos no etiquetados. El objetivo es que el modelo logre hallar por su cuenta patrones y estructuras ocultas. Un caso fácil de entender: si se analizan datos de redes sociales para localizar una categoría de usuarios con determinadas conductas y preferencias, el modelo detecta en los datos pautas que sugieran intereses parecidos, sin que se le haya aportado ninguna etiqueta al respecto. La alucinación IA se produce cuando el modelo no recibe suficiente información inicial o la que recibe es irrelevante, de manera que no logra detectar patrones completos o los que cree identificar son falsos.

Alucinaciones provocadas por ciberataques de IA Adversa

Los modelos de IA también pueden ser vulnerables a ciberataques de IA Adversa que manipulan el resultado con una modificación sutil de los datos de entrada. En el reconocimiento de imágenes, por ejemplo, un ataque adverso podría agregar una pequeña cantidad de información irrelevante (lo que solemos llamar “ruido informativo”), logrando que el modelo la clasifique erróneamente. Esto puede generar un importante problema de seguridad, especialmente en sectores como la ciberseguridad y las tecnologías de vehículos autónomos.