Lenguaje Visual

En 2021 apareció DALL-E, seguido en 2022 por DALL-E 2, aplicaciones de inteligencia artificial para crear imágenes a partir de un breve texto descriptivo. Tienen sus raíces en una invención de 2014: un modelos generativo, denominada redes generativas antagónicas (GAN, por sus siglas en inglés), creado por Ian Goodfellow, entonces estudiante de la Universidad de Montreal. Utilizaba algoritmos de aprendizaje automático, basados en redes neuronales artificiales. Con ellos pudo "crear imágenes simples de caracteres escritos a mano, rostros toscamente dibujados y escenas más complejas" (Wired).

Una versión mejorada apareció en 2016, desarrollada por Facebook y la startup Indico, que creó imágenes más realistas. Nueva mejoría en 2017, con CycleGAN, que permitía mezclar componentes visuales de diferentes imágenes, y otro mejoramiento en 2019, liderado por un equipo de Nvidia.

Llegamos así a DALL-E, anunciado por OpenAI en enero de 2021, capaz de producir imágenes casi fotorrealistas. "DALL-E se construyó modificando un modelo generativo llamado GPT que está diseñado para manejar texto y que se entrenó con muchos pares de textos e imágenes de internet" (Wired). (Conocemos GPT por el hoy famoso generador de texto ChatGPT.)

Una nueva versión de DALL-E (DALL-E 2) se hizo famosa por esta imagen de un “astronauta montando a caballo en la Luna” (extraida aquí del texto de Wired).

Recientemente, una imagen hecha con IA ganó un concurso de fotografía: los jueces creyeron que era una playa de verdad (Genbeta, 13/02/2022)

Si bien los algoritmos se han perfeccionado, la principal fuente del mejoramiento ha sido la cantidad creciente de imágenes digitales utilizadas para entrenarlos (y la fuente casi ilimitada de internet): más datos y más poder de cómputo es lo que mejora los resultados. Así, otros generadores siguen siendo desarrollado por empresas como Midjourney, Stability AI, Google, etc.

La tecnología seguirá avanzando: mayor eficiencia, mayor rapidez, mayor calidad. Pero como no hay comprensión del mundo, siempre habrá limitaciones porque requieren descripciones simples y no pueden imaginar las cosas como el ser humano.

Un nuevo avance sería la creación de videos: Stable Diffusion, Midjourney, Google, Meta y Nvidia están trabajando en esta tecnología.

"Un problema complicado es el de que las imágenes creadas pueden heredar sesgos de los datos de los que se alimentan; otro es que podrían ser utilizados para generar contenidos nocivos. Las implicaciones de los derechos de autor y las marcas registradas del arte de la inteligencia artificial tampoco están claras." (Serfatty Godoy,)

Referencia

Serfatty Godoy, M. (2023): ¿De dónde vino el boom del arte creado por inteligencia artificial y hacia dónde se dirige en el futuro?, Wired, 13/01/2023

La inteligencia artificial penetra la imagen