Análisis digital de imágenes y reconocimiento de objetos


Cuando vemos una fotografía o un cuadro, reconocemos con mucha facilidad sus componentes (como aquí un televisor, algunos gatos, unos libros). Pero es mucho más difícil lograr que un programa informático lo haga. 


Hasta ahora se han multiplicado las aplicaciones de reconocimiento de caras, especialmente por el éxito de la fotografía con smartphones y las redes sociales. En este caso, los patrones de reconocimiento son bastante estables y se trata de un solo tipo de objeto (que funciona bien con vistas frontales pero no en otras posiciones; ver más abajo). Lograr una aplicación general, capaz de analizar cualquier fotografía e identificar cualquier objeto es mucho más difícil. Se recurre para ello a redes neuronales artificiales, las que se "aprenden" mediante repetición. Aunque el entrenamiento de una red neuronal es habitualmente producto de la intervención de "tutores" humanos que van señalando lo correcto o incorrecto hasta que el análisis logra la mayor eficiencia, los últimos trabajos relativos a la identificación de objetos en fotografías recurren a la "nube", donde existe una enorme cantidad de imágenes ya acompañadas des descripciones verbales. Así, se construye una gran base de datos de imágenes con su descripción y se ponen los computadores a repasarlas hasta lograr la tasa de reconocimiento automático esperada. 



Entre los laboratorios de informática que abordan este problema está el de Google -como no- que ha desarrollado un sistema (GoogLeNet) que acaba de ganar el primer premio en el ImageNet Large-scale Visual Recogniticion Challenge (ILSVRC), un concurso organizado por expertos de las universidades de Stanford, Princeton y Columbia que se repite desde el año 2010. La Universidad de Toronto lo ganó en 2012 con su programa SuperVision, el que introdujo una nueva técnica llamada de "convolución profunda" en las redes neuronales, que revolucionó la "visión de máquina", acercándola por primera vez a la eficiencia de la visión humana. Este sistema recurre a múltiples capas de colecciones reducidas de neuronas que son enfocadas a distintas áreas de la imagen. Supervision tiene 650.000 neuronas agrupadas en 5 capas y afinan 60 millones de parámetros durante el proceso de entrenamiento. La simplificación por lo concursantes de este tipo de tecnología de entrenamiento ha sido fundamental y ha permitido duplicar en cuatro años la tasa de exactitud. Equipos de Adobe, la Universidad de Oxford y la Nacional de Singapur también concursaron y fueron premiados. Todos compiten utilizando una misma base de datos (Imagenet) de 14 millones de imágenes encontradas en internet y previamente identificadas, dividas en 22.000 categorías diferentes. Google logró una tasa de error de 6,7%, mientras un observador humano entrenado obtiene una tasa de 1,7%. La diferencia se debe esencialmente a la dificultad -para la máquina- en reconocer imágenes alteradas por filtros, cosa que pocas veces impide el reconocimiento humano, mientras la máquina ya el gana al humano en ciertas definiciones de subcategorías (como las razas de perros, por ejemplo). (MIT Technology Review, 9/09/2014) 

El ILSVRC planteaba un triple desafío:

  1. detectar los objetos de forma automática;
  2. localizarlos en el espacio (distinguir entre objeto y fondo y delimitar su espacio en la imagen);
  3. clasificar los objetos, asignándoles una categoría.


Google ha prometido que cualquier investigador podrá acceder a la documentación del proyecto para replicar y modificar a su gusto el código para mejorar su rendimiento y ver por su propia cuenta cómo funciona. (Por cierto, debe para ello contar con un supercomputador capaz de simular redes neuronales: ¡no piense que podrá probarlo en su PC!). (Google Research Blog). 


Microsoft, por su parte, ha desarrollado el Project Adam, que pretende permitir a los usuarios identificar cualquier objeto haciendo una foto o incluso obtener información adicional como las calorias que contiene su cena. Para ello, pretende imitar el funcionamiento del cerebro humano con el fin de tratar de identificar un objeto en el menor tiempo posible. Por el momento, haciendo uso de la misma base de datos ImageNet, y gracias a una red de ordenadores con mas de 2.000 millones de conexiones, han logrado crear uno de los mejores sistemas de clasificación de imágenes de la actualidad. (Wwwhat's New, 15/07/2014) Demo: https://www.youtube.com/watch?v=zOPIvC0MlA4 

Reconocer para informar
Ingenieros informáticos de la Universidad de Washington y el Instituto Allen de Seattle han desarrollado el software LEVAN (Learning Everything about Anything), que se propone enseñarnos todo acerca de cualquier cosa a partir de la búsqueda de imágenes y de los conceptos asociados a ellas. LEVAN busca la información en los millones de libros disponibles en Google Books, así como en imágenes de Internet, con el fin de comprender los diferentes tipos de variaciones de un mismo concepto. Una vez recibida una consulta, muestra los resultados en una lista llena de imágenes, con el fin de que sea fácil explorar el contenido y aprender sobre el tema asociado en profundidad de una forma muy rápida y sencilla. Para ello, el programa aprende a relacionar conceptos teóricos con imágenes, para que de este modo, si le mostramos una imagen en concreto, sea capaz de reconocer este objeto y muestre todo lo que "sabe" acerca del mismo. La diferencia respecto a una búsqueda convencional reside en que LEVAN "entiende" qué es lo que le estamos preguntando y su objetivo es enseñárnoslo. Ya cuenta con 13 millones de imágenes diferentes relacionadas con 65.000 diferentes frases y, para los términos que no reconoce, iniicia una nueva búsqueda como antes explicado. (Wwwhatsnew.com, 2014/06/14)

Identificación de personas
Reconocer que algo es una cara o una persona, en una foto, es sencillo, pero la identificación de las personas es un problema diferente, especialmente debido a la enorma variedad genética (incluso ya presente en los neandertales), resultado de la presión evolutiva para que cada individuo sea fácilmente reconocible dentro de un grupo complejo y evitar así el caos social, como determinó un equipo de científicos, liderado por la Universidad de California en Berkeley (EE UU) que analizó los datos genéticos de poblaciones de África, Europa y Asia. 


El profesor Domingo Mery, de la Escuela de Ingeniería de la Pontificia Universidad Católica (Chile), ganó la distinción al mejor trabajo presentado en una conferencia en Zurich sobre identificación por computador, pero identificación tomando en cuenta características "suaves". El profesor Mery explica que hay muy buenas herramientas para identificar rostros si la cámara los toma de frente, como en el pasaporte: eso es "biométrica dura". Así no es gracia reconocer. La biometría "suave" (soft biometrics) se fija en rasgos como edad, barba, maquillaje, género, anteojos, etnia, color de pelo, color de ojos, largo de los brazos y piernas, altura, peso, gestos, y más. Súper difícil de combinar tantos factores, pero de eso se trata. El profesor Mery es tenaz; ganó su doctorado en Alemania porque ideó un programa de computador que identificaba, mediante una cámara de rayos X, fallas en las llantas de los autos. Después logró el reconocimiento de armas ocultas en los controles de aeropuertos, también con rayos X. Ahora investiga por un año sobre identificación de personas en los laboratorios de la Universidad de Notre Dame, en EE.UU. (El Mercurio, 15/09/2014).