Análisis digital de imágenes y reconocimiento de objetos


Cuando vemos una fotografía o un cuadro, reconocemos con mucha facilidad sus componentes (como aquí un televisor, algunos gatos, unos libros). Pero es mucho más difícil lograr que un programa informático lo haga. 


Hasta ahora se han multiplicado las aplicaciones de reconocimiento de caras, especialmente por el éxito de la fotografía con smartphones y las redes sociales. En este caso, los patrones de reconocimiento son bastante estables y se trata de un solo tipo de objeto (que funciona bien con vistas frontales pero no en otras posiciones; ver más abajo). Lograr una aplicación general, capaz de analizar cualquier fotografía e identificar cualquier objeto es mucho más difícil. Se recurre para ello a redes neuronales artificiales, las que se "aprenden" mediante repetición. Aunque el entrenamiento de una red neuronal es habitualmente producto de la intervención de "tutores" humanos que van señalando lo correcto o incorrecto hasta que el análisis logra la mayor eficiencia, los últimos trabajos relativos a la identificación de objetos en fotografías recurren a la "nube", donde existe una enorme cantidad de imágenes ya acompañadas des descripciones verbales. Así, se construye una gran base de datos de imágenes con su descripción y se ponen los computadores a repasarlas hasta lograr la tasa de reconocimiento automático esperada. 



Entre los laboratorios de informática que abordan este problema está el de Google -como no- que ha desarrollado un sistema (GoogLeNet) que acaba de ganar el primer premio en el ImageNet Large-scale Visual Recogniticion Challenge (ILSVRC), un concurso organizado por expertos de las universidades de Stanford, Princeton y Columbia que se repite desde el año 2010. La Universidad de Toronto lo ganó en 2012 con su programa SuperVision, el que introdujo una nueva técnica llamada de "convolución profunda" en las redes neuronales, que revolucionó la "visión de máquina", acercándola por primera vez a la eficiencia de la visión humana. Este sistema recurre a múltiples capas de colecciones reducidas de neuronas que son enfocadas a distintas áreas de la imagen. Supervision tiene 650.000 neuronas agrupadas en 5 capas y afinan 60 millones de parámetros durante el proceso de entrenamiento. La simplificación por lo concursantes de este tipo de tecnología de entrenamiento ha sido fundamental y ha permitido duplicar en cuatro años la tasa de exactitud. Equipos de Adobe, la Universidad de Oxford y la Nacional de Singapur también concursaron y fueron premiados. Todos compiten utilizando una misma base de datos (Imagenet) de 14 millones de imágenes encontradas en internet y previamente identificadas, dividas en 22.000 categorías diferentes. Google logró una tasa de error de 6,7%, mientras un observador humano entrenado obtiene una tasa de 1,7%. La diferencia se debe esencialmente a la dificultad -para la máquina- en reconocer imágenes alteradas por filtros, cosa que pocas veces impide el reconocimiento humano, mientras la máquina ya el gana al humano en ciertas definiciones de subcategorías (como las razas de perros, por ejemplo). (MIT Technology Review, 9/09/2014) 

El ILSVRC planteaba un triple desafío:

  1. detectar los objetos de forma automática;
  2. localizarlos en el espacio (distinguir entre objeto y fondo y delimitar su espacio en la imagen);
  3. clasificar los objetos, asignándoles una categoría.


Google ha prometido que cualquier investigador podrá acceder a la documentación del proyecto para replicar y modificar a su gusto el código para mejorar su rendimiento y ver por su propia cuenta cómo funciona. (Por cierto, debe para ello contar con un supercomputador capaz de simular redes neuronales: ¡no piense que podrá probarlo en su PC!). (Google Research Blog). 


Microsoft, por su parte, ha desarrollado el Project Adam, que pretende permitir a los usuarios identificar cualquier objeto haciendo una foto o incluso obtener información adicional como las calorias que contiene su cena. Para ello, pretende imitar el funcionamiento del cerebro humano con el fin de tratar de identificar un objeto en el menor tiempo posible. Por el momento, haciendo uso de la misma base de datos ImageNet, y gracias a una red de ordenadores con mas de 2.000 millones de conexiones, han logrado crear uno de los mejores sistemas de clasificación de imágenes de la actualidad. (Wwwhat's New, 15/07/2014) Demo: https://www.youtube.com/watch?v=zOPIvC0MlA4 

Reconocer para informar
Ingenieros informáticos de la Universidad de Washington y el Instituto Allen de Seattle han desarrollado el software LEVAN (Learning Everything about Anything), que se propone enseñarnos todo acerca de cualquier cosa a partir de la búsqueda de imágenes y de los conceptos asociados a ellas. LEVAN busca la información en los millones de libros disponibles en Google Books, así como en imágenes de Internet, con el fin de comprender los diferentes tipos de variaciones de un mismo concepto. Una vez recibida una consulta, muestra los resultados en una lista llena de imágenes, con el fin de que sea fácil explorar el contenido y aprender sobre el tema asociado en profundidad de una forma muy rápida y sencilla. Para ello, el programa aprende a relacionar conceptos teóricos con imágenes, para que de este modo, si le mostramos una imagen en concreto, sea capaz de reconocer este objeto y muestre todo lo que "sabe" acerca del mismo. La diferencia respecto a una búsqueda convencional reside en que LEVAN "entiende" qué es lo que le estamos preguntando y su objetivo es enseñárnoslo. Ya cuenta con 13 millones de imágenes diferentes relacionadas con 65.000 diferentes frases y, para los términos que no reconoce, iniicia una nueva búsqueda como antes explicado. (Wwwhatsnew.com, 2014/06/14)

Identificación de personas
Reconocer que algo es una cara o una persona, en una foto, es sencillo, pero la identificación de las personas es un problema diferente, especialmente debido a la enorma variedad genética (incluso ya presente en los neandertales), resultado de la presión evolutiva para que cada individuo sea fácilmente reconocible dentro de un grupo complejo y evitar así el caos social, como determinó un equipo de científicos, liderado por la Universidad de California en Berkeley (EE UU) que analizó los datos genéticos de poblaciones de África, Europa y Asia. 


El profesor Domingo Mery, de la Escuela de Ingeniería de la Pontificia Universidad Católica (Chile), ganó la distinción al mejor trabajo presentado en una conferencia en Zurich sobre identificación por computador, pero identificación tomando en cuenta características "suaves". El profesor Mery explica que hay muy buenas herramientas para identificar rostros si la cámara los toma de frente, como en el pasaporte: eso es "biométrica dura". Así no es gracia reconocer. La biometría "suave" (soft biometrics) se fija en rasgos como edad, barba, maquillaje, género, anteojos, etnia, color de pelo, color de ojos, largo de los brazos y piernas, altura, peso, gestos, y más. Súper difícil de combinar tantos factores, pero de eso se trata. El profesor Mery es tenaz; ganó su doctorado en Alemania porque ideó un programa de computador que identificaba, mediante una cámara de rayos X, fallas en las llantas de los autos. Después logró el reconocimiento de armas ocultas en los controles de aeropuertos, también con rayos X. Ahora investiga por un año sobre identificación de personas en los laboratorios de la Universidad de Notre Dame, en EE.UU. (El Mercurio, 15/09/2014).

Los lenguajes de las imagenes

La versión completa, revisada y actualizada de este blog de Lenguaje Visual está disponible ahora en ISSUU (PDF).

También hay una versión en ePub , dividida en cuatro partes por el peso de las ilustraciones:
1a Parte: Fundamentos http://bit.ly/1qFUphK
2a Parte: La formación del discurso http://bit.ly/1DbUQoj
3a Parte: Técnicas 
(a) Fotografía y Realidad virtual http://bit.ly/1BGUtAb  
(b) Visualización de datos http://bit.ly/1t065vm
(Se puede leer en tabletas Android con FB Reader; descargando en PC, se puede llevar a otros formatos con Calibre)

Una versión en ePub puede ser solicitada al autor.


Símbolos de la era digital



El signo @ parece tener sus orígenes en el siglo VI, cuando los monjes lo adoptaron como una mejor manera de escribir la palabra "at" o "hacia"-que era tan fácil de confundir con el AD, la designación de Anno Domini (los años después de la muerte de Cristo). Apareció en el teclado de la máquina de escribir Underwood americana en 1885 como un símbolo de taquigrafía de contabilidad que significa "a razón de". Finalmente, en 1971, el programador Raymond Tomlinson decidió insertar el símbolo entre direcciones de red informática para separar el usuario del terminal. 

A pesar de haber sido "inventado" muchos años antes, lo que ahora reconocemos como el puerto Ethernet fue diseñado por David Hill para IBM. Según Hill, el símbolo era parte de un conjunto de símbolos que estaban destinados a representar las diferentes conexiones locales de red. La matriz de bloques representa cada una de las computadoras / terminales. 


El origen del signo "Pausa" parece clásico: en la notación musical, indica la pausa (cesura). 


El signo "Play" apareció por primera vez como símbolo de avance de la cinta en las grabadoras de cintas a mediados de la década de 1960. En algunos casos, ha sido acompañado por el doble triángulo de rebobinado y avance rápido. La dirección de la flecha indicaba la dirección de avance de la cinta. 


Creado como parte de la especificación USB 1.0, el icono de USB se diseñó para parecerse al Tridente de Neptuno, pero en lugar de las puntas, los promotores del USB decidieron poner un triángulo, un cuadrado y un círculo, para significar todos los diferentes periféricos que se podrían unir mediante el estándar. 


El símbolo de Bluetooth es una combinación de dos runas que representan las iniciales del rey danés Harald Blåtand, porque el primer receptor de Bluetooth tenía una forma parecida a los dientes de Harald. Pero la interacción simbólica no termina ahí. Como señala las notas de los creadores de Bluetooth, Blåtand "jugó un papel decisivo en la unión de las facciones en guerra en partes de lo que ahora son Noruega, Suecia y Dinamarca, al igual que la tecnología Bluetooth está diseñada para permitir la colaboración entre diferentes industrias como la informática, el teléfono móvil y los mercados de automoción". 


Para el símbolo "Comando", que Apple quería colocar en sus teclados, la artista digital Susan Kare estudió minuciosamente un diccionario de símbolos internacionales y escogió un símbolo floral que, en Suecia, indicaba un atractivo digno de mención en un camping. Es también conocido como el bucle de Gorgon, o bucle infinito, y, en el estándar Unicode, representa una "señal de lugar de interés". Se ha mantenido como uno de los pilares de los teclados de Apple hasta ahora. 


En 1973, la Comisión Electrotécnica Internacional codificó un círculo roto con una línea dentro de él como "el estado de energía de reserva". El Instituto de Ingenieros Eléctricos y Electrónicos, sin embargo, decidió que era demasiado vago, y alteró la definición para significar simplemente el poder. 

Emoticones

Los emoticones nacieron como una secuencia de caracteres ASCII que representaba una cara humana y expresaba una emoción, por ejemplo :-) . Los primeros aparecieron 1881 en la revista satírica estadounidense Puck. La secuencia de caracteres :-) fue propuesta en 1982 por el científico del cómputo estadounidense Scott Fahlman. 

Los conocidos emoticones o emojis que estamos tan acostumbrados a utilizar a través de nuestros smartphones llegó ahora a la versión web de Twitter. El servicio de microblogging permite, gracias a su actualización, ver estos simpáticos dibujos a través del ordenador.

Una de las medidas más populares tomadas por Apple fue la inclusión de un teclado de "emojis" en la versión de iOS, lanzada en 2012. La compañía por fin permitía el uso de los populares emoticones japoneses de forma nativa, sin tener que instalar aplicaciones de terceros.

Ahora, a menos de dos años de ese lanzamiento, parece que Apple se está volviendo un jugador clave en el mundo de los emojis, ya que según publicó MTV Act, la compañía estaría trabajando para renovar el sistema, incluyendo íconos más diversos culturalmente. (Noticiasdot.com, 26/03/2014). 

Y estos son solo algunos de los numerosos emoticones que ofrece Gmail para su correo electrónico.