¿Pueden las computadoras reconocer imágenes como lo haría un humano?
Es el principal objetivo de un programa de la Universidad Carnegie Mellon en Estados Unidos, que está tratando que las computadoras adquieran la capacidad de asociación humana mediante el análisis de imágenes durante 24 horas al día.
El mundo visual es aún un enigma para las máquinas.
Hasta ahora, los motores de búsqueda basaban el rastreo de imágenes en la indexación de palabras que tuvieran asociadas.
En los últimos años, la investigación se ha centrado en conseguir que las computadoras reconozcan las formas, tamaños, colores, etc., mediante algoritmos y muestren resultados visuales asociados a la búsqueda.
El programa llamado El eterno aprendiz de imágenes o Never Ending Image Learner (NEIL) en inglés ya ha analizado tres millones de imágenes, desde julio.
Como resultado, la visión artificial de la computadora logró hacer 2.500 asociaciones, después de identificar 1.500 objetos entre medio millón de imágenes y 1.200 escenas en miles de imágenes.
Las computadoras ya consiguen identificar y etiquetar los objetos utilizando la visión artificial de la máquina, pero los investigadores esperan que NEIL aprenda las relaciones entre los diferentes elementos sin que hayan sido previamente enseñados.
Como ejemplos de los vínculos que NEIL ha conseguido hacer, comprenden el hecho de que los coches se encuentran en las carreteras y que los patos pueden parecerse a los gansos.
El proyecto está siendo financiado por el Departamento de la Oficina del Departamento de Defensa e Investigación Naval de Estados Unidos y Google.
SENTIDO COMÚN Las imágenes son la mejor manera de aprender las propiedades visuales, cuenta Abhinav Gupta, profesor asistente de investigación en el Instituto de Robótica de la Carnegie Mellon.
Estas, además, incluyen una gran cantidad de información de sentido común acerca del mundo. Las personas aprenden esto por sí solas y, con NEIL, esperamos que las computadoras puedan hacer lo mismo, explica Gupta.
El sentido común, en este caso, hace referencia a la capacidad de reconocer lo que no se ha enseñado de forma explícita.
Por ejemplo, explica la experta en tecnología de la BBC Hannah Fraser, las personas aprendermos ciertas normas sociales pero a veces, nos encontramos en una situación para la que no se nos ha enseñado una respuesta.
Es ahí cuando utilizamos lo que hemos aprendido y lo aplicamos a una nueva situación. Ocurre lo mismo con las computadoras, en el terreno de la asociación.
PASOS DE GIGANTE En los últimos cinco o 10 años de investigación de visión artificial, hemos aprendido que cuantos más datos tenga una computadora, mejores resultados logra, añadió Gupta.
Otro de los objetivos del programa NEIL es crear la base de datos de conocimiento visual más grande del mundo, donde los objetos, escenas, acciones, atributos y relaciones contextuales puedan ser etiquetados y catalogados.
El aumento en el volumen de datos ha sido el principal desarrollo de la visión artificial en los últimos años.
Anteriormente, las bases de datos consistían en apenas unos cientos de imágenes, explica Hannah Fraser, experta en tecnología de la BBC. Hoy en día, el volumen de datos es enorme. Miles de millones. ¡Una locura!, revela.
Para Fraser, además, el interés de los gobiernos por mejorar la seguridad es clave en la financiación y el desarrollo de esta tecnología.
Uno de los grandes cambios que experimentó este campo de la computación fueron los atentados del 11 de septiembre en Nueva York.
El suceso desencadenó un flujo de financiación hacia el área de la seguridad, en la investigación académica. Un ejemplo son las cámaras que tratan de reconocer caras mediante la visión artificial de las computadoras. Por ejemplo, identificar sospechosos, desde caras hasta la forma en que se camina en la distancia, explica.
Sin embargo, para Lewis Griffin, profesor de Ciencias de la computación en la británica University College London, la visión artificial de los ordenadores está dando pasos de gigante gracias al creciente interés de las compañías tecnológicas.
Es muy caro, requiere mucha energía de las computadoras, que trabajen día y noche, asegura a BBC Mundo. El apoyo de las compañías a estos proyectos está impulsando grandes avances en el campo.
El proyecto NEIL se lleva a cabo en dos equipos de computadoras que incluyen hasta 200 núcleos de procesamiento.
NADA CON EL OJO HUMANO El programa también puede cometer errores, explica el equipo de investigadores.
La máquina puede pensar, por ejemplo, que que el término de búsqueda pink (rosa en inglés) hace referencia a la estrella pop en vez de al color, porque sería más probable que una búsqueda de imágenes muestre este resultado.
Para evitar errores de este tipo, los humanos todavía tienen que formar parte del proceso de aprendizaje del programa, según Abhinav Shrivastava, un estudiante de doctorado que trabaja en el proyecto NEIL.
Las personas no siempre saben cómo o qué enseñar a las computadoras, comenta y añade: Pero son buenas para decirles cuándo se equivocan.
Se nos olvida que las máquinas son completamente tontas, dice a BBC Mundo la experta de la BBC Hannah Fraser.
Para Fraser, la sociedad tiende a confiar en las computadoras en cuestión de exactitud pero en realidad, no siempre llevan razón. Explica que las personas tenemos que enseñarle todo a las computadoras. El cerebro y el ojo humano, en cambio, son extraordinariamente potentes. Incluso los bebés pueden reconocer caras.
La tarea de reconocer y asociar objetos será siempre algo que los humanos haremos mejor, concluye.
Por el momento, las computadoras en Canergie Mellow siguen aprendiendo sin darle descanso a la vista.