Investigadores andaluces logran 'enseñar' a un ordenador a clasificar fotos y vídeos en función de los objetos que aparezcan en ellos

Andalucía, 14/10/2010

Investigadores de la Universidad de Granada, en colaboración con expertos británicos (University of Oxford) y suizos (ETH de Zurich), han desarrollado una nueva técnica informática que permite 'enseñar' al ordenador a interpretar el contenido visual de una imagen en movimiento o una fotografía. A partir imágenes obtenidas en bases de datos internacionales han ido extrayendo características concretas y medidas de los objetos para traducirlos a algoritmos matemáticos.

'Nosotros desarrollamos las características distintivas de un objeto y permitimos su clasificación', explica Manuel Jesús Marín Jiménez, uno de los investigadores del proyecto que trabaja en la Universidad de Córdoba pero que empezó a investigar en el tema ya en 2006 a través del departamento de Ciencias de la Computación e Inteligencia Artificial en la UGR al que aún permanece vinculado. Este avance permitiría, por ejemplo, clasificar de forma automática fotografías según aparezcan o no personas en ellas, o algún tipo de objeto concreto.

En la actualidad, las búsquedas y clasificaciones de fotografías en PCs se realizan según el nombre del fichero, carpeta o atributos tales como la fecha o el tamaño, pero no se hace uso de la información visual contenida en ellas, 'no se clasifican por el contenido'. El trabajo realizado permite utilizar este parámetro.

Una pose concreta

Además de detectar cuándo aparecen personas en fotogramas de vídeos o películas de TV, estas nuevas técnicas permiten estimar la posición de sus miembros superiores (cabeza, torso, brazos y antebrazos), así como llevar a cabo una clasificación automática de escenas de vídeo donde aparecen personas con una pose concreta, y reconocer acciones humanas en secuencias de vídeo, tales como caminar, saltar, agacharse

Como explica Marín Jiménez, en la actualidad existe, a nivel mundial, un gran interés, por parte de multitud de compañías potentes ,como Microsoft o Google, en conseguir que los computadores sean capaces de interpretar de forma automática el contenido visual de las imágenes y vídeo. 'Nuestro trabajo afirma el investigador- presenta pequeñas aportaciones para avanzar en ese ambicioso problema'.

Los resultados de esta investigación ya han sido presentados en congresos internacionales, como el International Conference in Pattern Recognition (ICPR) en 2006, o el Computer Vision and Pattern Recognition (CVPR) en 2008 y 2009.

El siguiente paso será crear técnicas para clasificar escenas de vídeo según la acción que realizan en ellas las personas. Una vez que se ha solucionado el tema de la postura, queremos intentar clasificar al más alto nivel, por medio de las acciones: es decir, si hay imágenes en las que las personas se saludan o se besan, por ejemplo, apunta el profesor Marín.

Responsable de la información publicada:

Consejería de Universidad, Investigación e Innovación

Servicios de atención a la ciudadanía

Compartir en