El ojo electrónico que imita la visión humana

El ojo electrónico que imita la visión humana

Una de las aspiraciones de la ciencia y la ingeniería es desarrollar sistemas con las capacidades del organismo más complejo de la naturaleza: el formado por los 37 billones de células del cuerpo humano. En general es insondable, pero se pueden lograr algunos avances. El Instituto de Microelectrónica de la capital andaluza (Imse), dependiente del Consejo Superior de Investigaciones Científicas (CSIC) y la Universidad de Sevilla, se ha centrado en el sistema que hace posible la visión.


Las cámaras convencionales capturan una imagen que repite una secuencia entre 30 y hasta 100.000 veces por segundo. Pero el ojo y las conexiones con el cerebro nos permiten ir aún más lejos y enfocarnos y percibir cambios mínimos, permitiéndonos adaptarnos a la interpretación del entorno y actuar en consecuencia sin tener que almacenar toda la información. Imse ya está aplicando esta capacidad a sensores de visión dinámica (DVS) para cámaras de eventos, que han sido adoptados por empresas como Samsung y Sony.

Las cámaras tradicionales se parecen más a una pintura hiperrealista que a una visión. Captan la imagen de un cuadro y la reproducen. Los avances más importantes están en la resolución: al integrar más píxeles se consigue mayor resolución y se evitan posibles errores en el procesamiento. “Pueden proporcionar cantidades masivas de datos que requieren una oficina central y mucho cableado para transmitir. Pero alguien tiene que procesarlo”, explica Bernabé Linares, profesor de investigación del Imse.

“La retina biológica no registra imágenes. Toda la información pasa por el nervio óptico y es procesada por el cerebro. En la cámara tradicional, cada píxel es autónomo y sólo necesita interactuar con sus vecinos para ajustar el brillo. Pero una imagen digital a la salida de un túnel puede ser completamente blanca o negra, mientras que, salvo en condiciones muy extremas, podemos ver lo que hay dentro y fuera”, añade el investigador. Esta capacidad es fundamental, por ejemplo, para el desarrollo de vehículos autónomos.

Esta propiedad de la visión humana se llama foveación, un mecanismo que permite maximizar la resolución en el área donde se enfoca la visión manteniendo una baja resolución en las áreas de visión periférica. De esta forma, se reduce la cantidad de información producida por la retina, pero se conserva la capacidad de reconocimiento visual para la toma de decisiones.

El Grupo de Sistemas Neuromórficos de Imse busca un ojo electrónico con estas y otras capacidades inspiradas en la biología, un sensor que permita obtener resultados a gran velocidad y sin un enorme consumo energético, y que minimice la cantidad de datos necesarios para un procesamiento eficaz. Con estas premisas se desarrolló la cámara de eventos, que no trabaja con imágenes individuales, sino con flujos continuos de impulsos eléctricos (eventos o sucesos). Picos), que es generado de forma autónoma por cada fotosensor (o píxel) cuando detecta un cambio suficiente en la luz.

“En estas cámaras”, subraya Linares, “la información de salida la proporcionan los contornos de los objetos”. Pero no son imágenes: son un flujo dinámico de píxeles (eventos) que cambian e imitan la fase de procesamiento del cerebro, que También construye una jerarquía de capas”.

Aunque la semilla del nuevo enfoque de la imagen surgió en los años 90 en el Instituto Tecnológico de California (Caltech), su uso para imitar el ojo humano comenzó hace 20 años en Suiza con un proyecto europeo llamado CAVIAR coordinado por el Imse. A partir de ahí comenzaron las patentes, surgieron empresas a partir de investigaciones, inversores y la adopción de desarrollos por parte de empresas como Samsung y Sony para desarrollar procesadores de imágenes. “El objetivo”, explica el investigador del Imse, “es el desarrollo de una fóvea [la región de la retina especializada en la visión fina de los detalles] Electrónica”. Este dispositivo permite, sin generar mucha información, identificar el área de interés y esta es procesada en alta resolución.

Este dispositivo es fundamental para distinguir datos relevantes para la conducción autónoma, agilizando el procesamiento y minimizando el consumo de recursos. “Cuando la cámara ve una señal o un peatón u otro vehículo, no tiene que analizar toda la imagen, sólo el nuevo elemento”, explica Linares.

Pero también tiene efectos extraordinarios en los sensores de cada actividad, como por ejemplo: B. Monitorización y seguimiento de imágenes activándose únicamente cuando se produce un cambio relevante, o en diagnóstico de imágenes señalando únicamente las zonas cambiadas, o en navegación con drones. La investigación, dirigida por Bodo Rueckauer de la Universidad holandesa de Radboud, utiliza un sensor de visión dinámico (DVS) desarrollado por Imse: «Este sensor sin marco señala cambios en la intensidad de la luz dependiendo de los píxeles y se caracteriza por un alto rango dinámico». y una resolución temporal en el rango de microsegundos. Una inteligencia artificial entrenada para reconocer gestos consigue una precisión del 90% a través del DVS”.

Teresa Serrano, científica y directora del Imse, muestra cómo la neurociencia puede utilizar procesadores que interactúan con los sistemas neuronales y ayudar a pacientes con epilepsia o Parkinson.Más información

La dirección actual de la investigación se resume en el proyecto Nimble AI, que pretende aprovechar los últimos avances en microelectrónica y tecnología de circuitos integrados para lograr el reconocimiento y procesamiento neuromórfico con mayor seguridad y privacidad a menor coste y consumo energético (hasta 100 veces menos) y latencia (tiempo de respuesta 50 veces más rápido).

Una de las empresas que surgió del grupo de investigación fue Chronocam, ahora llamada Prophesee. «Básicamente, estamos desarrollando un nuevo enfoque para la detección de información que es muy diferente de las cámaras tradicionales que existen desde hace muchos años», afirma Luca Verre, director ejecutivo de Prophesee.

“Nuestros sensores generan cantidades muy pequeñas de datos. Por lo tanto, le permiten tener un sistema de bajo consumo y costo razonable porque puede generar fácilmente algunos datos de eventos con los que el procesador puede interactuar fácil y localmente. En lugar de alimentarlo con toneladas de fotogramas, lo que lo sobrecarga y afecta su capacidad para procesar datos en tiempo real, la cámara de eventos le permite hacerlo en tiempo real en una escena”, explica Verre.