Los ordenadores aprenden a reconocer sonidos viendo videos
En los últimos años, los ordenadores han conseguido reconocer el habla y las imágenes de una forma notable: Piense en el software de dictado en la mayoría de los teléfonos móviles, o en los algoritmos que identifican automáticamente a las personas en fotos publicadas en Facebook.
Pero el reconocimiento de los sonidos naturales, como las multitudes que animan o las olas que rompen, se ha quedado rezagado. Esto se debe a que la mayoría de los sistemas de reconocimiento automatizados, ya sea que procesen información de audio o visual, son el resultado del aprendizaje automático, en el que los ordenadores buscan patrones en enormes compendios de datos de entrenamiento. Normalmente, los datos de entrenamiento tienen que ser anotados primero manualmente, lo que es prohibitivamente costoso para todas las aplicaciones excepto las de mayor demanda.
Sin embargo, el reconocimiento del sonido puede estar recuperándose, gracias a los investigadores del Laboratorio de Informática e Inteligencia Artificial (CSAIL) del MIT. En la pasada conferencia de Sistemas de Procesamiento de Información Neural, presentaron un sistema de reconocimiento de sonido que supera a sus predecesores, pero no necesita de datos anotados a mano durante el entrenamiento.
En su lugar, los investigadores entrenaron el sistema en vídeo. En primer lugar, los sistemas de visión computarizada existentes que reconocen escenas y objetos clasifican las imágenes en video. El nuevo sistema encontró correlaciones entre esas categorías visuales y los sonidos naturales.
"La visión por computadora ha caído tan bien que podemos transferirla a otros dominios", afirma Carl Vondrick, estudiante de posgrado del MIT en ingeniería eléctrica e informática y uno de los dos primeros autores del trabajo. "Estamos capitalizando la sincronización natural entre la visión y el sonido. Ampliamos con toneladas de video sin etiqueta para aprender a entender el sonido ".
Los investigadores probaron su sistema en dos bases de datos estándar de grabaciones de sonido anotadas, y fue entre un 13 y 15 por ciento más preciso que el sistema anterior de mejor rendimiento. En un conjunto de datos con 10 categorías de sonido diferentes, podría clasificar los sonidos con un 92 por ciento de precisión, y en un conjunto de datos con 50 categorías lo realizó con un 74 por ciento de precisión. En esos mismos conjuntos de datos, los seres humanos tienen una precisión del 96 por ciento y 81 por ciento, respectivamente.
"Incluso los seres humanos son ambiguos", comenta Yusuf Aytar, el otro autor del documento y un postdoc en el laboratorio de MIT del profesor de ingeniería eléctrica e informática Antonio Torralba. Torralba es el coautor final del artículo.
"Hicimos un experimento con Carl", comenta Aytar. "Carl estaba mirando el monitor del ordenador y no podía verlo. Él reproducía una grabación y yo trataría de adivinar lo que era. Resulta que esto es muy, muy difícil. Podía decir interior de exterior, conjeturas básicas, pero cuando se trata de los detalles - "¿Es un restaurante?", ese nivel de detalle desaparece. Incluso con fines de anotación, la tarea es realmente difícil".
Modalidades complementarias
Debido a que se necesita mucho menos potencia para recopilar y procesar datos de audio que para recopilar y procesar datos visuales, los investigadores prevén que un sistema de reconocimiento de sonido que podría ser usado para mejorar la sensibilidad al contexto de los dispositivos móviles.
Cuando se combina con datos GPS, por ejemplo, un sistema de reconocimiento de sonido podría determinar que un usuario de teléfono móvil está en una sala de cine y que la película ha comenzado, y el teléfono podría derivar automáticamente las llamadas a un mensaje saliente pregrabado. Del mismo modo, el reconocimiento del sonido podría mejorar la conciencia situacional de los robots autónomos.
"Por ejemplo, piense en un automóvil de conducción autónoma", comenta Aytar. "Hay una ambulancia y el coche no lo ve. Si lo oye, puede hacer predicciones futuras sobre la ambulancia, qué camino va a tomar, simplemente basándose puramente en el sonido ".
Lenguaje visual
El sistema de aprendizaje mecánico de los investigadores es una red neuronal, llamada así porque su arquitectura se asemeja a la del cerebro humano. Una red neuronal consiste en procesar nodos que, al igual que las neuronas individuales, sólo pueden realizar cálculos rudimentarios pero están densamente interconectados. La información, por ejemplo, los valores de píxeles de una imagen digital, se alimenta a la capa inferior de nodos, que la procesa y la transfiere a la siguiente capa, la procesa y la transfiere a la capa siguiente, etc. El proceso de entrenamiento modifica continuamente los ajustes de los nodos individuales, hasta que la salida de la capa final realiza, fiablemente, una cierta clasificación de los datos, digamos, identificando los objetos en la imagen.
Vondrick, Aytar y Torralba primero entrenaron una red neuronal en dos grandes conjuntos de imágenes anotados: uno, el conjunto de datos ImageNet, contiene ejemplos etiquetados de imágenes de 1.000 objetos diferentes; El otro, el conjunto de datos Places creado por el grupo de Torralba, contiene imágenes etiquetadas de 401 tipos de escenas diferentes, como un patio de juegos, un dormitorio o una sala de conferencias.
Una vez que la red fue entrenada, los investigadores transfirieron el video de 26 terabytes de datos de video descargados del sitio de intercambio de fotos Flickr. "Son unos 2 millones de videos únicos", comenta Vondrick. "Son unos 2 millones de videos únicos", dice Vondrick. "Si tuvieras que verlos todos, tardarías unos dos años". Entonces formaron una segunda red neuronal en el audio de los mismos videos. El objetivo de la segunda red era predecir correctamente las etiquetas de objetos y escenas producidas por la primera red.
El resultado fue una red que podía interpretar sonidos naturales en términos de categorías de imágenes. Por ejemplo, podría determinar que el sonido del canto de los pájaros tiende a asociarse con escenas de bosques y fotografías de árboles, pájaros, casas de pájaros y alimentadores de aves.
Benchmarking
Sin embargo, para comparar el rendimiento de la red de reconocimiento de sonido con el de sus predecesores, los investigadores necesitaban una manera de traducir su lenguaje de imágenes al lenguaje familiar de los nombres de sonidos. Así que formaron un sistema simple de aprendizaje de la máquina para asociar las salidas de la red de reconocimiento de sonido con un conjunto de etiquetas de sonido estándar.
Para ello, los investigadores utilizaron una base de datos de audio anotada, una con 50 categorías de sonido y unos 2.000 ejemplos. Esas anotaciones habían sido suministradas por humanos. Pero es mucho más fácil etiquetar 2.000 ejemplos que etiquetar 2 millones. Y la red de investigadores del MIT, entrenada primero en video sin etiqueta, superó significativamente a todas las redes anteriores entrenadas únicamente en los 2.000 ejemplares etiquetados.
###
Escrito por Larry Hardesty, Oficina de Noticias del MIT
Articulos Electrónica Relacionados
- IdeaHub inicia una búsqueda mu... La plataforma de innovación, IdeaHub inicia de nuevo una búsqueda mundial de innovadores de hardware y software para afrontar el desafío de...
- El Reglamento de EcoDiseño de ... Schneider Electric ha adaptado su fabricación de transformadores a la nueva reglamentación europea de EcoDiseño. Dentro de su política de Eficiencia Energética ...
- Aplicaciones de comunicación c... Avanzar hacia niveles superiores de conducción automatizada es el objetivo de un equipo de investigadores del Instituto Universitario de Investigación del autom...
- Aprobadas las ayudas para impl... El Consejo de Ministros, partiendo de la propuesta del Ministerio para la Transición Ecológica y el Reto Demográfico (MITECO), ha aprobado el pasado martes 29 d...
- La previsión del gasto de capi... IC Insights ha revisado sus perspectivas para el gasto de capital de la industria de semiconductores y presentó sus nuevos resultados en la actualizaci&o...
- Microcontroladores y ordenador... El informe de investigación IDTechEx "Microcontrollers and Single-board Computers 2016-2026", es el primero en revelar el panorama general de desarrollo ...
- El COM-HPC del PICMG finaliza ... PICMG anuncia que el comité COM-HPC ha finalizado las definiciones de pinouts y dimensiones para el factor de forma COM-HPC Mini. Esto significa que la gran may...
- CIRCE obtiene la patente de un... El centro tecnológico CIRCE ha conseguido la patente de un dispositivo de acople inductivo y transformador electrónico que hace uso del mismo que permite transm...
- El proyecto EROS desarrolla nu... El sector del transporte es actualmente el mayor emisor de gases de efecto invernadero, seguido de la industria y de la generación de electricidad. En este cont...
- El mercado de las ventajas y c... El nuevo informe de IDTechEx, "Electrically Active Smart Glass and Windows 2018-2028" observa que el cristal transparente electicamente activo es una idea que y...
- Calidad en grandes programas d... Con aproximadamente 770 gigavatios (GW) de potencia fotovoltaica instalada en el mundo al concluir 2020, la mayoría concentrada en grandes plantas solares para ...
- Nuevos materiales para mejorar... AIMPLAS, Instituto Tecnológico del Plástico, trabaja en el desarrollo de unos novedosos materiales plásticos que optimizan el almacenamiento de la energía prove...