Buscar dentro de un vídeo o audio en Internet

Lecture Browser permite buscar palabras claves en vídeos de clases y conferencias en Internet

Según este artículo de Technology Review, investigadores del MIT han desarrollado una herramienta de búsqueda en audio y vídeo que resuelve uno de los principales problemas de este campo: cómo dividir una extensa clase académica en trozos manejables, precisar la localización de palabras clave y dirigir a los usuarios hacia ellas. El nuevo sitio Web Lecture Browser del MIT, ofrece al público un acceso detallado a más de 200 clases disponibles públicamente a través de la iniciativa OpenCourseWare de la Universidad. Este motor de búsqueda parte de décadas de investigación de reconocimiento por voz del MIT y otras instituciones para convertir el audio en texto y permitir las búsquedas en él.

El Lecture Browser ha surgido en un momento en el que cada vez más universidades están publicando en línea vídeos y podcasts de sus clases. Aunque su contenido puede ser muy útil, localizar una información específica dentro de las clases resulta complicado y en ocasiones frustrante para los alumnos, acostumbrados a encontrar lo que necesitan en menos de un segundo con Google.

“Constituye uno de los principales problemas de las universidades de todo el país”, señala Jim Glass, investigador del MIT. “Es un verdadero reto saber cómo difundirlas y facilitar el acceso de los estudiantes a partes concretas de la clase en las que puedan estar interesados”.

Los elementos fundamentales del Lecture Browser han rondado durante más de 30 años por los laboratorios de investigación del MIT y otros lugares, como BBN Technologies, Carnegie Mellon, SRI International o la Universidad de California del Sur. Sus iniciativas han dado lugar a un software que, finalmente, es lo suficientemente bueno como para guiar a una persona promedio, señala Premkumar Natarajan, científico de BBN.

Unas cuantas compañías, como los motores de búsqueda de audio y vídeo en línea Blinkx y EveryZing, están utilizando ya el software que convierte el audio en texto buscable, pero los investigadores del MIT se encontraron con algunos problemas concretos a la hora de utilizarlo para clases académicas. Por una parte, el inglés no es la lengua materna de muchos de los oradores, lo que dificulta la labor de los sistemas de trascripción automática entrenados para trabajar con acentos estadounidenses. Por otra, las palabras que predominan en las clases científicas pueden ser a menudo poco conocidas. Por último, señala Regina Barzilay, profesora de informática en el MIT, las clases suelen tener una estructura muy poco discernible, por lo que resulta difícil dividirlas y organizar su contenido para facilitar la búsqueda.

Para resolver estos problemas, los investigadores configuraron, en primer lugar, el software que convierte el audio en texto. Entrenaron el software para entender acentos determinados utilizando transcripciones precisas de trozos cortos de grabaciones de audio. Para ayudar al software a identificar palabras poco comunes, los investigadores le proporcionaron datos adicionales, como textos de libros y clases, que ayudan al software a transcribir de forma precisa cuatro de cada cinco palabras. No obstante, si el sistema se utiliza con una persona cuya lengua materna no es el inglés y para cuyo acento y vocabulario el sistema no ha sido entrenado, la precisión puede descender a un 50% (una precisión tan baja no sería útil para realizar una trascripción, pero sí para una búsqueda de palabras clave).