La lectura de labios es una tarea notoriamente difícil. Pero los investigadores de la Universidad de Oxford en el Reino Unido han creado un programa informático llamado Watch, Attend y Spell para hacer precisamente eso.
Afirman que su algoritmo de lectura labial es más preciso que los profesionales humanos.
Dan Misener es nuestro columnista tecnológico.
¿Por qué enseñar una computadora a leer los labios?
Hay una serie de razones por las que puede que desee que una computadora lea los labios y muchas de ellas tienen que ver con la accesibilidad.
Por ejemplo, un ordenador de lectura de labios podría transcribir o añadir subtítulos a vídeo, facilitar la conversación con sus dispositivos en entornos ruidosos o rellenar los vacíos durante una videoconferencia.
Pero, como resulta, leer los labios es una tarea difícil para los seres humanos y las computadoras.
Eso es porque nuestras bocas a menudo hacen las mismas formas para palabras diferentes, según Joon Son Chung, uno de los investigadores en Oxford.
«Así que, por ejemplo, pat, bat y mat son visualmente idénticos», dijo Chung.
Si sólo ves una boca y no escuchas una voz, es muy difícil decir lo diferente entre «murciélago» y «alfombra».
Ese es el reto de conseguir una computadora para leer los labios.
Pero la razón por la que estamos hablando de esto hoy es que ha habido varias mejoras recientes en este campo.
Y en algunos casos, las computadoras pueden ahora leer los labios mejor que los humanos.
¿Cómo el equipo de Oxford enseñó una computadora para hacer esto?
Los investigadores crearon lo que llaman Watch, Attend y Spell . Es un nuevo sistema de software de inteligencia artificial.
Watch, Attend y Spell se creó utilizando un método conocido como aprendizaje automático. Los investigadores crearon un algoritmo – una red neuronal – que podría aprender con el tiempo.
Ellos entrenaron el algoritmo mostrándole miles de horas de imágenes de televisión de la BBC.
La ventaja de las noticias de televisión es que es relativamente de alta calidad de vídeo e incluye muchas caras diferentes y estilos de hablar.
Además, los programas de televisión que utilizaron para entrenar el algoritmo ya estaban subtitulados por profesionales. Para que pudieran igualar los movimientos de la boca a las transcripciones de lo que se había dicho en la pantalla.
Después de que los investigadores entrenaron su algoritmo en estos miles de horas de TV, lo pusieron a prueba en el mundo real para ver cómo se realizaría en video sin leyendas.
En otras palabras, querían ver si su software podía tomar lo que había aprendido, y leer labios caras y bocas que no había visto necesariamente antes.
¿Qué tan exacto era?
Fue sorprendentemente precisa.
Fue capaz de obtener aproximadamente el 50 por ciento de las palabras correctas.
Ahora, el 50 por ciento de exactitud no suena tan impresionante hasta que lo comparas con expertos humanos en la lectura de labios.
«Hemos dado los mismos clips a los lectores profesionales y parecen tener menos de un cuarto de derecho», dijo Chung.
Por lo tanto, el rendimiento de la computadora es bastante impresionante.
¿Qué preocupaciones sobre la privacidad plantean las computadoras de lectura labial?
Cuando escuché por primera vez acerca de esta investigación, mi mente inmediatamente se volvió a esa escena en 2001: Una odisea del espacio , donde revelan que la computadora HAL 9000 puede leer los labios.
Pensé en todas las cámaras del mundo que nos rodean que capturan constantemente vídeo, como cámaras de teléfonos inteligentes o cámaras de seguridad.
Si es posible averiguar lo que alguien está diciendo con sólo una imagen de su boca, las posibilidades de vigilancia y espionaje parecen bastante espeluznante.
Le pregunté a Chung sobre esto, y me dijo que el sistema no plantea un grave riesgo de privacidad en este momento.
Eso es en parte porque la mayoría de las cámaras de seguridad no son de alta calidad suficiente para hacer este tipo de trabajo de lectura labial.
También señaló la tasa de exactitud del software del 50 por ciento.
«Sí, es cierto, puede leer mejor que un humano, pero todavía obtiene la mitad de las palabras equivocadas cuando se utiliza sin audio, por lo que no es realmente útil para escenarios intrusivos de privacidad», dijo Chung.
Incluso si obtuviste un video claro y de alta resolución de alguien, no sabrías exactamente lo que estaban diciendo.
¿Dónde podríamos ver computadoras que leen labios en la vida cotidiana?
Como dije fuera de la tapa, los investigadores tenían la accesibilidad en mente al diseñar este sistema.
En particular, pensaron en aplicaciones que podrían ayudar a las personas sordas o con dificultades auditivas.
Esta tecnología también tiene el potencial de mejorar significativamente el reconocimiento de voz de propósito general también.
No sé acerca de usted, pero a menudo me siento frustrado cuando uso servicios basados en voz como Siri, Google Now o Alexa. A veces funcionan bien para mí, pero otras veces, estos asistentes de voz hacen las cosas muy mal.
Los investigadores de Oxford creen que al combinar el reconocimiento de voz con la tecnología de lectura de labios, eso podría mejorar drásticamente la precisión de estos asistentes virtuales.
Y hay otra cosa a considerar: tendemos a pensar en la comprensión del habla como una habilidad auditiva. Pero los humanos también recogen señales visuales para entender lo que se dice.
De esta manera, cuando combinamos la tecnología de reconocimiento de voz con la tecnología de lectura labial, estamos construyendo sistemas informáticos que reflejan cómo los humanos perciben el habla.
Y si eso puede ayudar a Siri a entenderme un poco mejor, eso es un bono.