TIC    Inteligencia artificial

Google desarrolla un reconocimiento de voz ‘carácter a carácter’

El área de inteligencia artificial del gigante de internet logra reducir la latencia y la memoria que necesitan los sistemas actuales

21 MAR. 2019
3 minutos
Google lanza este nuevo sistema por el momento solo en inglés. / Robin Worrall /Unsplash

El área de inteligencia artificial de Google ha presentado como revolucionario su nuevo sistema de reconocimiento de voz RNN-T (recurrent neural networks transducer), suficientemente compacto como para operar en un móvil. Su gran aportación es que reduce de forma significativa la latencia y la memoria necesaria de los sistemas actuales, que interpretan frase a frase, ya que actúa carácter a carácter.

En el paper Streaming End-to-End Speech Recognition for Mobile Devices han presentado un modelo entrenado que utiliza esta tecnología de transductores. “El modelo funciona a nivel de caracteres, de modo que mientras habla, emite palabras carácter por carácter, como si alguien estuviera escribiendo lo que dice en tiempo real, como si se estuviera dictando”, señalan fuentes del área de IA de Google.

El sistema RNN-T procesa continuamente muestras de entrada y transmite símbolos de salida, que en la implementación de Google son los caracteres del alfabeto. Así, el nuevo reconocimiento de voz emite caracteres uno por uno, mientras habla, con espacios en blanco en los lugares apropiados.

Para el entrenamiento de este modelo se ha utilizado, explican las citadas fuentes, “una nueva técnica con la que se ha reducido la tasa de error de palabra en un 5%” al conseguir volverla “aún más computacional”.

Este sistema de reconocimiento de voz se lanzará inicialmente a todos los teléfonos Pixel y, por el momento, solo en inglés americano. “Dadas las tendencias en la industria, con la convergencia de hardware especializado y mejoras algorítmicas, tenemos la esperanza de que  se puedan adoptar pronto en más idiomas y en dominios de aplicación más amplios”.

Tradicionalmente, los sistemas de reconocimiento de voz constaban de varios componentes: un modelo acústico que mapea segmentos de audio a fonemas; un modelo de pronunciación que conecta los fonemas entre sí para formar palabras; y un modelo de lenguaje que expresa la probabilidad de frases dadas. “En los primeros sistemas, estos componentes permanecían optimizados independientemente”, recuerda fuentes del gigante de internet.