TIC    Algortimos

Alexa puede convertirse en tu ‘doctora’ o en un amigo que sabe cómo te sientes

Amazon patenta un sistema de análisis que detecta anomalías físicas y emocionales a través de la voz

05 NOV. 2018
6 minutos
Los nuevos algoritmos de Amazon para analizar nuestra voz. / INNOVADORES

Los nuevos dispositivos como los asistentes virtuales, que se configuran para responder a comandos basados en la voz, pueden proporcionar más información que la simple ‘orden’ del usuario, si se analizan los matices, las características físicas y emocionales que se transmiten a través de nuestra voz.

Por ejemplo, si se implementa en estos dispositivos una tecnología para determinar estas características, se podría identificar que el usuario sufre un dolor de garganta o tiene tos, basándose en la voz del usuario. Esto en cuanto a las particularidades físicas, pero también se puede ajustar para estado emocional, es decir detectar un estado de excitación o tristeza, por ejemplo.

Esta es una de las últimas tecnologías que ha patentado Amazon, con el título Determinar por la voz las características físicas y emocionales de los usuarios, para implementar, a través de estos algoritmos, nuevos servicios a dispositivos como Alexa o Echo, basados en el reconocimiento y procesamiento de la voz.

Estos sistemas pueden emplear técnicas para identificar palabras habladas por un usuario, basadas en las diferentes características de una entrada de voz recibida. El reconocimiento puede combinarse con técnicas de procesamiento de comprensión de lenguaje natural para permitir la interacción del usuario con un dispositivo como los asistentes virtuales.

El objetivo de esta tecnología patentada por Amazon es determinar en tiempo real el estado del usuario, según los primeros datos de voz analizados y, de este modo, se genera un primer indicador de su estado inicial. Por ejemplo, un usuario pronuncia la frase ‘¿Qué está pasando hoy?’ Los algoritmos de análisis de voz detectan una emoción relacionada con el aburrimiento, por lo que el dispositivo puede responder: ‘¿Estás de humor para una película?’ y así establecer una ‘conversación’ con el usuario para conocer su estado de ánimo y darle respuestas más personalizadas.

Además, el asistente también puede detectar alteraciones físicas en la voz del usuario. Por ejemplo, si dices ‘Alexa’, toses, y después continua la orden que iba a realizar. El dispositivo identifica que el usuario ha tosido al pronunciar la frase, por lo que considera que ocurre algo anormal. En este momento, el dispositivo puede enviar una notificación al servidor de procesamiento de voz, para que este puede determinar esta anomalía.

Al determinar el nuevo ‘estado’ del usuario, puede hacerle sugerencias para aliviar la anomalía, por ejemplo puede ofrecerle contenido relacionado con gotas para la tos o medicamentos para la gripe. Es decir, primero respondería a la orden inicial del usuario y después indicaría: ‘Por cierto, ¿te gustaría pedir gotas para la tos con 1 hora de entrega?’. Si el usuario acepta esta propuesta, Alexa pueden realizar la compra online: ‘No hay problema. Te enviaré una confirmación de pedido por correo electrónico’ e incluso añadir una frase tipo: ‘Deseo que te mejores’.

Los algoritmos con los que trabaja

Así, en la patente se describen hasta cinco algoritmos para analizar estas “anomalías” en las características de los usuarios. El primero analiza el estado emocional a partir de valores predeterminados para identificar felicidad, alegría, enojo, tristeza, miedo, disgusto, aburrimiento, estrés, entre otros.

El segundo de estos algoritmos analiza los datos de voz para detectar cambios de salud o en el estado del usuario. Así, analizan los sonidos que emite el usuario, no solo su voz, sino también los cambios de modulación de la misma. Estos algoritmos se complementan con el tercero, que analiza los ruidos de fondo ambientales, desde personas que hablan en grupo, el tráfico, el aire acondicionado… El objetivo es conocer los efectos de ese ruido de fondo en el usuario.

El cuarto de los algoritmos que se incorporan analizan el acento del lenguaje del usuario. Por ejemplo, puede determinar que un usuario tiene un acento europeo, un acento indio, un acento chino, un acento latino, un acento británico, un acento australiano u otro acento. Estos valores los usará el sistema para detectar el tono y la energía habituales y ‘normalizados’. Por último, el quinto algoritmo determina el género y la franja de edad del usuario.