El reconocimiento de la voz ha avanzado mucho en las últimas décadas y hoy día se utiliza en todos los sectores. Repasamos cuáles son sus usos.

La estructuración y reconocimiento de la voz y del habla es una tecnología que ha evolucionado enormemente en las últimas décadas. Apareció por primera vez en los años cincuenta, con el sistema Audrey de Bell Laboratories que podía comprender números. El siguiente sistema fue Shoebox de IBM y podía procesar 16 palabras en inglés. Desde entonces, los sistemas de reconocimiento del habla han alcanzado un nivel de complejidad tecnológica elevadísimo.

Nuevos usos

En la actualidad, los sistemas están disponibles en todos los dispositivos inteligentes y móviles y son capaces de entender el habla continua, distinguir la voz y entender varios idiomas y una enorme cantidad de palabras. Además, los usos para esta tecnología han cambiado; desde los usos en los entornos profesionales y laborales que se le daban al principio, al entretenimiento y el uso en la vida doméstica y cotidiana que tiene actualmente.

Las posibilidades que ofrece el reconocimiento de voz en la actualidad son múltiples. Se utiliza en el campo de la atención al cliente para dirigir llamadas y gestionar grandes cantidades de usuarios. En este campo se está empezando a introducir la biométrica para detectar tonos de voz y formas de hablar y, de esta forma, autenticar usuarios, evitar el fraude en las transacciones bancarias y la suplantación de identidad y ayudar a las personas que puedan tener dificultades para realizar estas actividades de forma convencional.

Más recientemente han aparecido los dispositivos de uso doméstico que incorporan esta tecnología. Entre ellos se encuentran Echo de Amazon, que usa Alexa para la comunicación con el usuario, HomePod de Apple y Home de Google. Estos dispositivos tienen habilidades que se activan con órdenes verbales que permiten hacer multitud de acciones, como pedir una pizza o comunicarse con el médico de cabecera.

Además, la tecnología de reconocimiento de voz está creciendo en el campo de las búsquedas. Google Trends (a través de Search Engine Watch) dice  que las búsquedas por voz aumentaron 38 veces en 2016 respecto a 2008.

El dictado: lo más básico pero más utilizado

Uno de sus usos más cruciales es el dictado, que permite reducir significativamente el tiempo dedicado a la redacción de textos y transcripción de audio. Han aparecido muchas aplicaciones y programas que se basan en esta función de dictado, como Dragon Naturally Speaking, Braina o Sonix.

Estos programas son muy útiles para transcripciones de textos orales, entrevistas y demás tipos de textos orales y escritos con los que tratan profesionales como los periodistas o redactores de contenidos. Aun así, la estructuración de la voz ofrece más posibilidades todavía.

En Bismart usamos el reconocimiento de la voz para algunas de nuestras soluciones. Por ejemplo, Folksonomy Text Analytics puede trabajar con documentos de audio para encontrar la información que necesites en ellos. De esta forma no es necesario perder tiempo y recursos escuchando y transcribiendo los documentos audiovisuales para sacar toda la información que puedan contener. Es especialmente útil cuando se dispone de una cantidad tan enorme de documentos que procesarlos manualmente sería imposible.

Publicado por Maria Gorini