L'estructuració i reconeixement de la veu i de la parla és una tecnologia que ha evolucionat enormement les últimes dècades. Va aparèixer per primera vegada els anys cinquanta amb el sistema Audrey de Bell Laboratories que podia comprendre números. El sistema següent va ser Shoebox de IBM i podia processar 16 paraules en anglès. Des de llavors, els sistemes de reconeixement de la parla han assolit un nivell de complexitat tecnològica elevadíssim.
En l'actualitat, els sistemes estan disponibles en tots els dispositius intel·ligents i mòbils i són capaços d'entendre la parla contínua, distingir la veu i entendre diversos idiomes i una gran quantitat de paraules. A més, els usos per a aquesta tecnologia han canviat; des dels usos en entorns professionals i laborals que se li donaven al principi, a l'entreteniment i l'ús a la vida domèstica i quotidiana que té actualment.
Les possibilitats que ofereix el reconeixement de la veu a l'actualitat són múltiples. S'utilitza al camp de l'atenció al client per dirigir trucades i gestionar grans quantitats d'usuaris. En aquest camp s'està començant a introduir la a biomètrica per detectar tons de veu i formes de parlar i, d'aquesta manera, autenticar usuaris, evitar el frau en les transaccions bancàries i la suplantació d'identitat i ajudar les persones que puguin tenir dificultats per dur a terme aquestes activitats de manera convencional.
Més recentment, han aparegut els dispositius d'ús domèstic que incorporen aquesta tecnologia. Entre ells hi ha Echo d'Amazon, que fa servir Alexa per a la comunicació amb l'usuari, HomePod d'Apple i Home de Google. Aquests dispositius tenen habilitats que s'activen amb ordres verbals que permeten fer moltes accions, com demanar una pizza o comunicar-se amb el metge de capçalera.
A més, la tecnologia de reconeixement de veu està creixent en el camp de les cerques. Google Trends (a través de Search Engine Watch) diu que les cerques per veu van augmentar 38 vegades el 2016 en comparació amb el 2008.
Un dels seus usos més crucials és el dictat, que permet reduir significativament el temps dedicat a la redacció de textos i transcripció d'àudio. Han aparegut moltes aplicacions i programes que es basen en aquesta funció de dictat, com Dragon Naturally Speaking, Braina o Sonix.
Aquests programes són molt útils per a transcripcions de textos orals, entrevistes i altres tipus de textos orals i escrits amb què tracten professionals com els periodistes o redactors de continguts. Tot i això, l'estructuració de la veu ofereix encara més possibilitats.
A Bismart fem servir el reconeixement de la veu per a algunes de les nostres solucions. Per exemple, Folksonomy Text Analytics pot treballar amb documents d'àudio per trobar la informació que hi necessitis. D'aquesta manera no cal perdre temps i recursos escoltant i transcrivint els documents audiovisuals per treure'n tota la informació. És especialment útil quan es disposa d'una quantitat tan enorme de documents que processar-los manualment seria impossible.