El reconocimiento automático del habla


El reconocimiento automático del habla


El reconocimiento automático del habla

RAH, Reconocimiento automático del habla.
RAP, Reconeixement automàtic de la parla.
ASR, Automatic Speech Recognition.

../habla_texto.gif

Objetivo: obtener una representación simbólica discreta de una señal vocal continua.

El desarrollo de un sistema de reconocimiento automático del habla requiere dos fases:

Dificultades para el reconocimiento automático del habla

La variación fonética interlocutor.

La variación fonética intralocutor.

Los estilos de habla.

Las «disfluencias» en el habla espontánea.

Las características del entorno.

Características de los sistemas de reconocimiento automático del habla

Tipo de enunciados

Reconocimiento de palabras aisladas.

Reconocimiento de palabras conectadas.

Reconocimiento de palabras clave (word spotting).

Reconocimiento de habla continua.

Reconocimiento de habla espontánea.

Número de locutores

Sistemas dependientes del locutor.

Sistemas independientes del locutor.

../Windows_Training.jpg

Entrenamiento con la voz del usuario en Microsoft Windows 8.

Microsoft. (2016). How to use speech recognition in Windows. Consultado en https://support.microsoft.com/ca-es/help/14213/windows-how-to-use-speech-recognition

Tamaño del vocabulario

Vocabulario restringido.

Vocabulario especializado.

Vocabulario general sin restricciones.

Entorno

Entorno silencioso.

Entorno con ruido predecible.

Entorno con ruido aleatorio.

Perfil del usuario

Usuario entrenado.

Usuario habitual.

Usuario ocasional.

Usuario sin experiencia.

Desarrollo histórico del reconocimiento del habla

../Juang_Rabiner_2006_historia_reconeixement.jpg

Juang, B.-H. y Rabiner, L. R. (2006). Speech recognition, Automatic: History. En K. Brown (Ed.), Encyclopedia of language & linguistics (2nd ed., pp. 806–819). https://doi.org/10.1016/B0-08-044854-2/00906-8

tornar al principi

El tratamiento de la señal en el reconocimiento automático del habla

Lea, W. A. (1986). The elements of speech recognition. En G. Bristow (Ed.), Electronic speech recognition. Techniques, technology and applications. (pp. 49–129). London: Collins.

(Fuente de la imagen: Wayne Lea [Perfil en LinkedIn]. (s.f.). Consultado el 4 de marzo de 2019, en https://www.linkedin.com/in/wayne-lea-4a2a1514/)

Comparación de señales continuas

Comparación entre la señal y un modelo (plantilla de referencia) establecido durante la fase del entrenamiento del sistema.

Determinación de la distancia (diferencia) entre la señal y la referencia.

Decisión sobre la similitud entre la señal y la referencia.

../etapes_reconeixement.jpg

Etapas en el reconocimiento de señales continuas.

Comparación de señales continuas parametrizadas

La señal y el modelo de referencia se representan mediante un conjunto de parámetros.

Parámetros temporales:

Parámetros frecuenciales:

Comparación de señales discretas

La señal se analiza en parámetros acústicos.

La segmentación de la señal se realiza a partir de la identificación de los parámetros acústicos que aparecen en los segmentos sucesivos.

Concatenación de los segmentos identificados para reconocer la señal de entrada.

tornar al principi

Estrategias para el reconocimiento automático del habla

Reconocimiento de palabras aisladas

Aplicación de técnicas de comparación de señales continuas.

Comparación entre la señal y el modelo almacenado.

../reconeixement_paraules_aillades.jpg

Reconocimiento de palabras aisladas.

Decodificación acústico-fonética

Utilización del análisis acústico de la señal para la detección de las propiedades fonéticas.

../reconeixement_fonetic.jpg

The International Engineering Consortium. (s.f.). Speech-enabled interactive voice response systems (Web Pro-Forum Tutorials). The International Engineering Consortium. Chicago, IL. Consultado en http://www.uky.edu/~jclark/mas355/SPEECH.PDF

Reconocimiento de habla continua

Utilización de técnicas de descodificación acústico-fonética.

Requiere la definición de un «modelo de lenguaje»: modelo estadístico que refleja la probabilidad de aparición de una palabra en función de las palabras anteriores.

Para la creación del modelo de lenguaje se utilizan n-gramas extraídos de un corpus textual.

Requiere la creación de un diccionario (lexicon) con la representación fonética del léxico.

Utilización de unidades de reconocimiento: difonos (difonemas).

../speech_recognition_process.gif

Funcionamiento de un sistema de reconocimiento automático del habla.

Grabianowski, E. (2006, 10 de noviembre). How speech recognition works. Consultado en https://electronics. howstuffworks.com/gadgets/high-tech-gadgets/speech-recognition.htm

../reconocimiento_modulos.jpg

Esquema básico de un sistema de reconocimiento automático del habla.

../Rabiner_Huang_2006_reconeixement_moduls.jpg

Módulos de un sistema de reconocimiento automático del habla.

Rabiner, L. R. y Juang, B.-H. (2006). Speech recognition: Statistical methods. En K. Brown (Ed.), Encyclopedia of language & linguistics (2nd ed., pp. 1–18). https://doi.org/10.1016/B0-08-044854-2/00907-X

../Marino_model_reconeixement_general.jpg

Modelo de reconocimiento de habla continua.

Mariño, J. B. (s.f.). Curso sobre tecnologías del habla. Barcelona: Universitat Politècnica de Catalunya, Departament de Teoria del Senyal i Comunicacions, Grup de Tractament de la Parla.

../Marino_model_reconeixement_1.jpg

Modelo de reconocimiento de habla continua: procesador acústico.

Mariño, J. B. (s.f.). Curso sobre tecnologías del habla. Barcelona: Universitat Politècnica de Catalunya, Departament de Teoria del Senyal i Comunicacions, Grup de Tractament de la Parla.

../Marino_model_reconeixement_2.jpg

Modelo de reconocimiento de habla continua: algoritmo de reconocimiento.

Mariño, J. B. (s.f.). Curso sobre tecnologías del habla. Barcelona: Universitat Politècnica de Catalunya, Departament de Teoria del Senyal i Comunicacions, Grup de Tractament de la Parla.

«Today’s speech recognition systems use powerful and complicated statistical modeling systems. These systems use probability and mathematical functions to determine the most likely outcome. … the two models that dominate the field today are the Hidden Markov Model and neural networks. These methods involve complex mathematical functions, but essentially, they take the information known to the system to figure out the information hidden from it.
The Hidden Markov Model is the most common … . In this model, each phoneme is like a link in a chain, and the completed chain is a word. However, the chain branches off in different directions as the program attempts to match the digital sound with the phoneme that’s most likely to come next. During this process, the program assigns a probability score to each phoneme, based on its built-in dictionary and user training.»

Grabianowski, E. (2006, 10 de noviembre). How speech recognition works. Consultado en https://electronics.howstuffworks.com/gadgets/high-tech-gadgets/speech-recognition.htm
../speech_recognition_Markov.jpg

Versión simplificada de un modelo de Markov para el reconocimiento de unidades.

Grabianowski, E. (2006, 10 de noviembre). How speech recognition works. Consultado en https://electronics.howstuffworks.com/gadgets/high-tech-gadgets/speech-recognition.htm

Powell, V. (2014, 7 de noviembre). Markov chains explained visually. Consultado en http://setosa.io/ev/markov-chains/

../Marino_model_reconeixement_3.jpg

Modelo de reconocimiento de habla continua: algoritmo de comprensión.

Mariño, J. B. (s.f.). Curso sobre tecnologías del habla. Barcelona: Universitat Politècnica de Catalunya, Departament de Teoria del Senyal i Comunicacions, Grup de Tractament de la Parla.

tornar al principi

Ámbitos relacionados con el reconocimiento automático del habla

Comprensión del habla

SLU, Spoken Language Understanding

En la comprensión del habla se requiere la integración de un sistema de reconocimiento automático del habla con un procedimiento de comprensión del lenguaje natural, de modo que el reconocedor puede aportar, por ejemplo, información prosódica que no se recoge en el texto escrito y el sistema de comprensión proporciona la información sintáctica y semántica.

Reconocimiento del hablante

❯ Identificación y verificación del locutor

Identificación automática de la lengua

ALI, Automatic Language Identification.

Determinación automática de la lengua utilizada por un determinado hablante.

tornar al principi

El reconocimiento automático del habla


El reconocimiento automático del habla
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Darrera actualització: