La síntesis por formantes
Esta página ha dejado de actualizarse
Un sintetizador por formantes es un modelo de tracto vocal estructurado en una fuente y un conjunto de filtros.
Se basa en un modelo fonético de producción del habla: el modelo de la fuente y el filtro.
❯ El modelo de la fuente y el filtro en la síntesis del habla
Permite controlar los valores de los parámetros acústicos que caracterizan a cada sonido del habla.
Ofrece una manipulación flexible de los datos extraídos del análisis acústico del habla.
La calidad para la conversión de texto en habla realizada mediante síntesis por formantes es, en ocasiones, inferior a la de otros sistemas de síntesis debido a la reducción de la información almacenada.
Relación directa entre el modelo de síntesis y las características espectrales.
Relación directa entre el modelo de síntesis y los correlatos articulatorios.
Aproximación muy precisa a la función de transferencia del tracto vocal en vocales orales.
No requiere un control de la amplitud y del ancho de banda de de cada formante ya que el filtro siguiente modifica la estructura del anterior.
Dificultad de modelar consonantes nasales, ya que no permite la modelización de cavidades paralelas.
Klatt, D. H. (1980). Software for a cascade/parallel formant synthesizer. The Journal of the Acoustical Society of America, 67(3), 971-995. doi:10.1121/1.383940
Klatt, D. H. (1991). Software for a cascade/parallel formant synthesizer. En R. D. Kent, B. S. Atal y J. L. Miller (Eds.), Papers in speech communication: Speech production (pp. 765-789). New York: Acoustical Society of America. (Obra original publicada en 1980)
Modelado de espectros complejos con polos y ceros para los sonidos que se producen con excitación en un punto distinto de la glotis en los que la amplitud de los formantes viene afectada por la presencia de ceros en la función de transferencia del tracto vocal.
Control directo de la frecuencia y la amplitud de cada formantes, necesarios para ciertas clases de consonantes.
Permite una señal sonora muy parecida al habla natural copiando los datos acústicos obtenidos del análisis de habla real
No representa el proceso de producción del habla en términos articulatorios.
El modelado de las vocales orales requiere una aproximación muy precisa a una configuración en serie.
Klatt, D. H. (1980). Software for a cascade/parallel formant synthesizer. The Journal of the Acoustical Society of America, 67(3), 971-995. doi:10.1121/1.383940
Klatt, D. H. (1991). Software for a cascade/parallel formant synthesizer. En R. D. Kent, B. S. Atal y J. L. Miller (Eds.), Papers in speech communication: Speech production (pp. 765-789). New York: Acoustical Society of America. (Obra original publicada en 1980)
Parámetro | Base fisiológica | Acústica |
---|---|---|
AV amplitud de la sonoridad | Amplitud de la vibración de las cuerdas vocales | Intensidad de la onda sonora |
f0 frecuencia fundamental | Frecuencia de vibración de las cuerdas vocales | Frecuencia fundamental |
F1 primer formante | Primera resonancia del tracto vocal | Frecuencia del primer formante |
F2 segundo formante, F3 tercer formante... | Segunda resonancia del tracto vocal, tercera resonancia del tracto vocal... | Frecuencia del segundo formante, frecuencia del tercer formante... |
B1 amplitud de banda del primer formante, B2, B3... | Configuración del tracto vocal | Ampitud de banda del primer formante... |
AK Amplitud del ruido de fricción | Tipo de constricción | Intensidad de los componentes aperiódicos |
K1, K2 Frecuencia del ruido de fricción | Tipo de constricción | Frecuencia de los componentes aperiódicos |
AH Amplitud de la aspiración | Fricción en el tracto vocal | Componentes aperiódicos de los formantes |
N1 Frecuencia del formante nasal | Resonancia del tracto nasal | Frecuencia del formante nasal |
AN Amplitud de la nasalidad | Resonancia del tracto nasal | Intensidad de la resonancia nasal |
![]() John N. Holmes (-1999) (O.Engstrand, Phonetic portrait gallery, Department of Linguistics, University of Stockholm). |
Utilización de un pulso con estructura espectral mínima como modelo de fuente.
Generación de una onda glotal estilizada que se aproxima a la natural pero que no reproduce los detalles.
Acoplamiento de las cavidades subglóticas.
Se ignora la modificación en frecuencia y amplitud de banda que se produce por acoplamiento de las cavidades supraglóticas.
Limitaciones en la amplitud de banda en el control de las señales sintetizadas.
Dificultad en la reproducción de cambios rápidos de amplitud como los que se producen en la explosión de una consonante o en la transición de nasales y laterales a la vocal adyacente.
Tratamiento similar a las vocales no nasalizadas.
Generación mediante un polo y un cero adicionales añadidos a la función de transferencia que no modifica el aumento de la amplitud de banda que se produce en las vocales naturales debido al mayor amortiguamiento provocado por la salida de aire por la cavidad nasal.
Procedimientos ad-hoc para la síntesis de las consonantes
Dificultades en combinar dos fuentes de excitación para fricativas y oclusivas sonoras.