La síntesis por formantes
Se basa en un modelo fonético de producción del habla: el modelo de la fuente y el filtro.
El modelo de la fuente y el filtro en la síntesis del habla
Permite controlar los valores de los parámetros acústicos que caracterizan a cada sonido del habla.Ofrece una manipulación flexible de los datos extraídos del análisis acústico del habla.
La calidad para la conversión de texto en habla realizada mediante síntesis por formantes es, en ocasiones, inferior a la de otros sistemas de síntesis debido a la reducción de la información almacenada.
Relación directa entre el modelo de síntesis y los correlatos articulatorios.
Aproximación muy precisa a la función de transferencia del tracto vocal en vocales orales.
No requiere un control de la amplitud y del ancho de banda de de cada formante ya que el filtro siguiente modifica la estructura del anterior.
Dificultad de modelar consonantes nasales, ya que no permite la modelización de cavidades paralelas.
Klatt, D. H. (1980). Software for a cascade/parallel formant synthesizer. Journal of the Acoustical Society of America, 67(3), 971-995.
Klatt, D. H. (1991). Software for a cascade/parallel formant synthesizer. In R. D. Kent, B. S. Atal, & J. L. Miller (Eds.), Papers in speech communication: Speech production. (pp. 765-89). New York: Acoustical Society of America. (Original work published 1980).
Control directo de la frecuencia y la amplitud de cada formantes, necesarios para ciertas clases de consonantes.
Permite una señal sonora muy parecida al habla natural copiando los datos acústicos obtenidos del análisis de habla real
No representa el proceso de producción del habla en términos articulatorios.
El modelado de las vocales orales requiere una aproximación muy precisa a una configuración en serie.
Klatt, D. H. (1980). Software for a cascade/parallel formant synthesizer. Journal of the Acoustical Society of America, 67(3), 971-995.
Klatt, D. H. (1991). Software for a cascade/parallel formant synthesizer. In R. D. Kent, B. S. Atal, & J. L. Miller (Eds.), Papers in speech communication: Speech production. (pp. 765-89). New York: Acoustical Society of America. (Original work published 1980).
| Parámetro | Base fisiológica | Acústica |
|---|---|---|
| AV amplitud de la sonoridad | Amplitud de la vibración de las cuerdas vocales | Intensidad de la onda sonora |
| Fo frecuencia fundamental | Frecuencia de vibración de las cuerdas vocales | Frecuencia fundamental |
| F1 primer formante | Primera resonancia del tracto vocal | Frecuencia del primer formante |
| F2 segundo formante, F3 tercer formante... | Segunda resonancia del tracto vocal, tercera resonancia del tracto vocal... | Frecuencia del segundo formante, frecuencia del tercer formante... |
| B1 amplitud de banda del primer formante, B2, B3... | Configuración del tracto vocal | Ampitud de banda del primer formante... |
| AK Amplitud del ruido de fricción | Tipo de constricción | Intensidad de los componentes aperiódicos |
| K1, K2 Frecuencia del ruido de fricción | Tipo de constricción | Frecuencia de los componentes aperiódicos |
| AH Amplitud de la aspiración | Fricción en el tracto vocal | Componentes aperiódicos de los formantes |
| N1 Frecuencia del formante nasal | Resonancia del tracto nasal | Frecuencia del formante nasal |
| AN Amplitud de la nasalidad | Resonancia del tracto nasal | Intensidad de la resonancia nasal |
Ladefoged, P. (1985). The phonetic basis for computer speech generation. In F. Fallside, & W. A. Woods (Eds.), Computer speech processing. (pp. 3-27). Englewood Cliffs: Prentice Hall International.

Peter Ladefoged (1925-2006)
Generación de una onda glotal estilizada que se aproxima a la natural pero que no reproduce los detalles.
Acoplamiento de las cavidades subglóticas.
Se ignora la modificación en frecuencia y amplitud de banda que se produce por acoplamiento de las cavidades supraglóticas.
Limitaciones en la amplitud de banda en el control de las señales sintetizadas.
Dificultad en la reproducción de cambios rápidos de amplitud como los que se producen en la explosión de una consonante o en la transición de nasales y laterales a la vocal adyacente.
Holmes, J. N. (1979). Synthesis of natural-sounding speech using a formant synthesizer. In B. Lindblom, & S. Öhman (Eds.), Frontiers in speech communication research. (pp. 275-85). London: Academic Press.

John N. Holmes (-1999)
(O.Engstrand, Phonetic portrait gallery, Department of Linguistics, University of Stockholm).
Generación mediante un polo y un cero adicionales añadidos a la función de transferencia que no modifica el aumento de la amplitud de banda que se produce en las vocales naturales debido al mayor amortiguamiento provocado por la salida de aire por la cavidad nasal.
Procedimientos ad-hoc para la síntesis de las consonantes
Dificultades en combinar dos fuentes de excitación para fricativas y oclusivas sonoras.
Holmes, J. N. (1979). Synthesis of natural-sounding speech using a formant synthesizer. In B. Lindblom, & S. Öhman (Eds.), Frontiers in speech communication research. (pp. 275-85). London: Academic Press.

John N. Holmes (-1999)
(O.Engstrand, Phonetic portrait gallery, Department of Linguistics, University of Stockholm).
La síntesis por formantes
Joaquim Llisterri, Universitat Autònoma de
Barcelona
http://liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/synthesis/formant_synthesis/sintesis_formantes.html
Last modified: 14/11/11 22:40
This
work is licensed under a
Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.