Incorporación de conocimientos fonéticos a las tecnologías del habla
Lourdes AGUILAR, Juan M. GARRIDO y Joaquim LLISTERRI
Departament de Filologia Espanyola, Edifici B, Universitat Autònoma de Barcelona
Comunicación presentada en el I Congrés de Lingüística General (Panorama de la investigació lingüística a l'Estat Espanyol). Valencia, 15-17 de febrero de 1994. Departament de Teoria dels Llenguatges, Universitat de València.
En este trabajo se presentan algunas de las líneas de investigación del Grup de Fonètica del Seminari de Filologia i Informàtica del Departament de Filologia Espanyola de la Universitat Autònoma de Barcelona, centradas en la obtención y en la incorporación de conocimientos fonéticos al desarrollo y a la evaluación de sistemas de conversión de texto a habla.
En un segundo estadio, surge un compromiso adicional entre las combinaciones de fonemas que se consideran y las restricciones distribucionales de la lengua: combinaciones fonotácticamente imposibles en el ámbito de la palabra pueden encontrarse en las fronteras léxicas, y un sistema de síntesis ha de ser capaz de generar dichas combinaciones. En este sentido, se consideran todas las combinaciones posibles de clases de sonidos: Silencio-Vocal, Silencio-Consonante, Vocal-Consonante, Consonante-Vocal, Consonante-Consonante, Vocal-Vocal, Vocal- Silencio, Consonante-Silencio.
Por último, en lenguas como el español, en las que la diferencia entre vocales acentuadas y no acentuadas es acústicamente muy importante en cuanto al nivel de energía y a la duración, hay que considerar la posibilidad de incluir en el diccionario las distinciones entre vocal acentuada y no acentuada - lo cual duplica el tamaño del diccionario -, o bien generar tales distinciones en módulos diferentes del sistema por medio de reglas prosódicas.
Junto al corpus de difonemas, en ocasiones se consideran unidades que incluyen más de dos segmentos, como los trifonemas o los cuatrifonemas, con el fin de evitar la concatenación de unidades acústicamente inestables como las líquidas y las semivocales.
A este proceso le siguen las etapas de selección del locutor y de preparación del corpus para la grabación, que incluyen la verificación del inventario de difonemas y la generación de hojas de lectura para el locutor.
El siguiente paso es la segmentación de los difonemas, que puede ser automática o manual (Boëffard et al., 1993). Finalmente, se impone una evaluación de la síntesis intrínseca de los difonemas utilizados en la grabación con el fin de evaluar la calidad del diccionario y corregir los posibles errores de segmentación.
Para el desarrollo de estos módulos prosódicos es necesario disponer de información fonética y lingüística sobre el comportamiento de los correlatos prosódicos citados en el habla natural. De la cantidad y calidad de esta información prosódica depende, además de la naturalidad del habla generada, una buena parte de su inteligibilidad; por ejemplo, la correcta interpretación de la estructura sintáctica del enunciado, la identificación de la modalidad de una oración, o el reconocimiento de los acentos léxicos, entre otros aspectos, dependen directamente de una buena modelización de la prosodia.
La información prosódica necesaria para el desarrollo de este tipo de sistemas debe poseer el grado suficiente de formalización como para permitir el desarrollo de las reglas y la definición de los patrones que compondrán el módulo prosódico. En otras palabras, es necesaria la definición previa de modelos prosódicos que predigan el comportamiento de la F0, la duración, la amplitud y las pausas en el habla natural.
Un repaso a la bibliografía existente sobre la prosodia del español muestra las lagunas existentes en este campo, y las dificultades de aplicación de las descripciones existentes, dado el poco grado de formalización que presentan. Por todo ello, se está trabajando desde 1991, en colaboración con el CITVAM de la Escola d'Enginyers de Telecomunicació "La Salle" de la Universitat Ramon Llull de Barcelona, en el desarrollo de un modelo de la prosodia de lectura en español.
El objetivo de esta línea es la descripción del comportamiento de los correlatos acústicos de la prosodia en la lectura de textos en español, y el desarrollo de un modelo prosódico a partir de los datos obtenidos. Se eligió la lectura porque es el estilo de habla que mejor se adapta a las aplicaciones deseadas. El estudio de cada correlato acústico se ha abordado por separado, lo que ha dado lugar a cuatro líneas paralelas de investigación:
Las tres primeras han comenzado ya a dar los primeros resultados, los cuales se presentan brevemente en los apartados siguientes.
Los patrones propuestos en Garrido (1991) resultan demasiado simples para la generación de oraciones largas, con estructura sintáctica compleja, o de párrafos enteros. Por ello, se amplió el estudio de las curvas melódicas a unidades más complejas, como el párrafo. Los resultados obtenidos en esta línea se presentan en Garrido et al. (1993), y Garrido (1993). El primer trabajo revela que existen diferencias en la curva melódica de una oración según sea leída aisladamente o insertada en diferentes posiciones de un párrafo; también se confirma la existencia de un patrón entonativo de párrafo en español, al igual que se ha sugerido previamente para otras lenguas. El segundo analiza con más detalle la estructura melódica de los párrafos de textos periodísticos leídos por locutores profesionales y no profesionales, aunque los resultados no son aún definitivos. Actualmente se sigue trabajando en esta línea, de cara a definir una primera versión de un modelo que dé cuenta de la evolución de las curvas melódicas en párrafos del español.
En Marín y Sanmartín (1992) se recogen los resultados de un análisis realizado sobre una muestra de lectura de texto periodístico, para determinar la influencia de algunos de estos factores en la duración de las vocales del español. El trabajo estudia la influencia combinada de los siguientes factores en la duración de las vocales: la naturaleza de la vocal, el contexto consonántico en que ésta se encuentra, la estructura de la sílaba a la que pertenece, la ausencia o presencia de acento, y la posición en el grupo fónico (prepausal o no prepausal). Los resultados indican que, de los factores estudiados, sólo la naturaleza de la vocal, el acento, la posición en el enunciado y, en ocasiones, la estructura de la sílaba afectan de manera significativa a la duración de las vocales.
Estos resultados llevaron a la definición de una primera propuesta de modelo, presentada en Marín (1993). La idea subyacente - ya presente, por otro lado, en otros modelos de duración propuestos para otras lenguas - es la existencia de una duración mínima intrínseca para cada vocal, que sirve de base para calcular la duración en otras posiciones. Una primera versión del modelo, elaborada con los datos de Marín y Sanmartín (1992), fue contrastada con datos de duración obtenidos de nuevos locutores, para probar su robustez y hacer las correcciones necesarias.
Queda pendiente, por el momento, una evaluación perceptiva del modelo. El objetivo de esta evaluación sería comprobar, por medio de su aplicación a un sistema de síntesis, si dicho modelo permite generar enunciados con un grado de naturalidad aceptable.
El objetivo del estudio presentado en Puigví y Fernández (1992) era fundamentalmente determinar la relación existente entre la duración de las pausas marcadas ortográficamente y el tipo de signo ortográfico. El material de análisis consistía en este caso en la lectura de un texto de carácter literario por parte de dos locutores. Se localizaron y midieron las pausas que aparecían en la lectura de los textos, y se estudió la relación entre la duración de dichas pausas y el tipo de signo de puntuación con el que se relacionaban. Los resultados de este análisis sirvieron para desarrollar un conjunto de reglas que daban cuenta de la duración media estimada para la pausa que corresponde a cada signo de puntuación. Este modelo fue implementado posteriormente en una versión del sistema de conversión del sistema de conversión de texto a habla para el español desarrollado en el CITVAM, y se realizó una evaluación del habla generada con este conjunto de reglas, con resultados positivos, que ha sido descrita en Jiménez (1992).
Por su parte, el análisis de las pausas no marcadas ortográficamente (Puigví y Fernández, 1993), se centra en dos cuestiones básicamente: en primer lugar, su localización en el discurso, y en segundo lugar, su duración. Al igual que en el estudio anterior, se utilizaron textos literarios en los que se localizaron las pausas y se midió la duración de cada una. El estudio de los resultados ofreció un listado de límites sintácticos en los que puede aparecer este tipo de pausas, además de valores medios para su duración. Para próximos trabajos queda pendiente la realización de una primera propuesta de modelo que prediga la localización de las pausas no ortográficas en un texto y la duración de las mismas, a partir de los datos obtenidos en este estudio.
Finalmente, en Santaeulària y Capdevila (1993) se presentan datos semejantes a los ofrecidos en Puigví y Fernández (1992, 1993), pero extraídos de textos periodísticos.
Las primeras pruebas utilizadas en la evaluación de sistemas de conversión de texto a habla se basaron en los métodos desarrollados para la medida de la audición y para el diagnóstico de errores de articulación a finales de los años cincuenta, aunque progresivamente han aparecido procedimientos específicamente diseñados para evaluar los resultados de la síntesis. Actualmente contamos con una serie de métodos estandardizados y aplicables automáticamente, muchos de los cuales son el resultado de los trabajos llevados a cabo en Europa en el marco del proyecto ESPRIT SAM (Multilingual Speech Input/Output Assessment, Methodology and Standardization) entre 1989 y 1992 (Fourcin et al. 1989).
La existencia de diversos sistemas de conversión de texto a habla para el español hace necesario contar con pruebas en esta lengua que permitan evaluar para cada sistema los aspectos mencionados anteriormente y que faciliten la comparación entre sistemas distintos. La elaboración de estas pruebas y la aplicación a dos sistemas de síntesis ha sido uno de los proyectos que se han llevado a cabo. Los aspectos que se evalúan en las pruebas diseñadas específicamente para el español son los siguientes: inteligibilidad de elementos segmentales, de grupos consonánticos y de combinaciones de vocales, inteligibilidad de palabras en frases con y sin sentido, comprensión de textos, calidad global del sistema y adecuación al usuario (Llisterri et al. 1993a, b).
| 1 | hez | pez | tez | vez |
| 2 | ven | ves | ver | ved |
Como puede observarse, las palabras seleccionadas difieren únicamente en la consonante inicial (1) o en la consonante final (2), de aquí la denominación de 'test de rimas'. El mismo procedimiento puede aplicarse a los grupos consonánticos (3) o a las combinaciones de vocales (4):
| 3 | fres | pres | tres | cres |
| 4 | lío | lió | lié | líe |
En la versión castellana del test de rimas (Aguilar, 1991) se ha procurado mantener las condiciones de la versión inglesa a fin de facilitar la comparación de resultados. Esto lleva a utilizar palabras con sentido, aunque, como puede verse en (3), no siempre ha sido posible en el caso de las combinaciones de consonantes. La elección de los materiales fonéticos de la prueba está sujeta además a dos restricciones importantes: por una lado, se trata, excepto en la prueba de combinación de vocales, de palabras monosílabas; por otro, la estructura fonológica en el caso de la prueba de inteligibilidad de consonantes debe ser CVC, manteniendo constantes CV en el caso de la evaluación de las consonantes finales y VC cuando se evalúan las consonantes iniciales. Si estos requisitos se combinan con la necesidad de presentar estímulos que sean palabras con sentido, pueden deducirse fácilmente las dificultades que surgen en el caso del español. Por ello se ha prescindido de dos limitaciones que podrían haberse impuesto: la inclusión de palabras de elevada frecuencia de aparición y la proporción de alófonos que aparecen en la prueba en relación con la frecuencia de aparición en la lengua.
Por otra parte, la elección de los segmentos y de sus combinaciones debe ajustarse a las restricciones propias del español. En cuanto a la posición inicial de palabra, se han incluido los segmentos siguientes: [p b m f † t d s n l r tß k g], que corresponden a los que pueden aparecer en esta posición. En posición final, existía la posibilidad de utilizar el inventario restringido que proponen Alcina y Blecua (1975) - [d † s n l r x] - aunque finalmente se optó por incluir también los alófonos que menciona Navarro Tomás (1918) - [ ∫ ∂ j ©] - a pesar de que su uso se limite casi exclusivamente a préstamos, con el fin de dotar de una mayor cobertura a la prueba.
En la evaluación de la inteligibilidad de grupos consonánticos se han tenido en cuenta igualmente las restricciones fonotácticas de la lengua, con lo que se incluyen los grupos [pr tr kr br dr gr fr pl kl bl gl fl].
En cambio, la evaluación de combinaciones de vocales no contempla todas las posibilidades de la lengua. Se han seleccionado palabras con sentido que permitieran alternancias como "líe - lié" o "loe - loé" para estudiar también la influencia del acento.
El resultado final ha sido un conjunto de tres pruebas. La evaluación de las consonantes iniciales y finales se lleva a cabo mediante 8 series de 20 estímulos cada una con 4 respuestas posibles para cada estímulo, mientras que la de los grupos consonánticos consiste en 4 series de 5 palabras cada una. La inteligiblidad de las combinaciones vocálicas se estudia a partir de 4 series de 5 palabras cada una.
La aplicación de estas pruebas al sistema de conversión de texto a habla AMIGO desarrollado por Telefónica I+D (Rodríguez et al.. 1993) en las versiones con voz masculina y femenina ha dado como resultado, por una parte, el porcentaje de inteligibilidad de cada una de las consonantes, de los grupos consonánticos y de las combinaciones de vocales; por otra, ha hecho también posible la realización de matrices de confusión que permiten determinar las respuestas obtenidas para cada estímulo y diagnosticar así la dirección de los errores de identificación.
Cabe añadir que las mismas pruebas se realizaron con habla natural, tanto en voz masculina como en voz femenina, en el marco del mismo proyecto de evaluación del sistema AMIGO. El examen de las matrices de confusiones, realizadas a partir de las respuestas de 25 sujetos a cada una de las pruebas para cada tipo de voz, pone de relieve errores de identificación importantes, centrados especialmente en el caso de las fricativas labiodentales e interdentales en posición final, con una tendencia a la identificación de [†] como [s] o como [f] y de [f] como [†]. Estos errores deben interpretarse tanto en relación con la estructura acústica de las consonantes mencionadas, como en relación con su frecuencia de aparición en posición final.
Estas experiencias ponen de manifiesto la necesidad de un trabajo interdisciplinar en el campo de la conversión de texto a habla, aunando los esfuerzos de especialistas en análisis fonético y de expertos en el tratamiento informático del habla. Sin una aportación conjunta, parece difícil alcanzar el nivel de calidad que requieren actualmente los usuarios de las tecnologías del habla.
ALCINA, J.- BLECUA, J.M. (1975) Gramática española.Barcelona: Ariel.
BEZOOIJEN, R. van - POLS, L.C.W. (1990) "Evaluating text-to-speech systems: some methodological aspects", Speech Communication9,4: 263-270
BOEFFARD, O.- CHERBONNEL, B.- EMERARD, F.- WHITE, S. (1993) "Automatic segmentation and quality evaluation of speech unit inventories for concatenation- based, multilingual PSOLA text- to-speech systems", Eurospeech'93 Proceedings, Vol. 2, pp. 1449- 1452.
FAIRBANKS, G. (1958) "Test of Phonemic Differentiation: The Rhyme Test", Journal of the Acoustical Society of America30,7: 596-600
FOURCIN, A.- HARLAND, G.- BARRY, W. - HAZAN, V (1989) Speech Input and Output Assessment. Multilingual Methods and Standards.Chichester: Ellis Horwood Ltd.
GARRIDO, J.M. (1991) "Estilización de patrones melódicos del español para sistemas de conversión texto-habla", Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural, 11, pp. 209-219.
GARRIDO, J.M. (1993) "Analysis of Global Pitch Contour Domains at Paragraph Level in Spanish Reading Text", Working Papers. Lund University, Department of Linguistics, 41 (Proceedings of an ESCA Workshop on Prosody, September 27-29, 1993, Lund, Sweden), pp. 104-107.
GARRIDO, J.M. - LLISTERRI, J. - DE LA MOTA, C. - RÍOS, A. (1993) "Prosodic Differences in Reading Style: Isolated vs. Contextualized Sentences", en Eurospeech'93 Proceedings, Vol. 1, pp. 573-576.
HOUSE, A.S.-WILLIAMS, C.E.- HECKER, M.H.L.- KRYTER, K.D. (1965) "Articulation-Testing Methods: Consonantal Differenciation with a Closed-Response Set", Journal of the Acoustical Society of America37,1: 158-166.
JIMÉNEZ, D. (1992) Estudio y parametrización de las pausas ortográficas en castellano, Proyecto fin de carrera, EUETT La Salle, ms. no publicado.
LLISTERRI, J.- AGUILAR, L.- GARRIDO, J.M.- FERNÁNDEZ, J.M. (1993a) Evaluación del conversor de texto-voz de Telefónica.Informe de Resultados. Departament de Filologia Espanyola, Universitat Autònoma de Barcelona. ms no publicado.
LLISTERRI, J.- FERNÁNDEZ, N.- GUDAYOL, F.- POYATOS, J.J.- MARTÍ, J. (1993b) "Testing user's acceptance of Ciber232, a text to speech system used by blind persons", in GRANSTRÖM, B.- HUNNICUTT, S.- SPENS, K.-E. (Eds) Speech and Language Technology for Disabled Persons. Proceedings of an ESCA Workshop.Stockholm, Sweden, May 31-June 2, 1993. pp.203-206
MARÍN, R. (1993) Un modelo de duración vocálica en español, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona, ms. no publicado.
MARÍN, R. - SANMARTÍN, A. (1992) La duración vocálica en español, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona, ms. no publicado.
NAVARRO TOMÁS, T. (1918) Manual de pronunciación española.Madrid: CSIC (Publicaciones de la Revista de Filología Española III). 1980 20 ed.
POLS, L.C.W. (1991) "Quality assessment of text-to-speech synthesis by rule", in FURUI, S.- SONDHI, M.M. (Eds) Advances in Speech Signal Processing.Marcel Dekker Inc. pp. 387-416
PUIGVÍ, D. - FERNÁNDEZ, J.M. (1992) Estudi de la durada i la situació de les pauses en castellà, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona, ms. no publicado.
PUIGVÍ, D. - FERNÁNDEZ, J.M. (1993) Las pausas no marcadas: situación y duración (Las pausas no marcadas ortográficamente en castellano), Departament de Filologia Espanyola, Universitat Autònoma de Barcelona, ms. no publicado.
RODRÍGUEZ CRESPO, M.A.- ESCALADA SARDINA, J.G.- MACARRÓN LARUMBE, A.- MONZÓN SERRANO, L. (1993) "AMIGO: Un conversor texto-voz para el español", Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural13:389-400
SANTAEULÀRIA, A. - CAPDEVILA, S. (1993) Estudi de les pauses del castellà en la lectura d'un text periodístic, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona, ms. no publicado.
![]()
Aguilar, Garrido, Llisterri (1994) Incorporación de
conocimientos fonéticos a las tecnologías del habla
Joaquim Llisterri, Universitat Autònoma de
Barcelona
http://liceu.uab.cat/~joaquim/publicacions/valencia_94.html
Last modified: 10/5/09 22:46