Incorporación de conocimientos fonéticos a las tecnologías del habla

Lourdes AGUILAR, Juan M. GARRIDO y Joaquim LLISTERRI

Departament de Filologia Espanyola, Edifici B, Universitat Autònoma de Barcelona

Comunicación presentada en el I Congrés de Lingüística General (Panorama de la investigació lingüística a l'Estat Espanyol). Valencia, 15-17 de febrero de 1994. Departament de Teoria dels Llenguatges, Universitat de València.

line_red

1. Introducción

Los avances en las tecnologías del habla exigen, entre otras cosas, alcanzar un nivel de conocimientos fonéticos sin los cuales no es posible llegar al grado de adecuación que permita el desarrollo de aplicaciones. Por este motivo, el diseño de sistemas o su evaluación necesita la colaboración de expertos en la descripción fonética de la lengua suficientemente familiarizados con las restricciones impuestas por la necesidad de elaborar o valorar un prototipo o un producto.

En este trabajo se presentan algunas de las líneas de investigación del Grup de Fonètica del Seminari de Filologia i Informàtica del Departament de Filologia Espanyola de la Universitat Autònoma de Barcelona, centradas en la obtención y en la incorporación de conocimientos fonéticos al desarrollo y a la evaluación de sistemas de conversión de texto a habla.

2. Desarrollo de diccionarios de unidades para la síntesis

2.1. Importancia del tipo de unidad utilizada

La elección de la unidad que se va a utilizar en un sistema de síntesis es un compromiso entre la arquitectura del sistema por un lado, y la naturalidad, la calidad y la adecuación entre las unidades fonéticas y las unidades lingüísticas por otro: el tamaño, la flexibilidad y la posibilidad de automatización del procedimiento de obtención de la unidad son criterios básicos en la decisión final. Frases y palabras requieren poco esfuerzo de concatenación, pero el sistema carece de flexibilidad y el coste de almacenamiento es muy alto. Los fonemas, por el contrario, se configuran como una unidad natural que dota de gran flexibilidad al sistema, y que resulta económica desde el punto de vista del número de unidades; sin embargo, es una unidad abstracta y sometida a variaciones contextuales, lo que origina problemas importantes de concatenación. Unidades más pequeñas como la semisílaba - fragmento entre el inicio de la sílaba y el centro del núcleo silábico o entre dicho centro y el final de la sílaba - o el difonema - segmento que abarca desde la mitad de la zona estable de un fonema hasta la mitad de la zona estable del siguiente y que incluye la transición entre ambos fonemas consecutivos - reúnen las condiciones para constituir un inventario relativamente reducido de unidades, a la vez que se eluden los problemas de unión en las fronteras de los segmentos, zonas característicamente inestables.

2.2. Restricciones a los inventarios de unidades

El primer estadio en la constitución de un diccionario de unidades de síntesis es la definición de los fonemas y alófonos que se considerarán. Si se incluyen sólo las unidades que funcionan como fonemas en la lengua, el sistema no dará cuenta de variaciones contextuales como la distribución de [b d g] frente a [∫ ∂ ©]; por otro lado, si se pretende tener en cuenta realizaciones alofónicas como [m n Ñ] el número de unidades crece. Se trata nuevamente de un compromiso entre la calidad que se desea obtener en el sistema y el coste de almacenamiento del diccionario. En general, para un sistema de calidad aceptable se incluye el repertorio de fonemas más algunos alófonos como los citados [∫ ∂ ©]. Muchas de las variaciones restantes vendrán incorporadas en el difonema; por ejemplo [Ñ] aparecerá en los difonemas [Ñg] [Ñk] y [M] en el difonema [Mf].

En un segundo estadio, surge un compromiso adicional entre las combinaciones de fonemas que se consideran y las restricciones distribucionales de la lengua: combinaciones fonotácticamente imposibles en el ámbito de la palabra pueden encontrarse en las fronteras léxicas, y un sistema de síntesis ha de ser capaz de generar dichas combinaciones. En este sentido, se consideran todas las combinaciones posibles de clases de sonidos: Silencio-Vocal, Silencio-Consonante, Vocal-Consonante, Consonante-Vocal, Consonante-Consonante, Vocal-Vocal, Vocal- Silencio, Consonante-Silencio.

Por último, en lenguas como el español, en las que la diferencia entre vocales acentuadas y no acentuadas es acústicamente muy importante en cuanto al nivel de energía y a la duración, hay que considerar la posibilidad de incluir en el diccionario las distinciones entre vocal acentuada y no acentuada - lo cual duplica el tamaño del diccionario -, o bien generar tales distinciones en módulos diferentes del sistema por medio de reglas prosódicas.

Junto al corpus de difonemas, en ocasiones se consideran unidades que incluyen más de dos segmentos, como los trifonemas o los cuatrifonemas, con el fin de evitar la concatenación de unidades acústicamente inestables como las líquidas y las semivocales.

2.3. Problemas derivados de la elaboración de diccionarios para la síntesis

Los difonemas se insertan en un corpus para su posterior grabación. En este sentido, se dispone de diferentes posibilidades: bien diseñar un conjunto de frases que integren a los difonemas, bien constituir un corpus de palabras sin sentido pero fonológicamente posibles. En ambas opciones, hay que decidir sobre el carácter de la vocal que precede o sigue al difonema y sobre el carácter acentuado o no acentuado de las sílabas de las palabras del corpus. En el caso de que el corpus esté constituido por frases, un problema adicional es el control de las variaciones prosódicas durante su lectura.

A este proceso le siguen las etapas de selección del locutor y de preparación del corpus para la grabación, que incluyen la verificación del inventario de difonemas y la generación de hojas de lectura para el locutor.

El siguiente paso es la segmentación de los difonemas, que puede ser automática o manual (Boëffard et al., 1993). Finalmente, se impone una evaluación de la síntesis intrínseca de los difonemas utilizados en la grabación con el fin de evaluar la calidad del diccionario y corregir los posibles errores de segmentación.

3. Elaboración de un modelo prosódico para la conversión de texto a habla

Los sistemas de conversión de texto a habla suelen incorporar entre sus componentes un módulo prosódico, encargado generalmente de convertir la información suprasegmental - entonación, acento, ritmo - extraída del texto escrito en modificaciones de la onda sonora que va a ser generada. Dichas modificaciones se centran en tres aspectos básicamente:

  1. la evolución de la frecuencia fundamental (F0) - la curva melódica - a lo largo del enunciado;

  2. la duración y amplitud de los sonidos que componen el enunciado;

  3. la inserción de pausas.

Para el desarrollo de estos módulos prosódicos es necesario disponer de información fonética y lingüística sobre el comportamiento de los correlatos prosódicos citados en el habla natural. De la cantidad y calidad de esta información prosódica depende, además de la naturalidad del habla generada, una buena parte de su inteligibilidad; por ejemplo, la correcta interpretación de la estructura sintáctica del enunciado, la identificación de la modalidad de una oración, o el reconocimiento de los acentos léxicos, entre otros aspectos, dependen directamente de una buena modelización de la prosodia.

La información prosódica necesaria para el desarrollo de este tipo de sistemas debe poseer el grado suficiente de formalización como para permitir el desarrollo de las reglas y la definición de los patrones que compondrán el módulo prosódico. En otras palabras, es necesaria la definición previa de modelos prosódicos que predigan el comportamiento de la F0, la duración, la amplitud y las pausas en el habla natural.

Un repaso a la bibliografía existente sobre la prosodia del español muestra las lagunas existentes en este campo, y las dificultades de aplicación de las descripciones existentes, dado el poco grado de formalización que presentan. Por todo ello, se está trabajando desde 1991, en colaboración con el CITVAM de la Escola d'Enginyers de Telecomunicació "La Salle" de la Universitat Ramon Llull de Barcelona, en el desarrollo de un modelo de la prosodia de lectura en español.

El objetivo de esta línea es la descripción del comportamiento de los correlatos acústicos de la prosodia en la lectura de textos en español, y el desarrollo de un modelo prosódico a partir de los datos obtenidos. Se eligió la lectura porque es el estilo de habla que mejor se adapta a las aplicaciones deseadas. El estudio de cada correlato acústico se ha abordado por separado, lo que ha dado lugar a cuatro líneas paralelas de investigación:

Las tres primeras han comenzado ya a dar los primeros resultados, los cuales se presentan brevemente en los apartados siguientes.

3.1. Generación automática de los patrones melódicos

El trabajo de Garrido (1991) pretendía ser una primera aproximación a la modelización de las curvas melódicas del español. En dicho estudio se propone una metodología para el análisis de las curvas melódicas, y se presentan unos patrones melódicos para enunciados simples del español con diferentes modalidades oracionales. Se introdujo además la noción de estilización de curvas melódicas, aplicada ya para otras lenguas, y que ha sido utilizada en trabajos posteriores.

Los patrones propuestos en Garrido (1991) resultan demasiado simples para la generación de oraciones largas, con estructura sintáctica compleja, o de párrafos enteros. Por ello, se amplió el estudio de las curvas melódicas a unidades más complejas, como el párrafo. Los resultados obtenidos en esta línea se presentan en Garrido et al. (1993), y Garrido (1993). El primer trabajo revela que existen diferencias en la curva melódica de una oración según sea leída aisladamente o insertada en diferentes posiciones de un párrafo; también se confirma la existencia de un patrón entonativo de párrafo en español, al igual que se ha sugerido previamente para otras lenguas. El segundo analiza con más detalle la estructura melódica de los párrafos de textos periodísticos leídos por locutores profesionales y no profesionales, aunque los resultados no son aún definitivos. Actualmente se sigue trabajando en esta línea, de cara a definir una primera versión de un modelo que dé cuenta de la evolución de las curvas melódicas en párrafos del español.

3.2. Determinación automática de la duración vocálica

La bibliografía sobre la duración de las vocales en diferentes lenguas recoge una gran variedad de factores que influyen en la misma. De entre ellos, los que ejercen una influencia más importante son el acento, la posición de la vocal en el enunciado, la estructura de la sílaba que contiene la vocal, la naturaleza de la vocal, y el contexto fonético en que se encuentra la misma.

En Marín y Sanmartín (1992) se recogen los resultados de un análisis realizado sobre una muestra de lectura de texto periodístico, para determinar la influencia de algunos de estos factores en la duración de las vocales del español. El trabajo estudia la influencia combinada de los siguientes factores en la duración de las vocales: la naturaleza de la vocal, el contexto consonántico en que ésta se encuentra, la estructura de la sílaba a la que pertenece, la ausencia o presencia de acento, y la posición en el grupo fónico (prepausal o no prepausal). Los resultados indican que, de los factores estudiados, sólo la naturaleza de la vocal, el acento, la posición en el enunciado y, en ocasiones, la estructura de la sílaba afectan de manera significativa a la duración de las vocales.

Estos resultados llevaron a la definición de una primera propuesta de modelo, presentada en Marín (1993). La idea subyacente - ya presente, por otro lado, en otros modelos de duración propuestos para otras lenguas - es la existencia de una duración mínima intrínseca para cada vocal, que sirve de base para calcular la duración en otras posiciones. Una primera versión del modelo, elaborada con los datos de Marín y Sanmartín (1992), fue contrastada con datos de duración obtenidos de nuevos locutores, para probar su robustez y hacer las correcciones necesarias.

Queda pendiente, por el momento, una evaluación perceptiva del modelo. El objetivo de esta evaluación sería comprobar, por medio de su aplicación a un sistema de síntesis, si dicho modelo permite generar enunciados con un grado de naturalidad aceptable.

3.3. Inserción automática de pausas

Las pausas que se utilizan en la lectura de un texto pueden dividirse en dos grandes grupos: aquellas que están relacionadas con la aparición de signos de puntuación en el texto (pausas marcadas ortográficamente) y las que no se asocian con ninguna marca ortográfica especial (pausas no marcadas ortográficamente). El análisis de las pausas marcadas ortográficamente fue abordado en Puigví y Fernández (1992), en tanto que en Puigví y Fernández (1993) se estudiaron las pausas no marcadas ortográficamente.

El objetivo del estudio presentado en Puigví y Fernández (1992) era fundamentalmente determinar la relación existente entre la duración de las pausas marcadas ortográficamente y el tipo de signo ortográfico. El material de análisis consistía en este caso en la lectura de un texto de carácter literario por parte de dos locutores. Se localizaron y midieron las pausas que aparecían en la lectura de los textos, y se estudió la relación entre la duración de dichas pausas y el tipo de signo de puntuación con el que se relacionaban. Los resultados de este análisis sirvieron para desarrollar un conjunto de reglas que daban cuenta de la duración media estimada para la pausa que corresponde a cada signo de puntuación. Este modelo fue implementado posteriormente en una versión del sistema de conversión del sistema de conversión de texto a habla para el español desarrollado en el CITVAM, y se realizó una evaluación del habla generada con este conjunto de reglas, con resultados positivos, que ha sido descrita en Jiménez (1992).

Por su parte, el análisis de las pausas no marcadas ortográficamente (Puigví y Fernández, 1993), se centra en dos cuestiones básicamente: en primer lugar, su localización en el discurso, y en segundo lugar, su duración. Al igual que en el estudio anterior, se utilizaron textos literarios en los que se localizaron las pausas y se midió la duración de cada una. El estudio de los resultados ofreció un listado de límites sintácticos en los que puede aparecer este tipo de pausas, además de valores medios para su duración. Para próximos trabajos queda pendiente la realización de una primera propuesta de modelo que prediga la localización de las pausas no ortográficas en un texto y la duración de las mismas, a partir de los datos obtenidos en este estudio.

Finalmente, en Santaeulària y Capdevila (1993) se presentan datos semejantes a los ofrecidos en Puigví y Fernández (1992, 1993), pero extraídos de textos periodísticos.

4. Evaluación de sistemas de conversión de texto a habla

4.1. Necesidad de evaluación de conversores

El estado actual de desarrollo de los sistemas de conversión de texto a habla ha hecho surgir la necesidad de desarrollar procedimientos para evaluar de forma sistemática la inteligibilidad, la calidad y la naturalidad del habla sintetizada, especialmente de cara a las aplicaciones reales de cada sistema. Para ello se han creado diversas pruebas subjetivas que permiten cuantificar la reacción del oyente en lo que se refiere a cada uno de los aspectos mencionados. Estas pruebas permiten no sólo diagnosticar los errores del sistema de síntesis, sino también evaluar comparativamente sistemas diferentes y determinar la adecuación de un conversor a la aplicación en la que pretende utilizarse. La evaluación suele centrarse en los aspectos siguientes: inteligibilidad de elementos segmentales, de grupos consonánticos, de palabras y de frases, comprensión de textos, naturalidad de la prosodia, calidad global y adecuación a una aplicación concreta (Bezooijen y Pols 1990; Pols, 1991).

Las primeras pruebas utilizadas en la evaluación de sistemas de conversión de texto a habla se basaron en los métodos desarrollados para la medida de la audición y para el diagnóstico de errores de articulación a finales de los años cincuenta, aunque progresivamente han aparecido procedimientos específicamente diseñados para evaluar los resultados de la síntesis. Actualmente contamos con una serie de métodos estandardizados y aplicables automáticamente, muchos de los cuales son el resultado de los trabajos llevados a cabo en Europa en el marco del proyecto ESPRIT SAM (Multilingual Speech Input/Output Assessment, Methodology and Standardization) entre 1989 y 1992 (Fourcin et al. 1989).

La existencia de diversos sistemas de conversión de texto a habla para el español hace necesario contar con pruebas en esta lengua que permitan evaluar para cada sistema los aspectos mencionados anteriormente y que faciliten la comparación entre sistemas distintos. La elaboración de estas pruebas y la aplicación a dos sistemas de síntesis ha sido uno de los proyectos que se han llevado a cabo. Los aspectos que se evalúan en las pruebas diseñadas específicamente para el español son los siguientes: inteligibilidad de elementos segmentales, de grupos consonánticos y de combinaciones de vocales, inteligibilidad de palabras en frases con y sin sentido, comprensión de textos, calidad global del sistema y adecuación al usuario (Llisterri et al. 1993a, b).

4.2. Pruebas de inteligibilidad segmental en español

Las pruebas de inteligibilidad de elementos segmentales son las que requieren una información fonética más detallada, por lo que centraremos la discusión en el diseño de tres pruebas de evaluación: inteligibilidad de los elementos segmentales, inteligibilidad de los grupos consonánticos e inteligibilidad de las combinaciones de vocales. Todas ellas se basan en el procedimiento conocido como 'test de rimas' (Fairbanks, 1958; House et al. 1965) en el que el oyente debe indicar el estímulo que ha escuchado seleccionándolo entre diversas alternativas presentadas en forma escrita del modo siguiente:

1 hez pez tez vez
2 ven ves ver ved

Como puede observarse, las palabras seleccionadas difieren únicamente en la consonante inicial (1) o en la consonante final (2), de aquí la denominación de 'test de rimas'. El mismo procedimiento puede aplicarse a los grupos consonánticos (3) o a las combinaciones de vocales (4):

3 fres pres tres cres
4 lío lió lié líe

En la versión castellana del test de rimas (Aguilar, 1991) se ha procurado mantener las condiciones de la versión inglesa a fin de facilitar la comparación de resultados. Esto lleva a utilizar palabras con sentido, aunque, como puede verse en (3), no siempre ha sido posible en el caso de las combinaciones de consonantes. La elección de los materiales fonéticos de la prueba está sujeta además a dos restricciones importantes: por una lado, se trata, excepto en la prueba de combinación de vocales, de palabras monosílabas; por otro, la estructura fonológica en el caso de la prueba de inteligibilidad de consonantes debe ser CVC, manteniendo constantes CV en el caso de la evaluación de las consonantes finales y VC cuando se evalúan las consonantes iniciales. Si estos requisitos se combinan con la necesidad de presentar estímulos que sean palabras con sentido, pueden deducirse fácilmente las dificultades que surgen en el caso del español. Por ello se ha prescindido de dos limitaciones que podrían haberse impuesto: la inclusión de palabras de elevada frecuencia de aparición y la proporción de alófonos que aparecen en la prueba en relación con la frecuencia de aparición en la lengua.

Por otra parte, la elección de los segmentos y de sus combinaciones debe ajustarse a las restricciones propias del español. En cuanto a la posición inicial de palabra, se han incluido los segmentos siguientes: [p b m f † t d s n l r tß k g], que corresponden a los que pueden aparecer en esta posición. En posición final, existía la posibilidad de utilizar el inventario restringido que proponen Alcina y Blecua (1975) - [d † s n l r x] - aunque finalmente se optó por incluir también los alófonos que menciona Navarro Tomás (1918) - [ ∫ ∂ j ©] - a pesar de que su uso se limite casi exclusivamente a préstamos, con el fin de dotar de una mayor cobertura a la prueba.

En la evaluación de la inteligibilidad de grupos consonánticos se han tenido en cuenta igualmente las restricciones fonotácticas de la lengua, con lo que se incluyen los grupos [pr tr kr br dr gr fr pl kl bl gl fl].

En cambio, la evaluación de combinaciones de vocales no contempla todas las posibilidades de la lengua. Se han seleccionado palabras con sentido que permitieran alternancias como "líe - lié" o "loe - loé" para estudiar también la influencia del acento.

El resultado final ha sido un conjunto de tres pruebas. La evaluación de las consonantes iniciales y finales se lleva a cabo mediante 8 series de 20 estímulos cada una con 4 respuestas posibles para cada estímulo, mientras que la de los grupos consonánticos consiste en 4 series de 5 palabras cada una. La inteligiblidad de las combinaciones vocálicas se estudia a partir de 4 series de 5 palabras cada una.

La aplicación de estas pruebas al sistema de conversión de texto a habla AMIGO desarrollado por Telefónica I+D (Rodríguez et al.. 1993) en las versiones con voz masculina y femenina ha dado como resultado, por una parte, el porcentaje de inteligibilidad de cada una de las consonantes, de los grupos consonánticos y de las combinaciones de vocales; por otra, ha hecho también posible la realización de matrices de confusión que permiten determinar las respuestas obtenidas para cada estímulo y diagnosticar así la dirección de los errores de identificación.

Cabe añadir que las mismas pruebas se realizaron con habla natural, tanto en voz masculina como en voz femenina, en el marco del mismo proyecto de evaluación del sistema AMIGO. El examen de las matrices de confusiones, realizadas a partir de las respuestas de 25 sujetos a cada una de las pruebas para cada tipo de voz, pone de relieve errores de identificación importantes, centrados especialmente en el caso de las fricativas labiodentales e interdentales en posición final, con una tendencia a la identificación de [†] como [s] o como [f] y de [f] como [†]. Estos errores deben interpretarse tanto en relación con la estructura acústica de las consonantes mencionadas, como en relación con su frecuencia de aparición en posición final.

5. Conclusiones

Debe destacarse que los trabajos presentados han sido realizados en estrecha colaboración con grupos especializados en el campo de la ingeniería de telecomunicaciones. La colaboración con el CNET (Centre National d'Etudes des Telecommunications, Lannion, Francia ) dio como resultado la constitución de un diccionario de difonemas para la síntesis del español; los estudios sobre prosodia se llevan a cabo, como se ha dicho, conjuntamente con el CITVAM de la Escola d'Enginyers de Telecomunicació 'La Salle' de la Universitat Ramon Llull (Barcelona), mientras que las pruebas de inteligibilidad del habla sintetizada se realizaron para la evaluación del conversor de texto a habla AMIGO de la División de Tecnologías del Habla de Telefónica I+D (Madrid). En los tres casos, la consecución de los objetivos fijados requiere, por una parte, grupos que desarrollen sistemas orientados a aplicaciones concretas; pero por otra, es imprescindible la intervención de expertos en la descripción fonética de la lengua que aporten los conocimientos lingüísticos necesarios para la selección del inventario óptimo de unidades de síntesis, la caracterización de los elementos prosódicos o la determinación del contenido fonético de una prueba de evaluación, por referirnos a los aspectos que aquí hemos abordado.

Estas experiencias ponen de manifiesto la necesidad de un trabajo interdisciplinar en el campo de la conversión de texto a habla, aunando los esfuerzos de especialistas en análisis fonético y de expertos en el tratamiento informático del habla. Sin una aportación conjunta, parece difícil alcanzar el nivel de calidad que requieren actualmente los usuarios de las tecnologías del habla.

Referencias

AGUILAR, L. (1991) Propuesta de un test de evaluación segmental del habla para el castellano: el Test de Rimas Modificado.Universitat Autònoma de Barcelona, Departament de Filologia Espanyola, ms. no publicado

ALCINA, J.- BLECUA, J.M. (1975) Gramática española.Barcelona: Ariel.

BEZOOIJEN, R. van - POLS, L.C.W. (1990) "Evaluating text-to-speech systems: some methodological aspects", Speech Communication9,4: 263-270

BOEFFARD, O.- CHERBONNEL, B.- EMERARD, F.- WHITE, S. (1993) "Automatic segmentation and quality evaluation of speech unit inventories for concatenation- based, multilingual PSOLA text- to-speech systems", Eurospeech'93 Proceedings, Vol. 2, pp. 1449- 1452.

FAIRBANKS, G. (1958) "Test of Phonemic Differentiation: The Rhyme Test", Journal of the Acoustical Society of America30,7: 596-600

FOURCIN, A.- HARLAND, G.- BARRY, W. - HAZAN, V (1989) Speech Input and Output Assessment. Multilingual Methods and Standards.Chichester: Ellis Horwood Ltd.

GARRIDO, J.M. (1991) "Estilización de patrones melódicos del español para sistemas de conversión texto-habla", Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural, 11, pp. 209-219.

GARRIDO, J.M. (1993) "Analysis of Global Pitch Contour Domains at Paragraph Level in Spanish Reading Text", Working Papers. Lund University, Department of Linguistics, 41 (Proceedings of an ESCA Workshop on Prosody, September 27-29, 1993, Lund, Sweden), pp. 104-107.

GARRIDO, J.M. - LLISTERRI, J. - DE LA MOTA, C. - RÍOS, A. (1993) "Prosodic Differences in Reading Style: Isolated vs. Contextualized Sentences", en Eurospeech'93 Proceedings, Vol. 1, pp. 573-576.

HOUSE, A.S.-WILLIAMS, C.E.- HECKER, M.H.L.- KRYTER, K.D. (1965) "Articulation-Testing Methods: Consonantal Differenciation with a Closed-Response Set", Journal of the Acoustical Society of America37,1: 158-166.

JIMÉNEZ, D. (1992) Estudio y parametrización de las pausas ortográficas en castellano, Proyecto fin de carrera, EUETT La Salle, ms. no publicado.

LLISTERRI, J.- AGUILAR, L.- GARRIDO, J.M.- FERNÁNDEZ, J.M. (1993a) Evaluación del conversor de texto-voz de Telefónica.Informe de Resultados. Departament de Filologia Espanyola, Universitat Autònoma de Barcelona. ms no publicado.

LLISTERRI, J.- FERNÁNDEZ, N.- GUDAYOL, F.- POYATOS, J.J.- MARTÍ, J. (1993b) "Testing user's acceptance of Ciber232, a text to speech system used by blind persons", in GRANSTRÖM, B.- HUNNICUTT, S.- SPENS, K.-E. (Eds) Speech and Language Technology for Disabled Persons. Proceedings of an ESCA Workshop.Stockholm, Sweden, May 31-June 2, 1993. pp.203-206

MARÍN, R. (1993) Un modelo de duración vocálica en español, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona, ms. no publicado.

MARÍN, R. - SANMARTÍN, A. (1992) La duración vocálica en español, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona, ms. no publicado.

NAVARRO TOMÁS, T. (1918) Manual de pronunciación española.Madrid: CSIC (Publicaciones de la Revista de Filología Española III). 1980 20 ed.

POLS, L.C.W. (1991) "Quality assessment of text-to-speech synthesis by rule", in FURUI, S.- SONDHI, M.M. (Eds) Advances in Speech Signal Processing.Marcel Dekker Inc. pp. 387-416

PUIGVÍ, D. - FERNÁNDEZ, J.M. (1992) Estudi de la durada i la situació de les pauses en castellà, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona, ms. no publicado.

PUIGVÍ, D. - FERNÁNDEZ, J.M. (1993) Las pausas no marcadas: situación y duración (Las pausas no marcadas ortográficamente en castellano), Departament de Filologia Espanyola, Universitat Autònoma de Barcelona, ms. no publicado.

RODRÍGUEZ CRESPO, M.A.- ESCALADA SARDINA, J.G.- MACARRÓN LARUMBE, A.- MONZÓN SERRANO, L. (1993) "AMIGO: Un conversor texto-voz para el español", Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural13:389-400

SANTAEULÀRIA, A. - CAPDEVILA, S. (1993) Estudi de les pauses del castellà en la lectura d'un text periodístic, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona, ms. no publicado.


line_red

Aguilar, Garrido, Llisterri (1994) Incorporación de conocimientos fonéticos a las tecnologías del habla
Joaquim Llisterri, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim/publicacions/valencia_94.html
Last modified: 10/5/09 22:46

line_red