La conversión de texto en habla: aspectos lingüísticos

Joaquim Llisterri

Departament de Filologia Espanyola
Universitat Autònoma de Barcelona

Joaquim.Llisterri@uab.es
http://liceu.uab.cat/~joaquim

1.- CONOCIMIENTO FONÉTICO Y SÍNTESIS DEL HABLA

El desarrollo de las tecnologías del habla, y en el caso que nos ocupa, de la síntesis, ha estado, desde la década de los 50, tradicionalmente ligado al de la ingeniería de las telecomunicaciones y, algo más recientemente, al de la informática.

Buena prueba de ello es la situación en España tal como se refleja, por ejemplo, en los 27 números de la revista de la Sociedad Española para el Procesamiento del Lenguaje Natural aparecidos entre 1983 y 2001: de un total de 30 contribuciones sobre síntesis del habla, 11 (36,6%) aparecen firmadas únicamente por autores procedentes del campo de la ingeniería de telecomunicaciones, en otras 11 (36,6%) colaboran especialistas en este ámbito, 5 (16,6%) de las contribuciones aparecen firmadas únicamente por autores vinculados académicamente a departamentos de informática y 3 (10%) contribuciones tienen como únicos autores a profesionales pertenecientes a departamentos de filología. Aunque sean inevitablemente parciales, estos datos muestran que más del 70% de los trabajos publicados sobre síntesis del habla en la revista considerada se llevan a cabo con la participación de ingenieros de telecomunicación.

Sin embargo, la generación artificial del habla no es únicamente un problema de tratamiento de señales ni un problema de computación, sino que requiere, como todas aquellas aplicaciones que pretenden reproducir de algún modo el comportamiento humano, un conocimiento detallado de los mecanismos de producción naturales. Así lo señalaba Fant en 1991:

"That speech synthesis and the development of text-to-speech technology presume a foundation in phonetics and related aspects of speech research is obvious. Without models of language and speech we would have lacked a conceptual basis for synthesis" (Fant, 1991).

Desde esta perspectiva, y volviendo a los datos anteriores, es interesante destacar que 11 trabajos se publican firmados por equipos en los que participan autores relacionados con departamentos de lengua o de filología. Si tomamos en consideración los 3 trabajos que tienen como únicos autores a especialistas en filología, alcanzamos un 46,6% de contribuciones en las que participan investigadores con formación lingüística. Aún así, la proporción media que se encuentra en estos equipos es de 2,27 autores del campo de la ingeniería y 1,63 del ámbito lingüístico, por lo que podríamos de algún modo suponer que en un grupo interdisciplinar dedicado a la síntesis del habla en España participa un lingüista y medio por cada dos ingenieros.

Esta situación refleja la inevitable necesidad de colaboración de especialistas en lingüística cuando se trata de desarrollar una aplicación que, en un cierto sentido, constituye un modelo de los procesos implicados en la producción del habla. Sin embargo, en la práctica cotidiana, y pese a las cifras anteriormente presentadas, el papel del lingüista queda a menudo reducido al de un consultor al que se recurre para obtener determinados datos mientras que el peso del desarrollo del sistema recae sobre el ingeniero. En muy pocos casos se da una implicación del especialista en lenguaje en la concepción global del prototipo, con lo que muchas veces su intervención se limita a proporcionar la información que se le requiere en cada etapa, sin que sus conocimientos sobre la lengua se aprovechen de un modo eficaz.

En las páginas que siguen se intentará ofrecer una visión panorámica de cómo el conocimiento lingüístico – y, en particular, el fonético – puede utilizarse para mejorar los actuales sistemas de conversión de texto en habla, con intención de mostrar que, como afirmaba Fant pronto hará ya 20 años:

"We need a fifth generation of speech scientists rather than a fifth generation of computers" (Fant, 1983).

2.- LA CONVERSIÓN DE TEXTO EN HABLA

Un sistema de conversión de texto en habla (TTS, text-to-speech system) tiene como finalidad la transformación automática de cualquier texto escrito y disponible en formato electrónico en su correspondiente realización sonora. La estructura de un conversor suele ser modular, de modo que cada módulo se ocupa de un aspecto de la transformación de la cadena de caracteres inicial hasta llegar a la señal sonora. Los principales módulos que integran un conversor de texto en habla se esquematizan en la figura 1:

Figura 1

Figura 1: Principales módulos de un sistema de conversión de texto en habla.

El texto debe ser, en primer lugar, pre-procesado para realizar su transcripción fonética sin dificultades y, en segundo lugar, transcrito para localizar las unidades fonéticas en el diccionario de síntesis. Estas unidades deben concatenarse y modificarse a fin de adaptar la duración y la intensidad de los sonidos, y debe aplicarse también el patrón melódico adecuado al significado y a la forma del enunciado, operaciones que se llevan a cabo en el módulo prosódico. Finalmente, toda esta información debe convertirse en un conjunto de parámetros acústicos que son los que harán que el sintetizador produzcan la onda sonora que llegará el receptor del mensaje y que, idealmente, tendría que parecerse lo más posible a la lectura del texto que habría realizado un hablante humano.

3.- EL PROCESAMIENTO PREVIO DEL TEXTO

El módulo de procesamiento previo realiza, esencialmente, las mismas operaciones que una persona leyendo en voz alta un texto. El objetivo es convertir una serie de elementos en texto deletreado, para facilitar la posterior transcripción fonética automática.

Algunos elementos que se convierten habitualmente en texto deletreado son las abreviaturas (Sr. D., Excmo., ptas.), las siglas (UE, ONU.), cifras y ordinales (3, 1º, 2ª), fechas (13.06.1959), horas (15.30h.), medidas (m., cm., Km.), números romanos (Pedro IV) y los símbolos especiales como los correspondientes, por ejemplo, a las monedas (€, $, £), los porcentajes (%) o la propiedad intelectual (™, ©, ®). El tratamiento automático del texto de entrada no está exento de problemas. En el caso de las siglas, mientras que algunas se pronuncian como si se tratara de palabras - OTAN [‘otan] *[oteaene] -, otras requieren una lectura letra a letra - PP [pe'pe] *[pp] – y en algunas se producen vacilaciones en los propios hablantes - PSOE [pe'soe] ?['psoe] -. También, por ejemplo, en catalán "2" debe asociarse a "dos" para el masculino y "dues" para el femenino, eligiendo la forma correcta en función del género del nombre que sigue. Es preciso igualmente tomar decisiones sobre la pronunciación de nombres extranjeros, adoptando una versión más o menos cercana a la nativa según las tradiciones de cada lengua, con el problema añadido de que los sonidos que no formen parte de la lengua no se encontrarán en el diccionario de unidades de síntesis si no se ha previsto anteriormente – un sistema de síntesis del catalán, por mencionar un caso concreto, debería incluir los sonidos [x] y [z] no existentes en esta lengua para pronunciar los nombres castellanos que lo contienen -.

4.- LA TRANSCRIPCIÓN FONÉTICA AUTOMÁTICA

La transcripción fonética automática tiene como objetivo la creación de una cadena de unidades fonéticas - fonemas o alófonos- a partir del texto escrito preprocesado. Tal como lo define Ríos (1993: 381) "Un sistema de transcripción fonética automática es un algoritmo que transforma un texto de entrada representado en caracteres grafemáticos en una representación expresada mediante símbolos fonéticos".

En conjunto suelen utilizarse dos tipos de estrategias para la transcripción: un diccionario ayudado por un analizador en lenguas con una correspondencia muy irregular entre grafía y sonido, o bien un conjunto de reglas complementadas por un diccionario de excepciones en lenguas con una correspondencia regular entre sonido y grafía.

Según el nivel en el que actúen pueden plantearse reglas de diverso tipo: reglas de transcripción grafía-fonema, reglas de fonemización, reglas de silabificación, reglas de ajuste silábico aplicadas a extranjerismos para adaptar su estructura silábica a la fonotaxis de la lengua, reglas de acentuación y reglas de fonetización (Ríos, 1993). En general, las reglas suelen ser dependientes del contexto y efectúan diferentes operaciones: substitución de un signo en otro - regla de transcripción del grafema <g> como [x] ante <e,i> - elisión de un elemento - elisión de <u> en el dígrafo <gu> ante las vocales <e,i> - o inserción de un elemento - inserción de [k] después del grafema <x> - (Ríos, 1993).

En esta fase de la conversión de texto en habla deben tomarse decisiones que claramente se sitúan en el ámbito de la lingüística: la definición del inventario de alófonos y la aplicación de determinadas reglas de transcripción tienen una fuerte incidencia en la calidad del sistema y, por otra parte, determinan el nivel de adecuación fonética del conversor a las normas habituales de pronunciación de la lengua o el modo cómo se reflejan las variantes geográficas (Pachès et. al., 2000). Aunque en lenguas como el español el proceso de transcripción fonética automática pueda parecer relativamente simple, existen excepciones y casos conflictivos (Enríquez, 1991; Ríos, 1999) que pueden resolverse con la ayuda de un experto en fonética.

5.- EL ANÁLISIS LINGÜÍSTICO DEL TEXTO

En el proceso de conversión de texto en habla el análisis lingüístico es necesario para complementar o mejorar la tarea de otros módulos. En primer lugar, en lenguas con una correspondencia irregular entre grafías y sonidos la representación fonética puede obtenerse a partir de reglas morfológicas o morfofonológicas que implican el reconocimiento de morfemas. En segundo lugar, algunas etapas en la asignación de elementos prosódicos como la localización de las pausas no marcadas ortográficamente, la asignación de acento y la determinación de las unidades melódicas requiere un análisis sintáctico.

El análisis morfológico en la conversió de texto en habla suele llevarse a cabo con el objetivo de segmentar los elementos léxicos del texto en morfemas y de asignar a las palabras etiquetas correspondientes a las partes de la oración (POS tagging). El análisis en el nivel sintáctico se lleva a cabo dividiendo el texto en constituyentes jerarquizados (parsing). Determinados aspectos estrechamente relacionados con la prosodia, como por ejemplo la asignación de foco, requieren un análisis semántico e incluso pragmático.

Por todo ello, la conversión de texto en habla puede beneficiarse de la incorporación de técnicas y herramientas ya desarrolladas en el ámbito del procesamiento del lenguaje natural, incorporando los resultados obtenidos en esta disciplina a los módulos de análisis lingüístico.

6.- LA ASIGNACIÓN DE RASGOS PROSÓDICOS

El módulo prosódico de un conversor contiene un conjunto de reglas que especifican, esencialmente, la duración – y en algunos casos la intensidad - de los segmentos, el contorno melódico del enunciado, las modificaciones acústicas producidas por el acento y la colocación y duración de las pausas. La definición de reglas que sistematicen esta información suele llevarse a cabo partiendo del análisis de un corpus de habla natural, en cuyo diseño es deseable que intervenga un experto familiarizado con el sistema prosódico de la lengua sobre la que se trabaja. No deja de ser cierto que es técnicamente posible adquirir la información de un modo relativamente automático partiendo de un corpus suficientemente grande y convenientemente etiquetado, pero aún así, parece lógico pensar que el propio proceso de etiquetado deberá seguir criterios lingüísticos si se desea ir algo más allá de un simple modelo "ciego" de un conjunto de enunciados que cumpla la única función de proporcionar datos estadísticos a un sistema.

6.1.- La duración segmental

El análisis fonético del habla natural ha puesto de manifiesto que existen diversos factores que condicionan la duración de cada uno de los segmentos en un enunciado; entre los más importantes cabe citar el acento, la longitud de la palabra en la que se encuentra el segmento, la consonante o la vocal que sigue al segmento, la existencia de pausa después del segmento, la posición del segmento en el enunciado y, naturalmente, la velocidad de elocución del hablante.

Una conversión de texto en habla que se proponga alcanzar un elevado grado de naturalidad requiere un modelo de duración segmental que considere la duración intrínseca de cada segmento y las modificaciones contextuales a las que está sometido.

Un modelo clásico de duración segmental es el desarrollado por Klatt (1979). Partiendo de una duración intrínseca de cada segmento obtenida del análisis del habla natural, se consideran una serie de factores que pueden modificar esta duración y que se reflejan en un conjunto de reglas. Entre los factores que condicionan la duración segmental en el modelo de Klatt cabe citar los siguientes: inserción de pausas, alargamiento al final de una frase, acortamiento de sílabas que no se encuentran al final de una palabra, alargamiento debido al énfasis, modificación de la duración en función del contexto postvocálico de las consonantes, acortamiento de sílabas pertenecientes a palabras polisilábicas, acortamiento de consonantes en posición no inicial de palabra, acortamiento de segmentos no acentuados, acortamiento de los segmentos pertenecientes a grupos consonánticos, alargamiento de vocales debido a la presencia de una oclusiva sorda, y acortamiento de sílabas que no se encuentran al final de una frase. Puede verse, por tanto, que buena parte de la información sobre duración segmental es de carácter fonético y responde, además, a condicionamientos bien conocidos por los que se dedican al estudio acústico de las lenguas.

6.2.- La intensidad segmental

Al igual que la duración, la intensidad de cada segmento – así como la intensidad global del enunciado - varía en la producción del habla. Este aspecto no suele tenerse en cuenta en muchos de los sistemas de conversión de texto en habla, pero podrían considerarse estrategias análogas a las usadas para la asignación de duración segmental. Blecua y Acín (1995), por ejemplo, presentan para el castellano y el catalán un modelo en árbol, basado en el análisis de la intensidad vocálica en un corpus de frases leídas, que introduce una serie de factores que modifican la intensidad vocálica intrínseca: posición prepausal o no prepausal, aparición de la vocal en sílaba tónica o átona, posición inicial, medial o final de la vocal en el enunciado y aparición de la vocal en un enunciado corto o largo.

6.3.- Las pausas

Diversas investigaciones en el campo de la psicolingüística han puesto de manifiesto el papel de las pausas en la comprensión del habla, ya que éstas contribuyen de un modo muy significativo a la estructuración del enunciado.

Un sistema de conversión de texto en habla debe insertar las pausas marcadas ortográficamente mediante signos de puntuación, asignándoles una duración diferente en función de cada tipo de signo – distinguiendo, por ejemplo, una coma de un punto y aparte -, pero debe considerar también la inserción de pausas no marcadas ortográficamente en el texto al igual que lo haría un buen lector. La importancia de este tipo de pausas queda de manifiesto en un estudio llevado a cabo por Puigví, Giménez y Fernández (1994), en el que se muestra que de un total de 1.629 pausas encontradas en la lectura de un texto, 1.260 estaban marcadas con signos de puntuación mientras que 369 las introdujeron un conjunto de hablantes que se consideraron "buenos lectores".

Basándose en los resultados de un estudio de textos leídos, los autores anteriormente mencionados establecieron para el español la duración de las pausas marcadas mediante signos de puntuación, así como los factores fonéticos y sintácticos que determinan la aparición de pausas no marcadas por signos de puntuación junto con su duración. De nuevo se muestra en este caso cómo el análisis lingüístico permite acercar la generación automática al modo de producción natural del habla mediante la incorporación de conocimiento fonético y sintáctico.

6.4.- Los movimientos melódicos

En el habla la melodía se manifiesta como una variación temporal de la frecuencia fundamental (F0) y tiene, entre otras funciones, la de señalar la modalidad oracional, estructurar el enunciado en unidades entonativas estrechamente relacionadas con el significado o aportar información sobre aspectos pragmáticos. La melodía constituye también un indicador del estado emocional del hablante, de su estatus sociocultural y de su procedencia geográfica. Debido a estos y a otros factores, una buena modelización de los movimientos de F0 es esencial para conseguir una conversión de texto en habla de calidad.

Tal como señala Beaugendre (1996), en síntesis pueden utilizarse tres estrategias diferentes para la generación de movimientos melódicos: sistemas de reglas que definen la forma de la curva melódica a partir de un conjunto de símbolos, patrones melódicos previamente almacenados y curvas melódicas obtenidas a partir de sistemas estadísticos como Modelos Ocultos de Markov o redes neuronales. Obviamente el procedimiento que incorpora un mayor grado de conocimiento fonético es el primero de los citados, ya que relaciona la realización acústica de la curva melódica con su representación a un nivel abstracto que podría considerarse fonológico (Beaugendre, 1996).

Garrido (1996) presenta, por ejemplo, un modelo fonético por niveles para la asignación de curvas melódicas en la conversión de texto en habla en español: en un primer nivel global tiene lugar la asignación de un patrón melódico al párrafo, la localización de los puntos de reajuste melódico y la delimitación de grupos melódicos; en un segundo nivel global, se lleva a cabo la asignación de patrones a cada grupo melódico y la superposición de los movimientos locales de F0 que marcan límites sintácticos o modalidad oracional; finalmente, en el nivel local se superponen los movimientos de F0 asociados con el acento léxico.

En algunos sistemas la asignación de la curva melódica se basa en un análisis de la estructura entonativa de los enunciados (prosodic parsing), para lo que es necesario contar con una teoría lingüística que defina los diversos tipos de unidades entonativas, distinguiendo entre las de tipo local – grupo acentual, por ejemplo – y las más globales – grupos melódicos -.

7.- LA SELECCIÓN DE UNIDADES DE SÍNTESIS

En cualquier representación acústica del habla puede observarse que los sonidos no se producen aisladamente, sino que se encadenan unos con otros, solapándose muchas veces las propiedades de un sonido con las de otro; este fenómeno se conoce en fonética como coarticulación y se relaciona con la velocidad y la coordinación de los movimientos del tracto vocal. Conseguir habla sintetizada de calidad concatenando sonidos aislados e intentando imitar el resultado acústico de los movimientos del tracto vocal en las transiciones entre sonidos es una operación sumamente difícil. Por tal motivo, las unidades a partir de las cuales se construye un sistema de síntesis no suelen ser sonidos aislados, sino combinaciones de sonidos.

Son habituales los denominados difonemas, que consisten en una combinación entre la mitad del primer sonido que lo forma y la mitad del segundo o las semisílabas, formadas por el primer sonido completo y la mitad del segundo. Con ello se persigue que, a la hora de concatenar las unidades, la unión se produzca por las partes en las que existe una menor variación acústica – típicamente en el "centro" de un sonido – y no por aquellas en las que se encuentra la transición de un sonido a otro. Para sintetizar la palabra "casa" mediante difonemas se recurriría a juntar [ka] con [as] y [as] con [sa], de modo que la unión de realizaría entre una mitad y otra mitad de [a] y entre una mitad y otra mitad de [s], zonas en las que la cavidad bucal se mantienen en una posición relativamente estable en comparación con el momento de cambio de [k] a [a] o de [s] a [a].

Los factores que determinan la selección de un determinado tipo de unidad se relacionan con la flexibilidad que permite a la hora de producir mensajes diferentes, la calidad del habla obtenida, la complejidad del procesamiento, los requisitos de memoria y, especialmente, con la variabilidad fonética de la unidad y las dificultades de concatenación que ésta conlleva.

7.1.- Constitución de diccionarios de unidades de síntesis

Otra de las tareas en las que la participación de un experto en lingüística puede ser determinante para la calidad del sistema es la constitución del diccionario de unidades que se utilizarán en la síntesis. Para ello, debe establecerse en primer lugar el inventario completo de unidades fonética – alófonos y fonemas – de la lengua sobre la que se trabaja. Esto implica, por ejemplo, en el caso del español, decidir si se incluyen los alófonos abiertos de /e/ y /o/, los alófonos nasalizados de las vocales, los alófonos velar y palatal de /a/ o si en el diccionario se almacenan por separado muestras de vocales acentuadas y de vocales no acentuadas. En el consonantismo, por ejemplo, es preciso considerar si se incluyen los alófonos interdentales y los alófonos dentale de [n] y [l], la aproximante alveolar [r] o sonidos como [ts] y [sh] que no son propios del español pero que se pueden encontrar en la pronunciación de nombres extranjeros.

Las decisiones se toman considerando factores fonéticos como las diferencias espectrales entre alófonos, la aparición del alófono condicionada por el contexto – ya que, si la síntesis se realiza por concatenación de difonemas intervienen necesariamente los mecanismos de coarticulación – o su variación libre en la lengua. Intervienen también consideraciones más generales como la economía del inventario y el modelo de pronunciación deseado.

La selección del locutor a partir de cuya voz se extraerán las unidades de síntesis que se utilizarán en el conversor es también una labor que requiere conocimientos fonéticos, ya que es preciso evaluar, en función del ámbito de uso de la aplicación, los rasgos de pronunciación del locutor que pueden incidir en el resultado de la síntesis. Suele prestarse atención a la presencia de características dialectales o sociolectales marcadas, de idiosincrasias en la producción de un determinado sonido o patrón entonativo, a la existencia de interferencias con otras lenguas – esto es especialmente relevante en el caso de hablantes bilingües – y a la capacidad de adaptación a la tarea que, como se verá más adelante, requiere en ciertos casos un elevado grado de control de la articulación y de los elementos prosódicos.

Una tercera etapa en la que la presencia del lingüista es relevante es el momento de la grabación de las unidades de síntesis. En el caso de los conversores que utilizan difonemas, estas unidades suelen insertarse en palabras o en frases para su grabación. Es por ello esencial que un experto en fonética supervise la adecuada pronunciación de cada difonema – ejemplos reales de palabras que incluyen difonemas podrían ser "Lábubsaso / labúbsaso / labubsaso / labubsasó" para obtener el difonema [bs] o "Lábatez / labátez / labatez" para obtener el difonema [sh+pausa] – y el ritmo, las pausas y la entonación de la lectura. De lo contrario, es posible que se cometan errores que obliguen a repetir la grabación una vez finalizado el proceso, que algunos difonemas sean inservibles o que una realización prosódica inadecuada tenga consecuencias negativas en la calidad final de la síntesis.

8.- LA CONVERSIÓN EN PARÁMETROS ACÚSTICOS

La conversión en parámetros acústicos se realiza mediante un conjunto de reglas que tiene como objetivo asignar valores de parámetros acústicos a cada segmento o a cada unidad de síntesis por una parte, y especificar las transiciones entre unidades por otra. En este último caso, se trata, en esencia, de modelar la coarticulación que se produce en el habla natural. La manifestación acústica de la coarticulación ha sido uno de los problemas que más ha centrado la atención de los fonetistas en las últimas décadas y parece por tanto lógico contar, en esta etapa, con el conocimiento especializado necesario.

9.- CONCLUSIONES

Se ha intentado mostrar en las páginas precedentes que el conocimiento lingüístico – y, en especial, el fonético – puede incorporarse a cada una de las etapas de la conversión de texto en habla. Es sabido, y así lo demuestran los sistemas de base estadística, que es posible realizar un conversor inteligible sin contar con expertos en el ámbito lingüístico. Sin embargo, el resultado final no va más allá de un producto que puede cumplir una determinada función, pero que no contribuye a una mejor comprensión de los mecanismos implicados en la transformación de un texto escrito en su forma sonora y que poco permite aprender sobre el proceso de producción del habla. Como en todos los campos del saber, los objetivos finales condicionan el método y, naturalmente, es una decisión de cada equipo de trabajo determinar el mejor modo de proceder. Se ha dicho a menudo que un avión vuela sin mover las alas y, de un modo análogo, un conversor seguramente puede "leer" sin grandes conocimientos lingüísticos integrados en su diseño. La cuestión es, en última instancia, decidir si los aviones vuelan mejor contando con los saberes de un buen ornitólogo.


line_red

La conversión de texto en habla: aspectos lingüísticos (Fundación Duques de Soria, 2002)
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim/speech_technology/FDS_02/FDS_02_Texto.html
Last updated: 22/08/06 20:51

line_red