Transcripción, etiquetado y codificación de corpus orales

Joaquim Llisterri

Observatorio Español de Industrias de la Lengua, Instituto Cervantes
Libreros 23, 28801 Alcalá de Henares, Madrid
oeil@cervantes.es

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Edifici B, 08193 Bellaterra, Barcelona
Joaquim.Llisterri@uab.es

Seminario de Industrias de la Lengua, Curso “Etiquetación y extracción de información de grandes corpus textuales”, Fundación Duques de Soria, Soria, 15 de julio de 1997.


Introducción
Niveles de representación
Representación ortográfica de corpus orales
Representación fonética de corpus orales
Etiquetado fonético de corpus orales
Transcripción y codificación de corpus para el estudio de la lengua oral
Conclusiones

1.- Introducción

La constitución de recursos lingüísticos, contrariamente a lo que algunas veces parece deducirse, no consiste en la acumulación sistemática de materiales, sino que requiere una reflexión sobre muchos aspectos que inciden de forma muy directa en el resultado final obtenido. Uno de ellos, especialmente importante en el caso de los corpus orales, es el que se refiere a las cuestiones relacionadas con la propia representación de los datos, tratadas generalmente bajo las denominaciones de “transcripción”, “etiquetado” y “codificación”. En el presente trabajo pretendemos poner de relieve que las decisiones relativas a estos tres aspectos no son puramente mecánicas, sino que requieren un cuidadoso análisis lingüístico acompañado de unos planteamientos más globales sobre las futuras posibilidades de explotación del corpus. Para ello, se parte de una concepción del corpus como conjunto de niveles de representación de los datos, en cada uno de los cuales se incorporan descripciones de los mismos que posteriormente deben ser recogidas mediante algún procedimiento formal.

Como primer nivel de representación abordamos la transcripción ortográfica, para pasar a continuación a un segundo nivel, el de la representación fonética, tanto en el aspecto segmental como en el suprasegmental. En este mismo nivel planteamos la cuestión del etiquetado que, asociado a otras operaciones como la segmentación y la alineación temporal, permite una utilización posterior del corpus en diversas aplicaciones. Finalmente, se discuten las cuestiones específicamente centradas en la transcripción y codificación de los corpus constituidos por transcripciones de lengua oral, presentando a modo de ejemplo algunos trabajos llevados a cabo en España. Hemos intentado, para cada nivel de representación, ofrecer información sobre algunas de las convenciones desarrolladas y presentar las que llevan camino de convertirse - o se han convertido ya - en estándares. Sin embargo, como se indica en las conclusiones, parece razonable insistir en la noción de compatibilidad entre sistemas como modo de resolver la inevitable tensión entre los requisitos específicos del investigador y las necesidades del intercambio de recursos.

2.- Niveles de representación, etiquetado y codificación

Tanto si es oral como escrito, un corpus puede concebirse como un conjunto estructurado de materiales lingüísticos en el que se distinguen diversos niveles de representación correspondientes a diferentes grados de elaboración de los datos que lo constituyen. El establecimiento de estos niveles es una de las tareas que se llevan a cabo en la fase de definición del corpus y responde, lógicamente, a los objetivos del mismo. Por ejemplo, un corpus para el análisis del discurso oral requiere, como mínimo, un nivel de representación ortográfica, pero puede ser necesario un nivel de representación prosódica si el estudio de estos fenómenos constituye el principal interés del investigador; para realizar estudios sobre la sintaxis de la lengua coloquial es evidente que se impone definir una representación de los datos que contenga información sintáctica, mientra que en otro tipo de investigaciones se requerirá una representación en términos pragmáticos. Por otra parte, en corpus aplicados al estudio fonético es común encontrar una representación fonética y, en algunos casos, una caracterización de los datos mediante parámetros acústicos o articulatorios.

Para cada nivel de representación suele establecerse un conjunto de “etiquetas” que se asocian a un determinado fragmento del corpus - un segmento sonoro, una unidad prosódica, una palabra, etc. - y definen sus propiedades. Las etiquetas propias de un nivel fonético de representación corresponden a las características articulatorias o acústicas de los sonidos del habla, mientras que, por ejemplo, las etiquetas de un nivel de representación morfosintáctico describen propiedades morfológicas y léxicas de las palabras. El etiquetado constituye, por tanto, un enriquecimiento del corpus mediante información adicional introducida por el investigador en función de sus objetivos y, lo que es más importante, de su interpretación lingüística de los materiales recogidos. El establecimiento del inventario de etiquetas - estrechamente relacionado con los fenómenos que desean anotarse en un corpus - y las características que se señalan con cada una de ellas no es en absoluto una tarea trivial, especialmente si pretenden utilizarse en proyectos multilingües cubriendo simultáneamente las necesidades de varias lenguas.

Finalmente, es preciso definir, en el proceso de creación de recursos lingüísticos, un sistema o esquema de codificación tanto de los fenómenos representados en los diferentes niveles del corpus como de sus correspondientes etiquetas. La codificación constituye pues, tal como se concibe en la actualidad, una herramienta que dota al corpus de una estructura. Un esquema de codificación adecuado permite, entre otras cosas, mantener una distinción entre los datos y su forma de representación, que es útil cuando se requiere el intercambio de corpus o su reutilización en otros proyectos. Por ello es esencial, a la hora de diseñar tal esquema, considerar sistemas que cumplan este requisito.

En el caso de un corpus oral, el primer nivel de representación necesario es el de la transcripción. Esto responde a la exigencia de materializar o fijar de alguna manera la información lingüística y comunicativa presente en una onda sonora esencialmente transitoria. Tal como la caracteriza Payrató (1995:45), la transcripción es “un procedimiento de traslado o transposición a una forma gráfica (escrita) de una producción (lingüística, discursiva) originariamente oral”. Atendiendo a esta definición, podemos referirnos tanto a la transcripción ortográfica - denominada “transliteración” por algunos autores -como a la transcripción fonética, que se lleva a cabo mediante un conjunto de símbolos especialmente diseñados para tal fin. En los apartados que siguen centraremos nuestra atención en estos dos niveles de representación, el ortográfico y el fonético, considerando también algunos aspectos relativos al etiquetado en el nivel fonético.

3.- Representación ortográfica de corpus orales

Uno de los primeros problemas a los que se enfrenta un investigador en el momento de constituir un corpus oral, una vez establecido el diseño y recogidos los datos, es, evidentemente, el de la representación ortográfica. Esta representación constituye una transcripción de los enunciados producidos por los hablantes utilizando la ortografía convencional o, dicho en otras palabras, una transliteración. Puesto que se trata de un nivel de representación común a todo tipo de corpus orales sea cual sea su aplicación - tanto para el análisis de la interacción verbal como para el desarrollo de los sistemas propios de las tecnologías del habla -, se han realizado una notable cantidad de propuestas en lo que concierne a la forma escrita de los corpus orales. En el informe del Grupo de Trabajo sobre Textos Orales de EAGLES (1996) - cuyos principales elementos se retoman a continuación - se revisan algunas de ellas, incluyendo las que proceden del proyecto NERC en la tradición de la lingüística de corpus y las que se derivan de proyectos en el ámbito de las tecnologías del habla como SpeechDat o las desarrolladas por el Grupo de Trabajo sobre Lengua Oral de EAGLES.

3.1.- Propuestas en el ámbito de la lingüística de corpus

3.1.1.- La propuesta de NERC

En el marco del proyecto NERC (Network of European Reference Corpora)(NERC, 1994), se adoptaron para la representación ortográfica de corpus orales las convenciones desarrolladas por French (1991, 1992), esencialmente concebidas para ser utilizadas en la constitución de la parte oral del corpus COBUILD. En ellas se detalla el uso de los signos de puntuación - por ejemplo, no se utilizan comas entre frases y se emplean puntos para delimitar frases -, de las mayúsculas - únicamente al inicio de frase - o de los apóstrofes y las contracciones.

3.1.2.- La propuesta del Grupo de Trabajo de Textos Orales de EAGLES

En el informe del Grupo de Trabajo sobre Textos Orales de EAGLES (Expert Advisory Group on Language Engineering Standards)(EAGLES, 1996) se proponen unas recomendaciones básicas para la transcripción ortográfica de corpus orales, recogiendo tanto las sugerencias de NERC como algunas de las ideas desarrolladas en el ámbito de las tecnologías del habla que se discuten en el próximo apartado. Las recomendaciones pueden resumirse en tres puntos: Como puede observarse, éstas son recomendaciones generales que constituyen principios básicos. Un aspecto que requiere una discusión más detallada es el empleo de los signos de puntuación en la transcripción ortográfica de corpus, tema sobre el que existen diversas posturas, desde las que propugnan su completa eliminación - lo que disminuye notablemente la legibilidad del texto - hasta las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida a las dificultades que plantea la introducción de puntuación en transcripciones de habla espontánea, ya que implica necesariamente una segmentación del enunciado que, en algunos casos, puede estar sujeta a la interpretación del transcriptor.

3.2.- Propuestas en el ámbito de las tecnologías del habla

En el campo de las tecnologías del habla existen diversas propuestas para la representación ortográfica, dos de las cuales se presentan a continuación. Pueden verse otros ejemplos en las Guías de Transcripción del Center for Spoken Language Understanding (CSLU, Oregon Graduate Institute) (Lander, 1997) y en las convenciones desarrolladas para corpus como el HCRC Map Task, Verbmobil o Polyphone (den Os et al., 1995).

3.2.1.- La propuesta de SpeechDat

Los sucesivos proyectos LRE-63314 SpeechDat (Infrastructure for Spoken Language Resources)y LE2-4001 SpeechDat II (Speech Databases for the Creation of Voice Driven Teleservices) tienen entre sus objetivos desarrollar estándares para la creación de recursos lingüísticos especialmente adecuados al entrenamiento y evaluación de sistemas de reconocimiento automático del habla. Para llevar a cabo la transcripción ortográfica se han definido una serie de convenciones - resumidas en dos recomendaciones: “Keep it simple” y “Document everything adequately” - entre las cuales se contempla el uso de mayúsculas y minúsculas, la transcripción de secuencias de números, de letras, el empleo de los signos de puntuación; se establecen también procedimientos para la transcripción de errores de pronunciación, de palabras ininteligibles, fragmentos de palabras, elisiones y acontecimientos acústicos no verbales como las denominadas pausas llenas, ruidos producidos por el hablantes, ruidos estacionarios en la grabación o ruidos intermitentes, respondiendo estas últimas categorías a las necesidades de transcripción de una base de datos recogida a través del teléfono (Senia y van Velden, 1997).

3.2.2.- La propuesta del Grupo de Trabajo de Lengua Oral de EAGLES

Los documentos del Grupo de Trabajo sobre Lengua Oral de EAGLES (EAGLES, 1995) ofrecen las siguientes recomendaciones para transcripción ortográfica de corpus orales: Como puede deducirse fácilmente, la filosofía general de esta propuesta consiste en utilizar siempre las formas que aparecen en los diccionarios normativos y documentar adecuadamente las formas no estándares que se encuentren durante el proceso de transcripción.

4.- Representación fonética de corpus orales

A la hora de plantearse la elección de un sistema de transcripción fonética para un corpus oral, útiles los planteamientos que Johansson (1995:93) realiza en el marco de la TEI (Text Encoding Initiative):
“The degree of phonetic detail given in speech transcription varies from none to a very precise phonetic or phonemic transcription (. . .) Where there is a great deal of phonetic or phonemic detail, it will be more convenient to design a specialized writing system”
Evidentemente, hay casos en los que el objeto de la investigación no requiere la utilización de un sistema de transcripción fonética, pero cuando es necesario disponer de un “sistema especializado de escritura” el AFI (Alfabeto Fonético Internacional) aparece como el primer candidato para cubrir las necesidades de la investigación, siendo igualmente el sistema recomendado tanto por la TEI (Sperberg-McQueen y Burnard (Eds.), 1994) como por el Grupo de Trabajo sobre Textos Orales de EAGLES (EAGLES, 1996). Sin embargo, cuando se requiere el intercambio electrónico de textos, SAMPA (SAM Phonetic Alphabet) - considerado como una versión informática de parte del AFI (EAGLES, 1995) - se presenta como una opción válida especialmente en lo que se refiere a las lengua europeas y si se requiere una transcripción de carácter fonológico. Existe una extensión de SAMPA (X-SAMPA) que ofrece los elementos del AFI inexistentes en SAMPA y que, por lo tanto, puede considerarse como un sistema adecuado para la transcripción de corpus orales (EAGLES, 1996). Por otra parte, cabe considerar también Wordlbet como una alternativa cuando la naturaleza del corpus aconseje disponer de un sistema más detallado. Estos sistemas, comúnmente utilizados en la transcripción de corpus orales desarrollados en el ámbito de la fonética y las tecnologías del habla, se presentan someramente a continuación. Dada la diversidad de sistemas existentes, parece clara la conveniencia de desarrollar mecanismos que permitan la compatibilidad, asegurando la fácil traducción de una representación a otra, de modo que diferentes investigadores puedan hacer uso de corpus ya transcritos fonéticamente, incorporándolos a su propio entorno de trabajo.

4.1.- La representación de los elementos segmentales

4.1.1.- Alfabetos fonéticos convencionales

El Alfabeto Fonético Internacional (AFI / IPA, International Phonetic Alphabet) es el sistema más ampliamente utilizado para la transcripción fonética. Es bien sabido que se basa en un principio fonológico, según el cual se transcriben aquellos segmentos con valor diferencial, utilizándose los diacríticos para introducir aspectos de tipo fonético (IPA, 1995). Sin embargo, a pesar del uso extendido de este sistema, existen también diversas tradiciones nacionales resultantes, en general, de las necesidades derivadas de la transcripción estrecha de una determinada lengua o de la orientación de la investigación hacia un determinada área lingüística.

4.1.2.- Alfabetos fonéticos para el intercambio electrónico

4.1.2.1.- La codificación de los símbolos del AFI

La necesidad de intercambiar electrónicamente textos que contienen transcripciones fonéticas llevó, a finales de los años 80, a plantearse la codificación de los símbolos del AFI, de modo que para cada uno de los símbolos del alfabeto se ha definido un número (denominado “número AFI”) que puede relacionarse también con los códigos ASCII (Esling, 1988, 1990; Esling y Gaylord, 1993; IPA, 1989). Las equivalencias entre símbolos, números AFI y códigos ASCII forman parte de las convenciones conocidas como CRIL (Computer Representation of Individual Languages) surgidas del congreso de la Asociación Fonética Internacional celebrado en Kiel en 1991.

4.1.2.2.- SAMPA (SAM Phonetic Alphabet)

SAMPA (SAM Phonetic Alphabet) constituye seguramente el esfuerzo más significativo y extendido por desarrollar un sistema de transcripción fonética informatizado. SAMPA tiene su origen en el proyecto ESPRIT 1541 SAM (Speech Assessment Methods) (Fourcin et al., 1989; Fourcin y Dolmazon, 1991) llevado a cabo entre 1987 y 1989. Al final del proyecto existían versiones de SAMPA en danés, neerlandés, inglés, francés, alemán e italiano, incorporándose en 1992 el noruego y el sueco, y el español, el griego y el portugués en 1993. Durante 1996 se ha extendido a una serie de lenguas de los países de la Europa del Este en el marco del proyecto BABEL, y, en principio, no hay ningún obstáculo para su adaptación a otros idiomas. En cuanto a su utilización práctica, puede señalarse que es el sistema desarrollado para la transcripción del corpus multilingüe EUROM (Chan et al., 1995) y también el adoptado en el proyecto ONOMASTICA, centrado en la transcripción de nombres propios en diversas lenguas europeas

SAMPA se basa en un conjunto de equivalencias entre símbolos del AFI y códigos ASCII, restringiéndose al uso de caracteres de 7 bits (códigos 32 a 127). El principio que rige las transcripciones en SAMPA, al igual que en el caso del AFI, es esencialmente fonológico, empleándose únicamente símbolos distintos en el caso de segmentos con valor diferencial. Esta filosofía viene motivada por tres razones: simplicidad de la transcripción sin incorporar ambigüedades, ya que las realizaciones alofónicas son predictibles a partir del contexto; facilidad de utilización por parte personas con poca formación en fonética; y falta de códigos ASCII para la transcripción alofónica de todas las lenguas. Sin embargo, en algunos casos, se introducen símbolos para la representación de alófonos cuando los investigadores que han desarrollado las adaptaciones para cada lengua lo han considerado necesario.

4.1.2.3.- X-SAMPA

Una de las limitaciones de SAMPA es que no establece una codificación para todos los símbolos del AFI. Por este motivo, Wells (1994) propone un sistema denominado X-SAMPA en el que se prevén equivalencias en códigos ASCII para la totalidad de símbolos del AFI en su revisión de 1993, incluyendo diacríticos y marcas tonales. Una de las utilidades propuestas para este sistema es el envío de textos en transcripción fonética a través del correo electrónico.

4.1.2.4.- Worldbet

Worldbet constituye una propuesta más ambiciosa que SAMPA y que su extensión X-SAMPA, pues parte de la base de que “any spectrally and temporally distinct speech sound (not including pitch) which is phonemic in some language should have a separate base symbol” (Hieronymus, 1994); los símbolos de base consisten normalmente en la concatenación de un símbolo del AFI con una serie de diacríticos, de modo que puede representarse una gran variedad de alófonos hallados en las lenguas del mundo, incluyendo símbolos inexistentes en el AFI. Uno de los objetivos de Wordlbet - que en su versión actual usa 299 símbolos compuestos de dos caracteres ASCII - es facilitar la transcripción de bases de datos multilingües que incluyan lenguas indias, asiáticas y africanas, además de las europeas. Este sistema se ha utilizado, por ejemplo, en la transcripción de los corpus distribuidos por el CSLU (Center for Spoken Language Understanding, Oregon Graduate Institute)(Lander, 1997).

4.1.2.5.- Otros sistemas de transcripción fonética

Existen otros sistemas de transcripción fonética concebidos para el intercambio electrónico de textos, tanto desarrollados desde la perspectiva de las tecnologías del habla - por ejemplo, el CPA (Computer Phonetic Alphabet)surgido en el marco del proyecto ESPRIT Linguistic Analysis of European Languages (Kluger-Kruse, 1987) - como diseñados para otros fines. En el ámbito del estudio del lenguaje infantil, el proyecto CHILDES (Child Language Data Exchange System)(MacWhinney, 1991) utiliza el sistema conocido como PHONASCII (Allen, 1988), consistente en un conjunto de símbolos fonológicos - UNIBET - y un alfabeto fonético que permite la transcripción estrecha.

4.1.3.- Transcripción fonética segmental en español

4.1.3.1.- Alfabetos fonéticos convencionales

En la tradición hispánica, el alfabeto fonético de la Revista de Filología Española (RFE, 1915) constituye, sin duda, el sistema de transcripción fonética más ampliamente difundido. Sin embargo, el Alfabeto Fonético Internacional tiende a utilizarse cada vez con mayor frecuencia, ya que, en la mayoría de los casos, es posible establecer una correspondencia entre los dos sistemas tal como se presenta, por ejemplo, en Quilis (1985).

4.1.3.2.- Alfabetos fonéticos para el intercambio electrónico

4.1.3.2.1.- La adaptación española de SAMPA
Las necesidades surgidas a raíz de la constitución de corpus en español adaptados al desarrollo de las tecnologías del habla han propiciado la adaptación de sistemas adecuados para el tratamiento informático desarrollados originalmente en otras lenguas. La presencia de grupos españoles en el proyecto ESPRIT 2104 Polyglot I (Pardo et al., 1992) llevó a una primera adaptación del alfabeto fonético del proyecto SAM realizada en la UNED, dando lugar a trabajos sobre transcripción fonética automática en español (Enríquez, 1991).

La realización de la versión española del corpus EUROM en el marco del proyecto ESPRIT 6819 SAM-A llevó a la adaptación española de SAMPA (Mariño y Llisterri, 1993) tal como se presenta a continuación, y al desarrollo de un programa de transcripción fonética automática basada en este alfabeto que permitiera la generación automática de la representación fonética del corpus a partir de los textos escritos leídos por los informantes. En la siguiente tabla, tomada de Wells (1995) se ofrecen los símbolos de transcripción de SAMPA utilizados en español.

SAMPA Ejemplo Ejemplo transcrito
p padre "paDre
b vino "bino
t tomo "tomo
d donde "donde
k casa "kasa
g gata "gata
tS mucho "mutSo
jj hielo "jjelo
f fácil "faTil
B cabra "kaBra 
(= /b/)
T cinco "Tinko
D nada "naDa 
(= /d/)
s sala "sala
x mujer mu"xer
G luego "lweGo 
(= /g/)
m mismo "mismo
n nunca "nunka
J año "aJo
l lejos "lexos
L caballo ka"baLo 
(o como jj)
r puro "puro
rr torre "torre
j rey 
pie
rrej 
pje
w deuda "dewDa
i pico "piko
e pero "pero
a valle "baLe
o toro "toro
u duro "duro

Tabla 1: Símbolos de SAMPA (SAM Phonetic Alphabet) para la transcripción del español (Wells, 1995)

SAMPA es el alfabeto fonético utilizado en el proyecto ALBAYZÍN, cuyo objetivo es la constitución de tres bases de datos orales diseñadas para el entrenamiento y la evaluación de sistemas de reconocimiento del habla y para estudios fonéticos (Casacuberta et al., 1992; Moreno et al., 1993); tal como sucede en el caso de otras lenguas, podría, previsiblemente, convertirse en el estándar para la transcripción de corpus orales en español cuando el nivel de transcripción requerido responda al diseño de SAMPA que, como se ha indicado, constituye un alfabeto de naturaleza fonológica adecuado para una transcripción ancha. Este podría ser el caso de los corpus para aplicaciones a las tecnologías del habla y, en este mismo contexto, SAMPA constituye la base - en algunos casos con modificaciones - de las representaciones generadas por los algoritmos de transcripción fonética automática desarrollados para diversos sistemas de conversión de texto a habla en español.

4.1.3.2.2.- Utilización de Worldbet para la transcripción en español
La siguiente tabla, tomada de Hyeronimus (1994) propone los símbolos de Worldbet utilizados para la transcripción fonológica del español peninsular:

Worldbet Ejemplo Ejemplo transcrito
p punto p u n t o
b baños b a n~ o s
t tino t i n o
d donde d o n d e
k casa k a s a
g ganga g a N g a
V haba a V a
f falda f a l d a
s casa k a s a
z mismo m i z m o
T luces l u T e s
D dedo d e D o
x jamás x a m a s
G lago l a G o
tS chato t S a t o
dZ un yugo dZ u G o
m mano m a n o
n nada n a D a
n~ baño b a n~ o
N banco b a N k o
l lado l a D o
L pollo p o L o
r( pero p e r( o
r perro p e r o
j mayo m a j o
w cuento k w e n t o
i piso p i s o
e mesa m e s a
a caso k a s o
o modo m o D o
u cura k u r( a

Tabla 2: Símbolos de Worldbet para la transcripción del español (Hyeronimus, 1994)

La transcripción alofónica puede llevarse a cabo sin dificultades recurriendo al inventario completo de símbolos de Worldbet presentado en Hyeronimus (1994). Por ejemplo, es posible especificar el carácter dental de [t] y [d] mediante el uso de los símbolos [t[] y [d[] respectivamente, la fricativa dental sonora mediante [z], la fricativa palatal sorda con [Z] y su equivalente sonoro con [s_j], así como los alófonos reducidos (laxos) de las vocales mediante [Ix], [E], [&] o las aspiraciones utilizando [hs] (Lander, 1997).

4.1.3.2.3.- Sistemas de transcripción fonética adaptados a corpus específicos
Transcripción de variantes geográficas
Sin embargo, una transcripción de base fonológica como la planteada en SAMPA no es, evidentemente, apta para cubrir todas las necesidades de la investigación lingüística. Por este motivo, en corpus informatizados como el recogido en el proyecto de investigación de las Variedades Vernáculas Malagueñas (Alvar y Villena (Coords.), 1994) se ha adoptado un sistema de transcripción basado en la adaptación del sistema de la RFE al ALEA (Atlas Lingüístico y Etnográfico de Andalucía). En este proyecto se utiliza un entorno de transcripción asistida que permite al investigador, mediante el uso de macros, crear símbolos fonéticos rasgo a rasgo, introduciendo cuantos diacríticos sean necesarios (León, 1994). Con ello es posible realizar una transcripción estrecha de las hablas meridionales que responde a los objetivos planteados para el corpus. El procedimiento de transcripción asistida constituye la base de un futuro método de transcripción fonética automática por reglas de textos orales transliterados, en el que se contempla la utilización de SAMPA para la transcripción ancha, manteniendo el alfabeto fonético del ALEA para la transcripción estrecha (León y Sánchez, 1996).
Transcripción de diccionarios electrónicos
Un alfabeto fonético apto para ser utilizado en soportes digitales es también una herramienta indispensable en la transcripción fonética de diccionarios electrónicos como, por ejemplo, el Sistema de Diccionarios Electrónicos del Español . En el marco de este proyecto se lleva a cabo la transcripción automática de una base de datos léxica que permite establecer de forma sistemática las irregularidades ortográficas y que constituye la base para la realización de un diccionario de pronunciación aplicable a las tecnologías del habla (Ríos, 1993, 1994).

4.2.- La representación de los elementos suprasegmentales

La incorporación de información sobre los elementos suprasegmentales - información prosódica - en un corpus oral plantea diversos problemas, derivados precisamente de la propia naturaleza de estos elementos, que se manifiestan en variaciones continuas en los dominios de la frecuencia, la intensidad y el tiempo. Por tanto, es preciso llevar a cabo una abstracción para determinar, en primer lugar, cuáles de estas variaciones son lingüísticamente significativas y, en segundo lugar, cómo se relacionan con categorías discretas. Finalmente, estas categorías deben representarse en un sistema de notación. No es pues extraño que se hayan desarrollado diversas convenciones para la simbolización de los elementos suprasegmentales, algunas de las cuales se presentan en los apartados siguientes.

En el momento de plantearse la selección de un sistema de transcripción prosódica adecuado a un corpus oral el investigador se enfrenta nuevamente a la diversidad de sistemas, al igual que sucede en el caso de la transcripción segmental. Aunque, como veremos más adelante, ToBI parece que se está convirtiendo rápidamente en un estándar a pesar de su orientación hacia la transcripción del inglés y del modelo fonológico subyacente, SAMPROSA ofrece la ventaja de haberse desarrollado teniendo en cuenta las necesidades de la fonética y de las tecnologías del habla; además, SAMPROSA se enmarca en el contexto de estándares extendidos en Europa como los del proyecto SAM, recomendados, por ejemplo, por NERC (Teubert, 1993; Sinclair, 1994). En conjunto, el sistema ideal de transcripción prosódica debería permitir una representación en varios niveles, ser compatible con el intercambio electrónico de datos y cubrir las necesidades del mayor número de lenguas posible, pudiendo aplicarse automáticamente en lugar de basarse en las impresiones intuitivas del transcriptor, con vistas a la transcripción de grandes corpus. En ausencia de un sistema que reúna tales características, parece adecuado establecer mecanismos de compatibilidad entre los existentes a fin de facilitar la reutilización de los datos.

4.2.1.- La transcripción de los elementos suprasegmentales mediante el AFI

El AFI ofrece, además de la posibilidades de transcripción segmental, un conjunto de símbolos para la representación de los elementos suprasegmentales. Con motivo del congreso para la revisión del AFI celebrado en Kiel en 1989 se creó un grupo de trabajo sobre categorías suprasegmentales (Bruce 1988, 1989), concluyéndose la necesidad de representar las categorías suprasegmentales de un modo más adecuado, especialmente en lo que se refiere la entonación. El conjunto actual de símbolos del AFI para los elementos suprasegmentales permite transcribir el tono, así como la duración y el acento.

4.2.2.- Sistemas de transcripción prosódica para el intercambio electrónico

Las necesidades derivadas de una descripción detallada de la entonación tanto en el campo de la fonética como en el de las tecnologías del habla han propiciado la creación de diversos sistemas de transcripción prosódica, algunos de los cuales se presentan a continuación.

4.2.2.1.- Las propuestas de SAM

En el marco del proyecto ESPRIT SAM anteriormente mencionado se llevó también a cabo el desarrollo de sistemas de transcripción prosódica compatibles con las necesidades de anotación de bases de datos en soporte electrónico, resultando de ello propuestas como PROSPA, SAMSINT o SAMPROSA (Gibbon, 1989; Wells et al., 1992).

PROSPA fue originalmente concebido por Selting y Gibbon (Selting, 1987, 1988) para el análisis de la conversación y del discurso y, por tal motivo, se basa en criterios auditivos y recoge únicamente los elementos necesarios para este fin. Por su parte, SAMSINT (SAM System for Intonation Transcription) se plantea como objetivo la transcripción de contornos melódicos en el interior de unidades entonativas, basándose en INTSINT (cf. 4.2.2.4.) con algunas modificaciones adicionales.

SAMPROSA (SAM Alphabet)
A pesar de la coexistencia de los sistemas anteriormente mencionados en el proyecto SAM, probablemente el conjunto de símbolos más extendido actualmente para la transcripción prosódica sea SAMPROSA (SAM Prosodic Alphabet), propuesto inicialmente por Gibbon (1989) y desarrollado por Wells et al.(1992) hasta llegar a su forma actual, que se presenta en la siguiente tabla, reproducida de Wells (1995).

SAMPROSA ASCII Definition
Local tone
H 72 High pitch
L 76 Low pitch
T 84 Top pitch (extreme H)
B 66 Bottom pitch (extreme L)
M 77 Mid pitch
+ 43 Higher pitch
++ 43,43 Much higher pitch
+- 43,45 Peak (upward-downward)
- 45 Lower pitch
-- 45,45 Much lower pitch
-+ 45,43 Trough (downward-upward)
^ 94 Upstep
^^ 94,94 Wide upstep
! 33 Downstep
!! 33,33 Wide downstep
= or > or S 61 62 or 83 Level or same tone
Global tone: from Local and Nuclear tone repertoire
Terminal tone: from Local and Nuclear tone repertoire
Nuclear tone
- 45 Level tone (before tone group boundary)
' or / or R 39 47 or 82 Rising tone
` or \ or F 96 92 or 70 Falling tone
`' (etc.) 96,39 (etc.) Fall-rise
'` (etc.) 39,96 (etc.) Rise-fall
Length
: 58 Segment length mark
Stress
" 34 Primary stress
% 37 Secondary stress
Pause
... 46,46,46 Silence
Boundary
$ 36 Syllable boundary
# 35 Word boundary
| 124 Tone group boundary (non-directional)
[ 91 Tone group boundary (left)
] 93 Tone group boundary (right)
Metasymbols
- 45 Separator (the underscore, _, ASCII 95, may replace this owing to ambiguity with level tone)
* 42 Conjunctor

Tabla 3: SAMPROSA (SAM Prosodic Alphabet)(Wells, 1995)

SAMPROSA ofrece pues, al igual que SAMPA, un conjunto de caracteres correspondientes a códigos ASCII, mediante los cuales es posible transcribir tonos globales, locales, terminales y nucleares, la duración, el acento, la pausas y las fronteras entre unidades prosódicas. Aunque, como puede observarse, presenta rasgos característicos de la tradición británica de análisis de la entonación como la codificación de tonos nucleares, es un sistema que se plantea como adecuado para la transcripción de diversas lenguas.

4.2.2.2.- ToBI (Tone and Break Index)

ToBI (Tone and Break Index)se desarrolló para cubrir al mismo tiempo las necesidades de la descripción fonética y de la anotación de corpus adecuados al desarrollo de sistemas de tecnologías del habla (Silverman et al., 1992). Basado en el inglés americano, permite principalmente la transcripción de patrones entonativos partiendo de un análisis de la curva melódica representada como evolución temporal de la frecuencia fundamental mediante herramientas de análisis y etiquetado como el programa Waves. Sin embargo, se han definido también convenciones para la anotación de textos representados ortográficamente.

Una transcripción utilizando ToBI consta de cuatro niveles:

Para cada uno de los niveles se define un conjunto de símbolos, alineados temporalmente con los fenómenos entonativos transcritos si se dispone de una herramienta adecuada como Waves.

Las críticas que se realizan más frecuentemente a ToBI son, por una parte, su dependencia del modelo fonológico desarrollado por Pierrehumbert (1980) y, por otra, su mejor adaptación al inglés que a otras lenguas, lo que explicaría su amplia utilización en Estados Unidos. Sin embargo, se han realizado trabajos en italiano, alemán, húngaro y español, entre otras lenguas, usando ToBI como sistema de representación. Un inconveniente más importante es que la anotación mediante ToBI requiere un cierto conocimiento previo de los patrones entonativos de la lengua. Aun así, es un sistema que ofrece indudables ventajas como pueden ser su estructura jerárquica, que permite seleccionar entre subconjuntos o conjuntos mayores de símbolos, la posibilidad de representar problemas que aparecen en la transcripción y el hecho de que existan experimentos demostrando un alto grado de acuerdo entre transcriptores diferentes (Pitrelli et al., 1994).

4.2.2.3.- El sistema de representación del IPO

En el Institute for Perception Research (IPO, Eindhoven) se ha desarrollado una teoría sobre la entonación basada en el modelado de contornos entonativos, consistentes en representaciones estilizadas perceptivamente equivalentes al contorno original (ët Hart et al., 1990). Esta teoría ha llevado también a la formalización de un sistema de representación de la curva melódica, definida como un conjunto de movimientos tonales que se agrupan en secuencias de configuraciones tonales; la agrupación de estas configuraciones da lugar, a su vez, a contornos melódicos, definiéndose los patrones entonativos en función de agrupaciones similares de contornos melódicos. Un sistema jerarquizado de esta naturaleza permite una representación de la curva melódica adecuada para la transcripción prosódica, aunque que inicialmente no haya sido diseñado para tales fines.

4.2.2.4.- INTSINT (International Transcription System for Intonation)

El objetivo de INTSINT (International Transcription System for Intonation) es proporcionar un sistema para la comparación interlingüística de sistemas prosódicos. Desarrollado por Hirst (1991, 1994; Hirst y Di Cristo, en prensa; Hirst, Di Cristo y Espesser, en prensa) en el marco de un proyecto de análisis automático de la entonación, INTSINT se basa en la estilización de la curva melódica realizada a partir de una interpolación entre puntos en los que se da un cambio significativo en el valor de la frecuencia fundamental (target points). Estos puntos, que podríamos denominar “de inflexión” - definidos como la combinación de un valor temporal y un valor frecuencial - son susceptibles de codificarse automáticamente mediante los símbolos de INTSINT, previa introducción de marcas de frontera entre las unidades entonativas. Con ello se obtiene una representación fonológica del contorno melódico, simbolizando los diferentes niveles tonales de la curva original. El sistema se basa en la representación de secuencias tonales, consideradas tanto desde una perspectiva global en función del rango de variación tonal del hablante como desde un punto de vista local en relación con la altura de puntos de inflexión anteriores. En el primer caso se definen tres niveles: T (Top), M (Mid) y B (Bottom), mientras que en el segundo se marcan cinco posibilidades: H (Higher), L (Lower), S (Same), U (Upstep) o D (Downstep).

El proceso de modelización necesario para transcribir mediante INTSINT ha sido aplicado a varias lenguas (Hirst et al., 1993) y se emplea también para la anotación prosódica de parte del corpus EUROM en francés, inglés, alemán, sueco y español (Hirst et al., 1994; Llisterri (Ed.), 1996) llevada a cabo en el marco del proyecto LRE 62-050 MULTEXT (Multilingual Text Tools and Corpora). Es posible también aplicar INTSINT a niveles más altos como el párrafo tal como se muestra en Nicolas y Hirst (1995).

5.- Etiquetado fonético de corpus orales

Al igual que en el caso de los corpus textuales, una vez recogidos los materiales de base, debe llevarse a cabo un procesamiento de los mismos que permita su utilización posterior. El primer paso suele ser la transcripción ortográfica, que en determinado tipo de corpus se acompaña de una transcripción fonética o fonológica. A continuación, a cada segmento de la onda sonora se le asocia una etiqueta que lo define en términos fonéticos o fonológicos (labelling) y se lleva a cabo la alineación (alignment) entre la señal sonora y las etiquetas, obteniendo una representación que puede compararse a la partitura musical de una obra para voz y orquesta. El proceso de etiquetado segmental puede llevarse a cabo a varios niveles, como veremos en este apartado, y completarse con una anotación de las características suprasegmentales, codificadas según los diversos sistemas que hemos expuesto anteriormente.

Si se cumplen las etapas mencionadas, se llega a disponer de un corpus que contiene la señal sonora sincronizada con la transcripción ortográfica y con la transcripción fonética o fonológica, de modo que, una vez definida una estructura de base de datos, es posible consultar el corpus partiendo de etiquetas fonéticas, de marcas prosódicas o de la transcripción ortográfica, al tiempo que se accede a la grabación correspondiente.

Los corpus de lengua oral que consisten únicamente en transcripciones ortográficas - ya que no suele ser factible realizar una transcripción fonética completa de un número elevado de horas de grabación - conllevan un procesamiento menos complejo, aunque en algunos casos contienen marcas prosódicas útiles para el análisis del discurso o de la conversación, como veremos en el apartado 6.

5.1.- Niveles de etiquetado

Una cuestión que se plantea inevitablemente a la hora de introducir información adicional sobre los datos recogidos es el nivel de etiquetado del corpus. Se han realizado varias propuestas sobre los distintos niveles en los que se puede realizar el etiquetado fonético de un corpus, algunas de ellas ligadas al proyecto SAM como la de Barry y Fourcin (1992) que presentamos a continuación.

5.1.1.- La propuestas del proyecto SAM

En la propuesta de Barry y Fourcin se plantean cinco niveles posibles de etiquetado fonético de un corpus: A estos cinco niveles debe añadirse aún la anotación prosódica, considerada de forma independiente por los autores de la propuesta.

Una propuesta similar de etiquetado, también en cinco niveles - características acústicas de naturaleza subfonémica, características segmentales, realizaciones fonéticas, forma canónica de las palabras y transcripción ortográfica - se presenta en Tillmann y Pompino-Marschall (1993) y ha sido utilizada con éxito en el proyecto alemán PhonDat.

5.1.2.- La propuesta de EAGLES

La transcripción y el etiquetado de corpus orales se ha abordado en el marco del proyecto EAGLES desde una doble perspectiva: la de la foneacute;tica y las tecnologías del habla en el Grupo de Trabajo sobre Lengua Oral y desde la de la lingüística de corpus en el marco de las actividades del Grupo de Trabajo sobre Corpus Textuales.

El trabajo llevado a cabo en el grupo dedicado a la lengua hablada en EAGLES recoge esencialmente las propuestas desarrolladas en el marco de SAM y de PhonDat. Los niveles de etiquetado propuesto son los siguientes (EAGLES, 1995):

Vale la pena detenerse brevemente en el nivel de las formas canónicas y en el concepto de “transcripción fonotípica” que, como puede verse, aparecen de forma constante en diversas propuestas. La inclusión en el etiquetado de un corpus de forma canónicas responde a un doble motivo, especialmente ligado a necesidades tecnológicas: en primer lugar, estas formas permiten derivar automáticamente, mediante un conjunto de reglas, una transcripción ancha o fonotípica en la que se incluyen los elementos alofónicos cuya aparición esta condicionada por el contexto fonético; en segundo lugar, a partir de las formas canónicas puede crearse de forma automática un diccionario fonético partiendo de un corpus transcrito (Senia y van Velden, 1997; Wesenick y Schiel, 1995), lo que tiene utilidad para el desarrollo de sistemas de síntesis y reconocimiento del habla y también para la descripción lingüística.

La transcripción denominada “fonotípica” en los trabajos de SAM constituye un nivel intermedio entre la realización fonética y la transcripción puramente fonológica. Por otra parte, el nivel de transcripción de formas canónicas está directamente relacionado con la representación ortográfica, facilitando así la transcripción fonética automática de corpus en este nivel mediante el desarrollo de los correspondientes sistemas de reglas.

En el informe del Grupo de Trabajo de Corpus Textuales de EAGLES (EAGLES, 1996) se intenta realizar una síntesis entre las necesidades de diversos campos de estudio. Se sugieren, por ello, tres niveles de representación:

Como puede observarse, estos tres niveles encuentran su equivalente en los niveles propuesto por Barry y Fourcin (1992) y en los definidos por el Grupo de Trabajo de Lengua Oral. Para la transcripción del nivel S2 puede utilizarse SAMPA, mientras que la del nivel S3 requiere el uso de un alfabeto fonético como X-SAMPA.

5.2.- La transcripción y el etiquetado automático de corpus orales

La tarea de transcribir y etiquetar fonéticamente un corpus oral representa un considerable esfuerzo, tanto en términos de tiempo como de los recursos económicos necesarios para llevar a cabo esta labor. El etiquetado manual requiere, por otro lado, el desarrollo de convenciones detalladas para asegurar la consistencia entre diversos transcriptores (Keating et al., 1994; Lander, 1997) además del establecimiento de un proceso de validación, comprobando la fiabilidad de los resultados obtenidos (Cole et al., 1994; Eisen, 1993; Strangert y Heldener, 1995).

Por estos motivos, uno de los intereses principales de los investigadores en el campo de las tecnologías del habla ha sido llevar a cabo el etiquetado de forma semi-automática o, idealmente, completamente automática. Un primer nivel de transcripción - tanto de formas canónicas como fonotípica - puede obtenerse automáticamente, como acabamos de mencionar, a partir de la representación ortográfica si se dispone de un conjunto de reglas que establezcan las correspondencias entre la representación ortográfica y la fonética.

Sin embargo, un etiquetado fonético en los niveles de transcripción más detallada requiere la posibilidad de acceder a la onda sonora y un procedimiento de análisis de la señal. La primera operación que debe realizar un sistema de etiquetado automático es la segmentación del continuum sonoro en unidades menores - segmentos o características acústicas, en función del nivel de transcripción deseado - para pasar después a la asignación de etiquetas - símbolos de transcripción - que describan sus características. Este es el proceso conocido propiamente como etiquetado (labelling) que, cuando se realiza de forma automática, debe superar los obstáculos derivados de la naturaleza no discreta de la señal sonora - resultado de mecanismos como la coarticulación - y de la variabilidad de realizaciones fonéticas entre hablantes o incluso en un mismo hablante.

Para que el corpus sea útil, el etiquetado fonético debe estar temporalmente sincronizado con la señal sonora y con la representación ortográfica, operación que se realiza en el proceso conocido como alineación temporal (time alignment), llevado a cabo también de forma automática. Esta alineación puede hacerse de un modo global, señalando en la onda sonora las fronteras entre palabras ortográficas - para facilitar el acceso a la grabación a partir de este nivel de representación - o los puntos en los que se encuentran sílabas acentuadas tal como sucede, por ejemplo, en el proyecto MULTEXT.

En el campo de las tecnologías del habla se han llevado a cabo numerosísimos trabajos encaminados al diseño de sistemas de segmentación, etiquetado y alineación temporal automáticas de corpus orales, utilizando las técnicas propias del reconocimiento del habla como los Modelos de Markov o las redes neuronales. No constituye el objeto de la presente contribución presentar tales procedimientos, por lo que remitimos al lector a los trabajos publicados, por ejemplo, en Eurospeech (1991, 1993, 1995) o en las revistas de la especialidad como Speech Communication (Amsterdam: Elsevier). Cabe destacar que tales técnicas no sólo son útiles en el desarrollo de corpus para las tecnologías del habla, sino que constituyen una herramienta importante en otros tipos de corpus; sin embargo, es preciso reconocer que el habla espontánea - especialmente si se ha recogido mediante grabaciones realizadas en un entorno natural - plantea aún problemas en lo que se refiere a su transcripción y etiquetado automáticos pese a los notabilísimos avances que tienen lugar en este campo.

6.- Transcripción y codificación de corpus para el análisis de la lengua oral

En este último apartado incidiremos en las cuestiones relacionadas con la transcripción y codificación de corpus orales que pueden presentar un mayor interés para ámbitos como el análisis de discurso o de la conversación y para el estudio de la lengua oral en todos los niveles de la descripción lingüística. Como indicábamos al principio, la transcripción y la codificación de los elementos transcritos son, en principio, dos operaciones conceptualmente diferentes. Sin embargo, en la práctica habitual en las áreas a las que se refiere este apartado, suelen ser dos operaciones que se realizan simultáneamente, ya que al mismo tiempo que se realiza la transliteración se introducen las marcas necesarias para la codificación de los elementos que se ha decidido introducir en el corpus. Por ello, en muchos casos la discusión sobre la transcripción y la codificación se realiza conjuntamente en la bibliografía sobre el tema.

6.1.- Los requisitos de una transcripción

El investigador que decide constituir un corpus de lengua oral se encuentra, en estos momentos, con una gran variedad de criterios en lo que se refiere a la transcripción y a la selección de los elementos que aparecerán codificados en el corpus. Hemos hecho ya referencia en el apartado 3 a las diversas convenciones para la representación ortográfica y, ciñéndonos al ámbito del análisis del discurso y la conversación, constatamos igualmente la existencia una gran diversidad de propuestas. En una revisión de las mismas, Payrató (1995) hace referencia a los sistemas de transcripción y codificación procedentes de la etnometodología, interesados en reflejar la interacción verbal (Atkinson y Heritage (Eds.), 1984; Button y Lee (Eds.), 1987), a los métodos desarrollados en el marco de la etnografía de la comunicación y de la sociolingüística interaccional (Ochs, 1979; Tannen, 1987; DuBois, 1991; DuBois et al. 1993; Gumperz y Berenz, 1993) o a propuestas utilizadas en el estudio del lenguaje infantil como la de CHILDES (MacWhynney, 1991). Cabe añadir también sistemas como los presentados en Blanche-Benveniste y Colette (1987) para la transcripción de un corpus centrado en la investigación del francés hablado, o en Stenström (1994), Cestero (1994) y Tusón (1995) orientados al análisis de la conversación, así como a la propuesta detallada en Payrató (1995).

Ante tal situación, parece conveniente plantearse cuáles son los requisitos que debe cumplir una transcripción de la lengua oral, tema que ha sido abordado por diversos autores (DuBois, 1991; Elich, 1993; Edwards, 1993; OíConnell y Kowal, 1994). Tras revisar aportaciones anteriores, Payrató (1995) resume los requisitos que, teóricamente, deberían exigirse a toda transcripción:

Sin embargo, puesto que en la práctica se transcribe en función de los objetivos para los que se ha definido el corpus, Payrató (1995) considera que un sistema de transcripción debe ser, ante todo, interpretativo de los datos, selectivo en cuanto a los fenómenos que se transcriben, pertinente para el objeto de investigación, coherente con la base teórica adoptada por el investigador, fiel en cuanto a la representación de los datos y flexible para que sea posible su utilización en diversos estudios. Por otra parte, en opinión de este autor, la simbología utilizada debe ser clara, económica, sencilla, exenta de ambigüedad y compatible con sistemas internaciones estandarizados. Este último aspecto nos parece especialmente importante ya que, como señala el mismo Payrató (1995: 58)
“(. . .) en ningún caso puede olvidarse que los datos de una investigación no deberían ser tratados nunca de forma tan parcial o idiosincrásica que se impidiera o dificultara el uso por parte de otros investigadores. La transcripción del discurso oral es una actividad suficientemente costosa y conflictiva para tomar precauciones en este sentido, y ninguna comunidad científica puede permitirse el lujo de particularismos (en aspectos tan elementales) que obstruyan el debate o conviertan en inaprovechables una fuente de información”.

6.2.- Los elementos transcritos y las prácticas de transcripción y codificación

A fin de estudiar la viabilidad de disponer de criterios mínimamente estandarizados para la transcripción y la codificación de corpus orales, en EAGLES (1996) se realiza una revisión de los elementos que suelen encontrarse representados con más frecuencia en los sistemas de transcripción diseñados para el estudio de la lengua oral. Además de los métodos mencionados en el apartado anterior desarrollados en el marco del análisis del discurso y de la conversación, cabe considerar también las distintas convenciones empleadas en la transcripción y codificación de corpus orales desde la propia lingüística de corpus.

Los elementos transcritos pueden relacionarse con los diversos niveles de representación del corpus, tal como se presenta en la siguiente tabla:

Nivel de análisis Elementos transcritos, marcados o codificados
Nivel segmental Alargamiento, timbre, acento, reconstrucción de segmentos elididos.
Nivel silábico Fronteras silábicas, alargamiento silábico.
Nivel léxico Fronteras de palabras, palabras truncadas, formas no estándar, formas onomatopéyicas, formas deletreadas, acrónimos, abreviaturas, cambios entonativos en la palabra, acento léxico, pausas percibidas entre palabras o en el interior de una palabra.
Nivel sintáctico Fronteras entre enunciados, modalidad, interrupciones en el enunciado con o sin presencia de pausas.
Nivel suprasegmental Unidades entonativas
Fronteras entre unidades entonativas o entre unidades menores, unidades tonales incompletas o truncadas, reajustes (resets) tonales, junturas, índices de cohesión, contornos tonales terminales.
Tono
Cambios melódicos en el enunciado o en parte del enunciado, nivel tonal, rango tonal, registro, movimiento tonal en la palabra o en el enunciado.
Acento
Acento de palabra, acento de frase, acento tonal, niveles de acento, prominencia, énfasis, acento contrastivo, tensión, propiedades rítmicas.
Intensidad
Intensidad absoluta o relativa de partes del enunciado
Velocidad de elocución
Cambios en la velocidad de elocución, velocidad de elocución relativa o absoluta.
Pausas
Pausas silenciosas, pausas vocalizadas, duración absoluta o relativa de las pausas.
Nivel paralingüístico Vocalizaciones semi-léxicas, vocalizaciones no léxicas, timbre de la voz, otros elementos vocalizados (canto, gritos, etc.).
Nivel discursivo Turnos de palabra, tipo de transición entre turnos, superposición de turnos.
Nivel contextual Fenómenos no comunicativos no léxicos y no vocales, información kinésica.

Tabla 4: Elementos transcritos, codificados o marcados en el estudio de la lengua oral (EAGLES, 1996)

6.3.- Propuestas de estandarización para la transcripción y codificación de corpus orales

Ante la diversidad de propuestas para la transcripción y codificación de la lengua oral que acabamos de constatar, el surgimiento de la lingüística de corpus y, muy especialmente, las necesidades derivadas del intercambio electrónico de textos propiciaron la aparición de proyectos e iniciativas centrados en la creación de estándares, tanto en lo que se refiere a la transcripción como a la codificación. En los próximos apartados revisamos sucintamente algunos de ellos.

6.3.1.- TEI (Text Encoding Initiative)

Uno de los capítulos de las Guías desarrolladas por la TEI está dedicado a la transcripción de corpus orales. En él se describe la estructura básica de la representación de un texto oral - cabecera, texto y divisiones - y se definen los procedimientos, basados en SGML, para la representación de los elementos estructurales básicos: información contextual, información temporal, enunciados, pausas, elementos vocalizados semi-léxicos o no léxicos, elementos kinésicos, otros tipos de eventos comunicativos y texto presentado en forma escrita al hablante. También se ofrecen en este capítulo indicaciones para la segmentación y el alineamiento, así como recomendaciones para la transcripción de superposiciones entre hablantes, de formas de palabras, prosodia, elementos paralingüísticos - tempo, intensidad, rango tonal, tensión, ritmo y cualidad de voz - y alteraciones en el decurso fónico. Para la representación de la información fonética se recomienda el uso del AFI.

En la siguiente tabla se resumen los principales elementos propuestos por la TEI para la codificación de corpus orales considerados específicos de este tipo de texto (Sperberg-McQueen y Burnard (Eds.), 1994):

Elemento codificado Marca de codificación en SGML Definición
Divisiones (division) <div> Unidades intermedias entre el texto y el enunciado que permiten delimitar partes diferenciadas en un texto.
Enunciado (utterance) <u> Segmento de habla comprendido entre dos pausas o delimitado por un cambio en el turno de palabra; puede incluir además información sobre la superposición (<overlap>) de turnos cuando interviene simultáneamente más de un hablante.
Pausa (pause) <pause> Interrupción de la fonación percibida entre dos enunciados o en el interior de los mismos; puede describirse en términos relativos o indicando su duración.
Vocal (vocal) <vocal> Elemento vocalizado semi-léxico o no léxico (p.ej. pausas llenas o toses).
Kinésico (kinesic) <kinesic> Cualquier fenómeno comunicativo no vocal (p. ej. gestos).
Acontecimiento (event) <event> Cualquier fenómeno identificado en la grabación no necesariamente vocalizado ni con valor comunicativo (p. ej. ruidos de fondo).
Texto escrito (writing) <writing> Texto escrito que se presenta al hablante durante su intervención.
Cambio (shift) <shift> Momento en el que se produce un cambio en alguno de los rasgos paralingüísticos - cualidad de voz, intensidad, rango tonal, ritmo y velocidad de elocución -; cada uno de los rasgos puede describirse mediante una lista de características.

Tabla 5: Elementos codificados en las transcripciones de lengua oral según los estándares de la TEI (Adaptada de Sperberg-McQueen y Burnard (Eds.), 1994)

Por otra parte, la TEI ofrece mecanismos para indicar el comienzo y el final de un fenómeno, su duración y su sincronización temporal con otros elementos; presenta también la posibilidad de marcar unidades inferiores al enunciado - segmentos <seg> - que permiten delimitar, por ejemplo, unidades prosódicas, e incluye también entre sus propuestas las marcas necesarias para señalar fenómenos propios de la lengua hablada como palabras truncadas, repeticiones, falsos principios - marcados como <del> (deletion) y especificando el fenómeno -. Las partes de la grabación que el transcriptor no llega a interpretar correctamente - <unclear> - o no puede escuchar - <gap> - o las correcciones de errores de producción realizadas por el transcriptor - <sic> para delimitar el error y <corr> para indicar la corrección - son también elementos para los cuales la TEI establece marcas de codificación.

Aunque las Guías de la TEI pueden considerarse un sistema adecuado para la transcripción y codificación de gran variedad de materiales, los autores propios autores reconocen que:

“(. . .) the present proposals are not intended to support unmodified every variety of research undertaken upon spoken material now or in the future; some discourse analysts, phonologists, and doubtless other may wish to extend the scheme presented here to express more precisely the set of distinctions they wish to draw in their transcriptions. Speech regarded as a purely acoustic phenomenon may well require different methods from those outlined here, as may speech regarded solely as a process of social interaction&” (Sperberg-McQueen y Burnard (Eds.), 1994, cap. 11)

6.3.2.- NERC (Network of European Reference Corpora)

El proyecto NERC (Network of European Reference Corpora) se planteó como uno de sus objetivos la viabilidad de desarrollar una serie de recomendaciones para la constitución de corpus (NERC, 1994) y, por tanto, incluye entre sus resultados indicaciones sobre el tratamiento de los corpus orales, tanto en lo que se refiere a su codificación como a la transcripción de los elementos segmentales y suprasegmentales (Sinclair, 1994).

El sistema adoptado para la transcripción y codificación de corpus se basa, como hemos indicado anteriormente, en el desarrollado por French (1991, 1992) para la transcripción del corpus oral desarrollado en el proyecto COBUILD. La transcripción se plantea como una operación que puede desarrollarse en varios niveles:

La recomendación del proyecto NERC es que la transcripción de un corpus para el estudio de la lengua oral se lleve a cabo según las especificaciones del Nivel II, adecuado, según French, para todas aquellas investigaciones que no requieran información prosódica.

En el marco de NERC se llevó a cabo una evaluación de las Guías de la TEI para la transcripción de corpus orales (Payne, 1992), de la que se concluye que:

“The TEI proposals are broadly compatible with current practice in the user community, as represented by J.P. French conventions. Furthermore, in the majority of cases it will be a straightforward matter to link the machine-friendly TEI codes to the more user-friendly encoding systems such as J.P. French conventions by means of a simple conversion programme” (Payne, 1992:60)
La idea de una conversión automática entre las transcripciones realizadas según las propuestas de NERC y de la TEI es, naturalmente, interesante, y refuerza la idea de que existe una compatibilidad general entre ambos sistemas. De hecho, en el informe final de NERC se recomienda que se sigan las normas de la TEI.

6.3.3.- EAGLES (Expert Advisory Group on Language Engineering Standards)

Uno de los objetivos del Grupo de Trabajo sobre Textos Orales de EAGLES -Subgrupo creado en el seno del Grupo de Trabajo sobre Corpus Textuales - es proponer un conjunto mínimo de fenómenos que deberían codificarse en cualquier texto oral. La propuesta realizada se describe en EAGLES (1996) y toma elementos del proyecto NERC, de la TEI y del Grupo de Trabajo sobre Lengua Oral de EAGLES. Considerando los elementos comunes a los sistemas que sirven de base, se sugiere que la codificación de un texto oral debe contener, al menos, información sobre los siguientes aspectos:

(1) Elementos vocales y no vocales

Pertenecen a esta categoría los elementos utilizados principalmente en el habla espontánea durante los momentos en que el hablante planifica la continuación de su discurso como las llamadas “pausas llenas” o “sonoras” y los elementos que marcan dudas en el momento de la producción del habla. Corresponden a los elementos que en la TEI se marcan con la etiqueta <vocal>.
Se incluyen aquí todo tipo de sonidos producidos por el hablante - toses, risas, bostezos, estornudos, etc. - que no constituyen formas léxicas de la lengua. Corresponden igualmente a los codificados con la marca <vocal> en la TEI.
Comprenden los ruidos producidos por otros hablantes o procedentes del entorno de grabación. Estos acontecimientos se codifican en la TEI mediante la marca <event>.

(2) Elementos necesarios en la transcripción de interacciones verbales

Este es un elemento imprescindible en la transcripción de interacciones verbales. La TEI dispone de los mecanismos para documentar información sobre los hablantes en la cabecera de los textos, así como de un sistema para marcar la identidad de cada participante en el interior del texto, aunque pueden utilizarse también otros procedimientos.
La finalidad del marcado de los turnos de palabra es indicar un cambio de hablante. Además de las convenciones de la TEI pueden emplearse otros procedimientos, mientras se mantenga esta información, esencial en el estudio de la interacción verbal.
Existen igualmente diferentes procedimientos para marcar la superposición de emisiones de dos hablantes, además de las propuestas de la TEI, que los trata como parte de las estrategias para codificar acontecimientos simultáneos.

(3) Elementos relacionados con la actuación del hablante

Si se transcribe un texto leído y se dispone del original, es recomendable anotar las palabras o segmentos omitidos por el locutor.
Es propio del habla espontánea, aunque también de la lectura, que los hablantes realicen correcciones de su propia producción lingüística (self-repairs). Parece conveniente marcarlas en la transcripción de un corpus oral.
Los fragmentos de palabras corresponden a uno o más segmentos pertenecientes a una palabra que no ha sido totalmente pronunciada por el hablante en un primer intento y que suelen repetirse cuando éste consigue producir la palabra completa. Es importante indicar este fenómeno en la transcripción.
Se trata de partes de la grabación que no son comprendidas por el transcriptor y en la TEI se codifican con la etiqueta <unclear>, aunque si se desea se pueden utilizar marcas más detalladas distinguiendo entre transcripciones completamente ininteligibles y entre una posible interpretación ofrecida por el transcriptor.

Un aspecto conflictivo sigue siendo la identificación de los enunciados que conforman un texto oral. Mientras que en un texto escrito, los signos de puntuación constituyen un criterio de delimitación, en el habla disponemos de indicios como las pausas, la entonación o el cambio de turno de palabra que nos permiten, al menos convencionalmente, definir un enunciado.

6.4.- Transcripción y codificación de corpus orales en español: propuestas y modelos

Existen actualmente en español diversos corpus orales transcritos y codificados para algunos de los cuales hemos podido recoger información sobre las convenciones de transcripción y los procedimientos de codificación utilizados. No se trata pues de realizar aquí una presentación exhaustiva de los corpus elaborados o en preparación, sino de ofrecer algunas muestras que proporcionen unas orientaciones, necesariamente someras, sobre los criterios considerados en nuestro ámbito más cercano.

6.4.1.- El Corpus Oral de Referencia del Español Contemporáneo

Elaborado en el Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid entre 1991 y 1992 en colaboración con IBM España, el Corpus Oral de Referencia del Español Contemporáneo consiste en la transcripción ortográfica de diversos tipos de texto, pertenecientes al registro oral.

Para la representación ortográfica del corpus se adoptan una serie de convenciones relacionadas con el uso de las mayúsculas, las comillas, los puntos suspensivos - utilizados para señalar pausas, vacilaciones, cortes bruscos o realizaciones repetidas de la misma palabra -, las comas - que se emplean según las reglas de la ortografía aunque no exista pausa o para señalar las pausas de sentido en el discurso - y el punto y aparte, usado para un cambio de tema. Las palabras trabadas o cortadas, las confusiones, las autocorrecciones o las palabras inventadas por el locutor y no documentadas en los diccionarios se transcriben tal como las pronuncia el hablante.

Las convenciones adoptadas para la codificación se basan, según los autores del corpus, en la TEI. Se utilizan por ello etiquetas relativas a la pronunciación - marcando palabras cortadas, reconstrucciones realizadas por el transcriptor, vacilaciones, elementos fáticos, ruidos superpuestos a la enunciación, sonidos de formación expresiva o imitativa como las onomatopeyas -, a los hablantes - identificación de los papeles o del público y marcas señalando la superposición de todos los hablantes -, a las intervenciones - marcando la presencia de texto leído o cantado, la simultaneidad de intervenciones - o los problemas derivados de la grabación; se marca y codifica igualmente la aparición de siglas o de palabras extranjeras.

6.4.2- El Corpus de Conversación Coloquial

Desarrollado por el Grupo Val.Es.Co de la Universidad de Valencia, tiene como objetivo permitir la realización de estudios sobre el español coloquial. En Briz (Coord.) (1995) se ofrece una panorámica general del proyecto, así como una presentación de las convenciones de transcripción acompañada de abundantes materiales. Se señala en este trabajo que

“La transcripción intenta reproducir lo más fielmente posible la conversación y al mismo tiempo facilitar la labor del lector. El sistema de signos y convenciones empleado es lo suficientemente estrecho, por tanto, para conseguir que el lector pueda reproducir aproximadamente la conversación original” (Briz (Coord.) 1995:39).

Este objetivo del corpus se pone de manifiesto en la selección de los fenómenos transcritos, enumerados a continuación: fenómenos relacionados con el turno de palabra - alternancia de turno, sucesión inmediata de emisiones, solapamientos, reinicios y autointerrupciones, escisiones conversacionales - , pausas y silencios con diversos grados de duración, inflexiones finales o interiores en los grupos entonativos, énfasis, fenómenos fonéticos - fonética sintáctica entre palabras, aspiraciones, asimilaciones, alargamientos segmentales, fragmentos susurrados - y modalidad del enunciado - preguntas, interrogaciones y exclamaciones -.

Las convenciones para la transcripción incluyen además pautas para la representación de las transcripciones dudosas, las interrupciones de la grabación o de la transcripción y las reconstrucciones de unidades léxicas, así como procedimientos de anotación pragmática en forma de notas a pie de página. En lo que respecta a la prosodia, se transcriben los indicios prosódicos “que influían notablemente en el curso de la conversación o introducían alguna modificación en la prosodia ‘normativa’” (Briz (Coord.) 1995:41), para lo cual se realiza, cuando es necesario, una comprobación mediante el análisis acústico de las grabaciones.

6.4.3.- El Corpus de Variedades Vernáculas Malagueñas

Constituido con un objetivo predominantemente sociolingüístico, el Corpus de Variedades Vernáculas Malagueñas (VUM) se ha recogido en el Departamento de Filología Española y el Departamento de Filología Románica I de la Universidad de Málaga (Alvar y Villena (Coord.), 1994).

La transcripción del corpus se basa en la ortografía convencional, pero se enriquece por medio de convenciones y rasgos específicos “que permitan al lector de la misma la reconstrucción lo más exacta posible de la situación de habla originaria, así como de algunas características fónicas, discursivas y estilísticas” (Avila, 1996:103). Informan los investigadores del proyecto de que en la codificación se han seguido los estándares de la TEI - utilizando para ello SGML -, tomando como punto de partida los criterios del Corpus Oral de Referencia del Español Contemporáneo.

Las etiquetas utilizadas codifican pues información sobre los hablantes y los turnos de palabra - simultaneidad o interrupción -, los rasgos prosódicos - tono, intensidad, entonación, tempo, diversos tipos de pausa en función de su duración relativa y énfasis - las acciones no verbales y los fenómenos no vocales, la actuación lingüística y las incidencias que tienen lugar en la grabación. Se han introducido también, de acuerdo con la especificidad del corpus, etiquetas para “la representación de la características fonéticas propias de las hablas meridionales en general y de las variedades de Málaga en particular” (Ávila, 1996:106); en este aspecto se marca la elisión de consonantes en tensión silábica, la reaparición de consonantes implosivas y el aumento de la duración segmental, además de incluirse una representación de diversos tipos de pausas en función de su duración relativa.

6.4.4.- El Corpus de Referencia del Español Actual

Desarrollado por el Instituto de Lexicografía de Real Academia Española, el Corpus de Referencia del Español Actual (CREA) es fundamentalmente un corpus textual que incluirá, sin embargo, transcripciones de lengua oral. La transcripción que actualmente se está realizando corresponde al nivel II definido en NERC y al nivel S1 según la caracterización de EAGLES. Para la codificación se emplean los estándares de la TEI, por lo que, una a vez transcrito y codificado, el texto se almacena en formato SGML.

La representación ortográfica se lleva a cabo de acuerdo con la normativa del español y se introducen una serie de convenciones para el tratamiento de los problemas relacionados con formas reducidas de palabras, abreviaturas y acrónimos, palabras deletreadas, secuencias numéricas, interjecciones, fenómenos comunicativos no vocales, fenómenos no comunicativos no vocales, errores de producción, repeticiones, rectificaciones e interrupciones en el discurso, titubeos y fragmentos ininteligibles. Se utilizan los signos ortográficos habituales siguiendo los principios que rigen la normativa de puntuación en español, excepto en el caso del punto y coma, que no se emplea en la transcripción, y de las comillas, cursivas y mayúsculas que se usan como un medio tipográfico de resalte.

Las marcas de codificación incluidas en el corpus se dividen en dos grandes categorías: estructurales e intratextuales. Entre las marcas estructurales se utiliza la que señala una división interna en el texto (<div>, division) con posibilidad de indicar su nivel jerárquico, la que marca un segmento precedido y/o seguido de un cambio de hablante (<u>, utterance) acompañada de una indicación del tipo de transición, y la que codifica la superposición entre hablantes (<overlap>).

Las marcas intratextuales se emplean para codificar la presencia de abreviaturas y acrónimos, palabras extranjeras, discurso directo, números, texto escrito leído por los hablantes, texto resaltado - en casos de discurso directo o cita así como para señalar los elementos que aparecerían tipográficamente marcados en los textos escritos como las palabras extranjeras no adaptadas, los usos metalingüísticos, las marcas o nombres comerciales, etc. - formas deletreadas y titubeos. La codificación recoge también los elementos vocales (<vocal>), para los cuales se elabora una tipología, los fenómenos comunicativos no vocales (<kinesic>) o los fenómenos no vocales y no comunicativos que se detectan en las grabaciones (<event>); se codifican igualmente los fragmentos poco claros de la grabación (<unclear>).

En el procedimiento de codificación adoptado, los signos de puntuación introducidos por el transcriptor son automáticamente interpretados y etiquetados. Así, los enunciados ortográficos separados por signos como el punto, la exclamación o la interrogación se marcan con la etiqueta <s> (sentence). La etiqueta <pause> se reserva, en cambio, para los casos en que aparecerían puntos suspensivo en un texto escrito, señalando una interrupción en el discurso resultado de un titubeo o una cláusula inconclusa.

7.- Conclusiones

La revisión - sin pretensiones de exhaustividad - de los principales sistemas de transcripción, etiquetado y codificación de corpus orales expuesta en este trabajo pone de manifiesto, en primer lugar, la multiplicidad de propuestas desarrolladas frente a los intentos de estandarización, algunos de los cuales aún no se han consolidado plenamente pese a su creciente aceptación. En segundo lugar, destaca también la heterogeneidad de tradiciones que confluyen en el estudio de la lengua hablada, desde la fonética y las tecnologías del habla hasta el análisis del discurso y de la conversación, diversidad que lleva a la creación de convenciones específicas para responder a las necesidades de diversas comunidades científicas. Ante esta situación, la distinción propuesta por Sinclair (1995:107) entre “conformidad” y “compatibilidad” adquiere todo su sentido, ya que si en ciertos casos la conformidad a un estándar determinado es problemática por las limitaciones inherentes a todo sistema común, la compatibilidad - entendida como la facilidad de conversión entre sistemas - debería ser, en cambio, un requisito imprescindible en el desarrollo de los recursos lingüísticos. De esta manera puede tal alcanzarse el equilibrio entre las necesidades de un proyecto y las indudables ventajas científicas y económicas que resultan de la reutilización de los datos disponibles.

Bibliografía

ALLEN, G.D. (1988) “The PHONASCII System”, Journal of the International Phonetic Association 18,1: 9-25.

ALVAR EZQUERRA, M.- VILLENA PONSODA, J.A. (Coords.) (1994) Estudios para un corpus del español. Málaga: Universidad de Málaga (Analecta Malacitana, Anejo 7)

ANDERSON, A.H. - BADGER, M.- BARD, E.G.- BOYLE, E.- DOHERTY, G.- GARROD, S.- ISARD, S.- KOWTKO, J.- McALLISTER, J.- MILLER, J.- SOTILLO, C.- THOMPSON, H.S.- WEINERT, R. (1991) “The HCRC Map Task corpus”, Language and Speech 34,4: 351-366

ATKINSON, J.M. - HERITAGE, J. (Eds.) (1984) Structures of social action. Studies in conversation analysis. Cambridge / Paris: Cambridge University Press/Editions de la Maison dels Sciences de l'Homme

AUTESSERRE, D.- PÉRENNOU, G.- ROSSI, M. (1989) “Methodology for the transcription and labeling of a speech corpus”, Journal of the International Phonetic Association 19,1: 2-15

ÁVILA MUÑOZ, A.M. (1996) “Problemas prácticos en la realización de corpus orales. La transliteración del corpus oral del proyecto de investigación de las variedades vernáculas malagueñas (VUM)”, in LUQUE DURÁN, J. de D.- PAMIES BERTRÁN, A. (Eds.) Actas del Primer Simposio de Historiografía Lingüística. Granada, 1996. Granada: Método Ediciones. pp. 103-112.

BARRY, W.J.- FOURCIN, A.J. (1992) “Levels of Labelling”, Computer Speech and Language 6: 1-14

BECKMAN, M.E. - AYERS, G.M. (1994) Guidelines for ToBI Labelling. Version 2.0, February 1994. URL: http://www.ling.ohio-state.edu/~tobi/

BECKMAN, M.E.- HIRSCHBERG, J. (1994) The ToBI Annotation Conventions. Appendix A of BECKMAN, M.E. - AYERS, G.M. (1994) Guidelines for ToBI Labelling. Version 2.0, February 1994. URL: http://www.ling.ohio-state.edu/~tobi/

BLANCHE-BENVENISTE, C.- COLETTE, J.J. (1987) Le français parlé: Transcription et Edition. Paris: Didier Erudition.

BOVES, L.- REFICE, M.- MARTÍNEZ, M.- CASADO, C.- PARDO, M. (1988) “El procesador lingüístico para un sistema multilingüe de conversión texto-habla y habla-texto”, Procesamiento del Lenguaje Natural, Boletín nº 6: 53-68.

BRIZ, A. (Coord.) (1995) La conversación coloquial (Materiales para su estudio). València: Universitat de València, Facultad de Filología, Departamento de Filología Española (Lengua Española) (Cuadernos de Filología, Anejo XVI).

BRIZ, A.- GÓMEZ MOLINA, J.R. (1992) “Scheme of Study of Colloquial Spanish: Some Methodological Considerations”, in MORENO FERNÁNDEZ, F. (Ed.) Sociolinguistics and Stylistic Variation, LynX 3: 111-124

BRUCE, G. (1988) “2.3. Supasegmental categories and 2.4. The symbolization of temporal events”, Journal of the International Phonetic Association 18,2: 75-76

BRUCE, G. (1989) “Report from the IPA working group on suprasegmental categories”, Lund University Department of Linguistics, General Linguistics, Phonetics, Working Papers 35: 25-40

BRYAN, M. (1988) SGML: An Author's Guide to the Standard Generalized Markup Language. Wokingham: Addison-Wesley

BURNARD, L. (1995) “What is SGML and how does it help?”, Computers and the Humanities 29,1: 41-50; in IDE, N.- VÉRONIS, J. (Eds.) (1995) The Text Encoding Initiative. Background and Context. Dordrecht: Kluwer Academic Publishers.

BURNARD, L. (1995a) Text Encoding for Information Exchange. An Introduction to the Text Encoding Initiaive. TEI Document no TEI J31.

BURNARD, L. (1995b) “The Text Encoding Initiative: an overview”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 69-81

BUTTON, G.- LEE, J.R.E. (Eds.) (1987) Talk and Social Organization. Clevedon: Multilingual Matters

CAPPELLI, G.- MARRERO, V.- ALBALÁ, M.J. (1994) “Aplicación del sistema MORPHO a una muestra de lenguaje infantil”, Sociedad Española para el Procesamiento del Lenguaje Natural, Boletín nº 14: 23-31.

CASACUBERTA, F.- GARCÍA, R.- LLISTERRI, J.- NADEU, C.- PARDO, J.M.- RUBIO, A. (1992) “Desarrollo de corpus para investigación en tecnologías del habla (Albayzín)”, Procesamiento del Lenguaje Natural, Boletín 12: 35-42

CASTEJÓN LAPEYRA, F.- ESCALADA SARDINA, G.- MONZÓN SERRANO, L.- RODRÍGUEZ CRESPO, M.A.- SANZ VELASCO, P. (1994) “Un conversor texto-voz para el español”, Comunicaciones de Telefónica I+D, 5, 2: 114-131

CESTERO MANCERA, A. (1994) Análisis de la conversación: alternancia de turnos en la lengua española. Tesis doctoral. Alcalá de Henares: Universidad de Alcalá de Henares.

CHAFE, W. (1995) “Adequacy, user-friendliness, and practicality in transcribing”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds.) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 54-61

CHAN, D.- FOURCIN, A.- GIBBON, D.- GRANSTRÖM, B.- HUCKVALE, M.- KOKKINAKIS, G.- KVALE, K.- LAMEL, L.- LINDBERG, B.- MORENO, A.- MOUROPOULOS, J.- SENIA, F.- TRANCOSO, I.- VELD, C.- ZEILIGER, J. (1995) “EUROM - A Spoken Language Resource for the EU”, in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Speech Technology. Madrid, Spain, 18-21 September, 1995. Vol 1, pp. 867-870.

COLE, R.A.- OSHIKA, B.T.- NOEL, M.- LANDER, T.- FANTY, M. (1994) “Labeler Agreement in Phonetic Labeling of Continuous Speech”, in Proceedings of the 1994 International Conference on Spoken Language Processing, Yokohama, Japan, 18-22 September 1994.

COOK, G. (1995) “Theoretical issues: transcribing the untranscribable”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 35-53

CROWDY, S. (1994) “Spoken corpus transcription”, Literary & Linguistic Computing 9,1: 25-28.

CROWDY, S. (1995) “The BNC spoken corpus”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds.) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 224-234

De la MOTA, C. - RÍOS, A. (1995) “Problemas en torno a la transcripción fonética del español: los alfabetos fonéticos propuestos por IPA y RFE y su aplicación a un sistema automático”, Acta Universitatis Wratislaviensis nº 1660, Estudios Hispánicos IV. Wroclaw. pp. 97-109.

DE LA TORRE MUNILLA, C.- HERNÁNDEZ-GÓMEZ, L.A.- TAPIAS, D. (1995) “CEUDEX: a Data Base Oriented to Context-Dependent Units Training in Spanish for Continuous Speech Recognition”, in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Technology. Madrid, Spain, 18-21 September, 1995. Vol 1, pp. 845-848.

DEN OS, E.- BOOGAART, T.I.- BOVES, L.- KLABBERS, E. (1995) “The Dutch Polyphone Corpus”, in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Technology. Madrid, Spain, 18-21 September, 1995. Vol 1, pp. 825-828.

DU BOIS, J.W. (1991) “Transcription design principles for spoken discourse research”, Pragmatics 1: 71-106

DU BOIS, J.W.- SCHUETZE-COBURN, S.-CUMMING, S.- PAOLINO, D. (1993) “Outline of discourse transcription”, in EDWARDS, J.A.- LAMPERT, M.D. (Eds.) Talking Data: Transcription and Coding in Discourse Research. Hillsdale, N.J.: Lawrence Erlbaum Associates. pp. 45-90

EAGLES (1995) EAGLES Hanbdook on Spoken Language Systems. Draft - Work in Progress. EAGLES Document SLWG, Phase 2, V1. May, 1995.

EAGLES (1996) Preliminary Recommendations on Spoken Texts. EAGLES Document EAG-TCWG-STP/P, May 1996. URL: http://www.ilc.cnr.it/EAGLES96/spokentx/spokentx.html

EDWARDS, J.A. (1991) “Transcription in discourse” in BRIGHT, W. (Ed.) Oxford International Encyclopedia of Linguistics. Oxford: Oxford University Press. Vol 1 pp. 367-371

EDWARDS, J.A. (1992) “Design principles in the transcription of spoken discourse” in SVARTVIK, J. (Ed.) Directions in Corpus Linguistics. Proceedings of Nobel Symposium 82. Stockholm, 4-8 August, 1991. Berlin: Mouton de Gruyter. pp. 129-147

EDWARDS, J.A. (1993) “Principles and Contrasting Systems of Discourse Transcription”, in EDWARDS, J.A.- LAMPERT, M.D. (Eds.) Talking Data: Transcription and Coding in Discourse Research. Hillsdale, N.J.: Lawrence Erlbaum Associates. pp. 3-32

EDWARDS, J.A. (1995) “Principles and alternative systems in the transcription, coding and mark-up of spoken discourse”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 19-34

EHLICH, K. (1993) “HIAT: A Transcription System for Discourse Data”, in EDWARDS, J.A.- LAMPERT, M.D. (Eds) Talking Data: Transcription and Coding in Discourse Research. Hillsdale, N.J.: Lawrence Erlbaum Associates. pp. 123-148

EISEN, B. (1993) “Reliability of speech segmentation and labelling at different levels of transcription” in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol. 1 pp. 673-676

ENRÍQUEZ, E. (1991) “El problema de las ambigüedades fonéticas y su tratamiento automático”, Boletín de la Real Academia de la Lengua Española LXXI, XXLII: 157-183

ESLING, J.H. (1990) “Computer Coding of the IPA: Supplementary Report”, Journal of the International Phonetic Association 20,1: 22-26

ESLING, J.H. (1988) “Computer coding of IPA symbols and detailed phonetic representations of computer databases”, Journal of the International Phonetic Association 18,2: 99-106

ESLING, J.H.- GAYLORD, H. (1993) “Computer Codes for Phonetic Symbols”, Journal of the International Phonetic Association 23,2: 77-82

EUROSPEECH (1991) Eurospeech'91. 2nd European Conference on Speech Communication and Technology. Genova, Italy, 24-26 September 1991.3 vols

EUROSPEECH (1993) Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. 3 vols.

EUROSPEECH (1995) Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Technology. Madrid, Spain, 18-21 September, 1995. 3 vols.

FOURCIN, A.- DOLMAZON, J.M. (on behalf of the SAM Project) (1991) “Speech knowledge, standards and assessment”, in Actes du XIIème Congrès International des Sciences Phonétiques. 19-24 août 1991, Aix-en-Provence, France. Aix-en-Provence: Université de Provence, Service des Publications. Vol 5 pp. 430-433.

FOURCIN, A.- HARLAND, G.- BARRY, W. - HAZAN, V (Eds.) (1989) Speech Input and Output Assessment. Multilingual Methods and Standards. Chichester: Ellis Horwood Ltd.

FRENCH, J.P. (1991) Updated notes for soundprint transcribers. Working paper, University of Birmingham, October 1991, NERC-WP4-47

FRENCH, J.P. (1992) Transcription proposals: multilevel system. Working paper, University of Birmingham, October 1992. NERC-WP4-50

GARRIDO ALMIÑANA, J.M. (1996) Modelling Spanish Intonation for Text-to-Speech Applications. Ph.D. Thesis. Departament de Filologia Espanyola, Facultat de Lletres, Universitat Autònoma de Barcelona. 2 vols. URL: http://liceu.uab.cat/juanma/ tesis.html

GIBBON, D. (1989) Survey of Prosodic Labelling for EC Languages. SAM-UBI-1/90, 12 February 1989; Report e.6, in ESPRIT 2589 (SAM) Interim Report, Year 1. Ref. SAM-UCL G002. University College London, February 1990.

GOLDFARB, C.F. (1990) The SGML Handbook. Oxford: Clarendon Press

GOLDMAN-EISLER, F. (1972) “Pauses, Clauses, Sentences”, Language and Speech 15: 103-113.

GRØNNUM THORSEN, N. (1987) “Suprasegmental transcription”, ARIPUC - Annual Report of the Institute of Phonetics University of Copenhagen 21: 1-27

GUMPERZ, J.J.- BERENZ, N. (1993) “Transcribing Conversational Exchanges”, in EDWARDS, J.A.- LAMPERT, M.D. (Eds) Talking Data: Transcription and Coding in Discourse Research. Hillsdale, N.J.: Lawrence Erlbaum Associates. pp. 91-122

HALLIDAY, M.A.K. (1985) An Introduction to Functional Grammar. London: Edward Arnold, 1993.

HESS, W.- KOHLER, K.- TILLMANN, H.G. (1995) “The PhonDat-Verbmobil Speech Corpus” , in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Speech Technology. Madrid, Spain, 18-21 September, 1995. Vol 1, pp. 863-866

HIERONYMUS, J.L. (1994) ASCII phonetic symbols for the world's languages: Worldbet. AT&T Bell Laboratories, Technical Memo.

HIRST, D. - DI CRISTO, A.- ESPESSER, R. (en prensa) “Levels of representation and levels of analysis for intonation”, in HORNE, M. (Ed.) Prosody: Theory and Experiments. Dordrecht: Kluwer.

HIRST, D.J. (1994) “The symbolic coding of fundamental frequency curves: from acoustics to phonology”, in FUJISAKI, H. (Ed.) Proceedings of International Symposium on Prosody. Satellite Workshop of ICLSP94, Yokohama, September, 1994.

HIRST, D.J. - DI CRISTO, A.- LE BESNERAIS, M.- NAJIM, Z.- NICOLAS, P.- ROMÉAS, P. (1993) “Multilingual modelling of intonation patterns”, in HOUSE, D.- TOUATI, P. (Eds) Proceedings of an ESCA Workshop on Prosody. September 27-29, 1993, Lund, Sweden. Lund University Department of Linguistics and Phonetics, Working Papers 41. pp. 204-207

HIRST, D.J.(1991) “Intonation models: towards a third generation”, in Actes du XIIème Congrès International des Sciences Phonétiques, 19-24 août 1991, Aix-en-Provence, France. Aix-en-Provence, Université de Provence, Service des Publications, Vol 1 pp. 305-310

HIRST, D.J.- DI CRISTO, A. (en prensa) “A survey of intonation systems” in HIRST, D. - DI CRISTO, A. (Eds.) Intonation Systems. A Survey of 20 Languages. Cambridge: Cambridge University Press.

HIRST, D.J.- IDE, N. - VÉRONIS, J. (1994) “Coding fundamental frequency patterns for multi-lingual synthesis with INTSINT in the MULTEXT project”, in Conference Proceedings of the Second ESCA/IEEE Workshop on Speech Synthesis. September 12-15, 1994. Mohonk Mountain House, New Paltz, New York, USA. pp. 77-80

IDE, N.- VÉRONIS, J. (Eds.) (1995) The Text Encoding Initiative: Background and Contexts. Computers and the Humanities 29, 1-3. Publicado en forma de libro en: Dordrecht: Kluwer Academic Publishers.

INSTITUTO CERVANTES (1996) Informe sobre recursos lingüísticos para el español (II): Corpus escritos y orales disponibles y en desarrollo en España. Alcalá de Henares: Observatorio Español de Industrias de la lengua, Instituto Cervantes.

IPA (1989) “The IPA 1989 Kiel Convention Workgroup 9 report: Computer Coding of IPA symbols and Computer Representation of Individual Languages”, Journal of the International Phonetic Association 19,2: 81-92

IPA (1993) “IPA Chart, revised to 1993”, Journal of the International Phonetic Association 23,1. URL: http://www.langsci.ucl.ac.uk/ipa/ipachart.html

IPA (1995) Preview of the IPA Handbook, Journal of the International Phonetic Association 25,1.

ISO 8879 (1986) Information Processing. Text and Office Systems. Standard Generalized Markup Language (SGML). Geneva: International Organization for Standardization.

JOHANSSON, S. (1995a) “The approach of the Text Encoding Initiative to the encoding of spoken discourse”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds.) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 82-98

JOHANSSON, S. (1995b) “The Encoding of Spoken Texts”, Computers and the Humanities 29,1: 149-158; in IDE, N.- VÉRONIS, J. (Eds) (1995) The Text Encoding Initiative. Background and Context. Dordrecht: Kluwer Academic Publishers. pp. 149-158.

KEATING, P.- MacEACHERN, P.- SHRYOCK, A.- DOMÍNGUEZ, S. (1994) “A manual for phonetic transcription: Segmentation and labelling of words in spontaneous speech”, UCLA Working Papers in Phonetics 88: 91-120.

KLUGER-KRUSE, M. (1987) Computer Phonetic Alphabet. ESPRIT Linguistic Analysis of the European Languages. Report BU-CPA0267, July, 1987.

LANDER, T. (1997) The CSLU Labeling Guide. Center for Spoken Language Understanding, Oregon Graduate Institute.

LEHISTE, I. (1979) “Perception of Sentence and Paragraph Boundaries”, in LINDBLOM, B. - ÖHMAN, S. (Eds.) (1979) Frontiers of Speech Communication Research. London: Academic Press. pp. 191-201.

LEÓN HURTADO, L. (1994) “Transcripción fonética asistida por ordenador”, in ALVAR EZQUERRA, M.- VILLENA PONSODA, J.A. (Coord.) Estudios para un corpus del español. Málaga: Universidad de Málaga. pp. 145-185

LEÓN HURTADO, L.- SÁNCHEZ SÁEZ, J.M. (1996) “Bases para el diseño de un transcriptor fonético a partir de textos orales transliterados”, in LUQUE DURÁN, J. de D.- PAMIES BERTRÁN, A. (Eds.) Actas del Primer Simposio de Historiografía Lingüística. Granada, 1996. Granada: Método Ediciones. pp. 113-122.

LÉON, P.- MARTIN, P. (1970) Prolegomènes à l'étude des structures intonatives. Montréal: Didier (Studia Phonetica 2).

LLISTERRI, J. (1994) Prosody Encoding Survey. WP 1 Specifications and Standards. T1.5. Markup Specifications. Deliverable 1.5.3. Final version, 15 September 1994. LRE Project 62-050 MULTEXT. URL: http://aune.lpl.univ-aix.fr/projects/multext/CES/CES1.html

LLISTERRI, J. (Ed.) (1996) Prosody Tools Efficiency and Failures. WP 4 Corpus. T4.6 Speech Markup and Validation. Deliverable 4.5.2. Final version. 15 October 1996. LRE Project 62-050 MULTEXT.

MacWHINNEY, B. (1991) The CHILDES Project: Tools for Analyzing Talk. Hillsdale, N.J.: Lawrence Erlbaum.

MARCHAL, A.- NGUYEN, N.- HARDCASTLE, W. (1995) “Multitiered phonetic approach to speech labelling”, in SORIN, C.- MARIANI, J.- MELONI, H.- SCHOENTGEN, J. (Eds.) Levels in Speech Communication. Relations and Interactions. A Tribute to Max Wajskop / Hommage à Max Wajskop. Amsterdam: Elsevier Science B.V. pp. 149-158

MARCOS MARÍN, F. (1991) “Corpus lingüístico de referencia de la lengua española”, Boletín de la Academia Argentina de Letras 56: 129-155

MARCOS MARÍN, F.- BALLESTER, A.- SANTAMARÍA, C. (1993) “Transcription Conventions used for the Corpus of Spoken Contemporary Spanish”, Literary & Linguistic Computing 8, 4: 283-292

MARCOS MARÍN, F.- ZUMÁRRAGA, V. (1991) “El corpus de referencia de la lengua española”, Razón y Fe 223/1, 109, Marzo 1991: 285-293

MARIÑO, J.B. - LLISTERRI, J. (1993) Spanish adaptation of SAMPA and automatic phonetic transcription. SAM-A/UPC/001/v1 20th April 1993. ESPRIT PROJECT 6819 (SAM-A Speech Technology Assessment in Multilingual Applications).

MARTÍ, J.- NIÑEROLA, D. (1987) “SINCAS: un conversor texto-voz en castellano”, Procesamiento del Lenguaje Natural, Boletín nº 5: 111-122.

MARTÍNEZ, M. - PARDO, J.M.- BORRAJO, A.- SANTOS, A.- BARRIO, C.L.- MUÑOZ, E.- QUILIS, A. (1986) “Conversión automática texto-habla y su relación con el procesamiento del lenguaje natural” in C. MARTÍN VIDE (Ed) Lenguajes naturales y lenguajes formales I. Barcelona: Universitat de Barcelona pp. 366-375.

MORENO, A.- POCH, D.- BONAFONTE, A.- LLEIDA, E.- LLISTERRI, J.- MARIÑO, J.B.- NADEU, C. (1993) “ALBAYZIN Speech Database: Design of the Phonetic Corpus”, in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol. 1 pp. 175-178

NELSON, G. (1995) “The International Corpus of English: mark-up for spoken language”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 220-223

NERC (1994) NERC-1. Network of European Reference Corpora. Final Report. Pisa: Instituto di Linguistica Computazionale - CNR. January 1994; versión en curso de publicación: CALZOLARI, N.- BAKER, M.- KRUYT, P.G. (Eds) Towards a Network of European Reference Corpora. Pisa: Giardini.

NICOLAS, P.- HIRST, D. (1995) “Symbolic coding of Higher-Level Characteristics of Fundamental Frequency Curves”, in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Technology. Madrid, Spain, 18-21 September, 1995. Vol 2, pp. 989-992.

O'CONNELL, D.C.- KOWAL, S. (1994) “Some Current Transcription Systems for Spoken Discourse: A critical Analysis”, Pragmatics 4: 81-107

OCHS, E. (1979) “Transcription as Theory”, in OCHS, E.- SCHIEFFELIN, B.B. (Eds.) (1979) Developmental Pragmatics. New York: Academic Press. pp. 43-72

PARDO, J.M.- ENRÍQUEZ, E.- AGUILERA, S.- SANTOS, A.- QUILIS, A. (1992) “Tecnología del habla para siete idiomas: El proyecto ESPRIT Polyglot-I”, Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural 12

PAYNE, J. (1992) Report on the compatibility of JP French's spoken corpus transcription conventions with the TEI guidelines for transcription of spoken texts. Working paper, COBUILD Birmingham and IDS Mannheim. December 1992, NERC-WP8/WP4-122

PAYNE, J. (1995) “The COBUILD spoken corpus: transcription conventions”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 203-207

PAYRATÓ, L. (1995) “Transcripción del discurso coloquial”, in CORTÉS RODRÍGUEZ, L. (Ed.) El español coloquial. Actas del I Simposio sobre Análisis del Discurso Oral. Almería, 23-25 de noviembre de 1994. Almería: Universidad de Almería, Servicio de Publicaciones. pp. 43-70

PEPPÉ, S. (1995) “The Survey of English Usage and the London-Lund Corpus: computerizing manual prosodic transcription”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp.187-202

PÉREZ GUTIÉRREZ, J.A.- GUERRERO PÉREZ, J.L. (1993) “Transfon: transcriptor fonético para el castellano” in MARTÍN VIDE, C. (Ed) Lenguajes Naturales y Lenguajes Formales IX. Actas del IX Congreso de Lenguajes Naturales y Lenguajes Formales, Reus, 20-22 de diciembre de 1993. Barcelona: PPU. pp. 227-236

PÉREZ, J.C.- VIDAL, E. (1991) “Un sistema de conversión de texto a voz para el castellano”, Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural 11: 197-208.

PIERREHUMBERT, J. B.(1980) The Phonology and Phonetics of English Intonation. PhD Thesis, Department of Linguistics, MIT. Bloomington: Indiana University Linguistics Club, 1987.

PINO, M. (1997) Transcripción, codificación y almacenamiento de los textos orales del corpus CREA. Versión 1.2. Informe interno. Madrid: Instituto de Lexicografía, Real Academia Española.

PITRELLI, J. - BECKMAN, M. - HIRSCHBERG, J. (1994) “Evaluation of prosodic transcription labelling reliability in the ToBI framework”, in Proceedings of the Third International Conference on Spoken Language Processing, Yokohama, ICSLP, Vol. 2. pp. 123-126.

PULLUM, G.K.- LADUSAW, W.A. (1986) Phonetic Symbol Guide. Chicago: The University of Chicago Press. 2nd. edition, 1996.

RFE (1915) “Alfabeto fonético de la RFE”, Revista de Filología Española II: 374-376.

RÍOS MESTRE, A. (1993) “La información lingüística en la transcripción fonética automática del español”, Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural 13: 381-387

RÍOS, A. (1994) “El contenido fónico en el Sistema de Diccionarios Electrónicos del Español”, in LLISTERRI, J.- POCH, D. (Eds.) Actas del XII Congreso Nacional de la Asociación Española de Lingüística Aplicada. Nuevos Horizontes de la Lingüística Aplicada. Barcelona, 20-22 de abril de 1994. pp. 333-340.

ROACH, P.- ROACH, H.- DEW, A.- ROWLANDS, P. (1990) “Phonetic analysis and the automatic segmentation and labeling of speech sounds”, Journal of the International Phonetic Association 20,1: 15-21

RODRÍGUEZ CRESPO, M.A.- ESCALADA SARDINA, J.G.- MACARRÓN LARUMBE, A.- MONZÓN SERRANO, L. (1993) “AMIGO: Un conversor texto-voz para el español”, Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural 13: 389-400

SCHMIDT, M.S. -SCOTT, C.- JACK, M.A. (1993) “Phonetic transcription standards for European names (ONOMASTICA)” in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol. 1 pp. 279-282

SCHUETZE-COBURN, S. (1991) “Units of intonation in discourse: a comparison of acoustic and auditory analysis”, Language and Speech 34,3: 207-234

SELTING, M. (1987) “Descriptive categories for the auditive analysis of intonation in conversation”, Journal of Pragmatics 11: 777-791

SELTING, M. (1988) “The role of intonation in the organisation of repair and problem handling sequences in conversation”, Journal of Pragmatics 12: 293-322.

SENIA, F.- van VELDEN, J.G. (1997) Specifications of orthographic transcription and lexicon conventions. LRE-4001 SpeechDat Technical Report SD1.3.2, Final version, 10 January 1997. URL: http://www.speechdat.org/SpeechDat.html

SILVERMAN, K.- BECKMAN, M.- PITRELLI, J.- OSTENDORF, M.- WIGHTMAN, C.- PRICE, P.- PIERREHUMBERT, J.- HIRSCHBERG, J. (1992) “TOBI: A standard for labelling English prosody”, Proceedings of the Second International Conference on Spoken Language Processing, ICSLP-92. Banff, October 1992. pp. 867-870

SINCLAIR, J. (1994) “Spoken Language” [3B] ,“Phonetic/Phonemic and Prosodic Annotation” [5.2], in NERC (1994) NERC-1 Network of European Reference Corpora, Final Report.Pisa; versión en curso de publicación: CALZOLARI, N.- BAKER, M.- KRUYT, P.G. (Eds.) Towards a Network of European Reference Corpora. Pisa: Giardini.

SINCLAIR, J. (1995) “From theory to practice”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds.) Spoken English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 99- 112

SINCLAIR, J. (Ed.) (1987) Looking Up, An Account of the Cobuild Project. London: Collins.

SPERBERG-McQUEEN, C.M.- BURNARD, L. (Eds) (1994) Guidelines for Electronic Text Encoding and Interchange. TEI P3. Chicago and Oxford: Association for Computational Linguistics / Association for Computers and the Humanities / Association for Literary and Linguistic Computing. [Cap. 11: Transcriptions of Speech] URL: http://etext.lib.virginia.edu/standards/tei/teip4/index.html

STENSTRÖM, A.-B. (1994) An Introduction to Spoken Interaction. London - New York: Longman (Learning about Language).

STRANGERT, E.- HELDNER, M. (1995) “Labelling of boundaries and prominences by phonetically experienced and non-experienced transcribers”, Phonum 3, Reports from the Department of Phonetics, Umeå University: 85-109.

TANNEN, D. (1984) Conversational Style: Analyzing Talk about Friends. Norwood, N.J.: Ablex

TEUBERT, W. (1993) Phonetic / Phonemic and Prosodic Annotation. Final Report, IDS Mannheim. February 1993. NERC-WP8-171

' T HART, J.- COLLIER, R.- COHEN, A. (1990) A Perceptual Study of Intonation. An Experimental - Phonetic Approach to Intonation. Cambridge: Cambridge University Press. (Cambridge Studies in Speech Science and Communication)

TILLMANN, H.G.- POMPINO-MARSCHALL, B. (1993) “Theoretical Principles Concerning Segmentation, Labelling Strategies and Levels of Categorical Annotation for Spoken Language Database Systems”, in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol. 3 pp. 1691-1694

TRANCOSO, I. (1995) “The ONOMASTICA Interlanguage Pronunciation Lexicon”, in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Technology. Madrid, Spain, 18-21 September, 1995. Vol 1, pp. 829-832.

TUSÓN VALLS, A. (1995) Anàlisi de la conversa. Barcelona: Empúries (Biblioteca Universal Empúries, 73)

Van HERWIJNEN, E. (1994) Practical SGML. Boston: Kluwer

VILLENA PONSODA, J.A. (1994) “Pautas y procedimientos de representación del corpus oral de la Universidad de Málaga. Informe preliminar”, in ALVAR EZQUERRA, M.- VILLENA PONSODA, J.A. (Coord) Estudios para un corpus del español. Málaga: Universidad de Málaga. pp. 73-102

WELLS, J.C. (1987) “Computer Coded Phonetic Transcription”, Journal of the International Phonetic Association 17,2: 94-114.

WELLS, J.C. (1989) “Computer-coded phonemic notation of individual languages of the European Community”, Journal of the International Phonetic Association 19,1: 31-54

WELLS, J.C. (1994) “Computer-coding the IPA: a proposed extension of SAMPA”, Speech, Hearing and Language, Work in Progress, 1994 (University College London, Department of Phonetics and Linguistics) 8: 271-289

WELLS, J.C. (1995) SAMPROSA (SAM Prosodic Transcription). URL: http://www.phon.ucl.ac.uk/home/sampa/samprosa.htm

WELLS, J.C.- BARRY, W.- GRICE, M.- FOURCIN, A.- GIBBON, D. (1992) Standard Computer-Compatible Transcription. SAM Stage Report Sen.3 SAM UCL-037, 28 February 1992. In SAM (1992) ESPRIT PROJECT 2589 (SAM) Multilingual Speech Input/Output Assessment,Methodology and Standardisation. Final Report. Year Three: 1.III.91-28.II.1992. London: University College London.

WESENICK, M.-B.- SCHIEL, F. (1995) Feasibility of Automatic Annotation and Building Pronunciation Lexica from Corpus Material. LRE-63314 SpeechDat, Report D3.1.2.3., Final version, 10 October 1995. URL: http://www.speechdat.org/

WINSKI, R. - MOORE, R.- GIBBON, D. (1995) “EAGLES Spoken Language Working Group: Overview and Results”, in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Speech Technology. Madrid, Spain, 18-21 September, 1995. Vol 1, pp. 841-844.


Etiquetado, transcripción y codificación de corpus orales
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim/publicacions/FDS97.html
Last updated: 15/07/97

Creative Commons License
This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.