La representación ortográfica de corpus orales
Transcripción utilizando la
ortografía convencional de los enunciados producidos por los hablantes: transliteración
Nivel de representación
común a todo tipo
de corpus orales
Problemas
El empleo de los signos
de puntuación
- La introducción de puntuación en
transcripciones de habla
espontánea implica necesariamente
una segmentación
del enunciado que, en algunos casos, puede estar
sujeta a la
interpretación
del transcriptor
- Eliminación de los signos de puntuación: disminuye notablemente la legibilidad del texto
- Empleo de los signos de puntuación según las normas
habituales de cada lengua
La transcripción ortográfica del habla espontánea
- Formas no normativas
- Variantes geográficas
- Números, siglas, acrónimos y abreviaturas
- Interjecciones y formas semi-léxicas
- Disfluencias
CALZOLARI, N.- BAKER, M.- KRUYT, J.G. (Eds.) (1995) Towards a Network of European Reference Corpora. Pisa: Giardini Editori (Linguistica Computazionale, XI).
Convenciones desarrolladas
por French (1991, 1992) utilizadas en
la constitución
de la parte oral del corpus COBUILD.
FRENCH, J.P. (1991) Updated notes for soundprint transcribers. Working paper, University of Birmingham, October 1991, NERC-WP4-47.
FRENCH, J.P. (1992) Transcription proposals: multilevel system. Working paper, University of Birmingham, October 1992. NERC-WP4-50.
- Se emplea la ortografía convencional para la representación de las palabras
- Las únicas contracciones aceptadas son las que aparecen en el Oxford English Dictionary
- La separación entre frases se marca mediante un punto y el uso de mayúscula al inicio de la frase
- En el interior de las frases no se utilizan comas
- Las citas se marcan entre comillas simples
- El apóstrofe se usa en los posesivos y en las contracciones según las convenciones habituales del inglés
Recoge recoge las sugerencias de NERC y algunas de las ideas desarrolladas en el ámbito de las tecnologías del habla
LLISTERRI, J. (1996) Preliminary Recommendations on Spoken Texts. EAGLES Document EAG-TCWG-STP/P, May 1996.
- Se recomienda utilizar siempre que sea posible
las formas
ortográficas
que aparecen en los diccionarios normativos o
estándares para cada
lengua, convención que se aplica
también a contracciones,
formas reducidas, apóstrofes, formas
dialectales, interjecciones
y formas semi-léxicas.
- Si puede darse más de una forma
ortográfica de la misma
palabra
o si se introducen representaciones
ortográficas que no aparecen
en los diccionarios, es recomendable mantener una
base de datos con las
formas utilizadas en la transcripción.
- Los números, las abreviaturas, los
acrónimos y las palabras
deletreadas deben representarse
ortográficamente tal como son
pronunciadas
por el hablante, utilizando la forma
ortográfica completa.
LRE-63314 SpeechDat , Infrastructure for Spoken
Language Resources
LE2-4001 SpeechDat II, Speech Databases
for the Creation of Voice Driven
Teleservices
Creación de recursos
lingüísticos
especialmente adecuados al entrenamiento y
evaluación de sistemas
de reconocimiento automático del habla
Dos recomendaciones básicas: "Keep it simple" y
"Document everything
adequately"
"The transcription is intended to be an ORTHOGRAPHIC, lexical transcription with a
few details included that represent audible acoustic events (speech and non speech)
present in the corresponding waveform files. The extra marks contained in the
transcription aid in interpreting the text form of the utterance. [...]
The transcription is intended to be a quick and broad transcription. Transcribers
should not have to agonise over decisions, but rather realise that their transcription is
intended to be a rough guide that others may examine further for details."
SENIA, F.- van VELDEN, J.G. (1997) Specifications of orthographic transcription and lexicon conventions. LRE-4001 SpeechDat Technical Report SD1.3.2, Final version, 10 January 1997.
- Empleo de las formas ortográficas habituales
- Selección de un diccionario para cada lengua y creación de un léxico con las representaciones ortográficas de las palabras y con las representaciones alternativas si existe más de una forma aceptable para una determinada palabra
- Las abreviaturas se transcriben como formas deletreadas completas a no ser que el locutor las haya pronunciado de otro modo
- Las secuencias de números se transcriben en la forma en que fueron pronunciadas por el informante
- Las formas deletreadas se transcriben con mayúsculas y separadas por un espacio
- No se incluyen signos de
puntuación en la transcripción
- Procedimientos para la
transcripción de errores de
pronunciación, de palabras ininteligibles,
fragmentos de palabras,
elisiones y acontecimientos acústicos no
verbales como las
denominadas
pausas llenas, ruidos producidos por el
hablantes, ruidos estacionarios
en la grabación o ruidos intermitentes
GIBBON, D. - MOORE, R.- WINSKI, R. (Eds.) (1998) Spoken Language Systems and Corpus Design. Berlin: Mouton De Gruyter. (Handbook of Standards and Resources for Spoken Language Systems, Volume I).
-
Las formas reducidas de las palabras se
transcriben tal como aparecen en
los diccionarios normativos.
-
Si es necesario, y si se documentan
adecuadamente, pueden utilizarse formas
que no aparezcan en los diccionarios.
-
Se recomienda el uso de formas reducidas si
aparecen frecuentemente y si
implican elisiones de sílabas.
-
Las formas dialectales se marcan en la
transcripción.
-
Los números se transliteran como
palabras.
-
En la transcripción ortográfica se
utilizan las formas
completas
de las abreviaturas.
-
Las abreviaturas que los hablantes pronuncian
como palabras se transcriben
de este mismo modo.
-
En las transcripciones se indica la
aparición de palabras
deletreadas.
-
Las interjecciones se transcriben con la
representación
ortográfica
que aparece en los diccionarios.
PINO, M. (1997) Transcripción, codificación y almacenamiento de los textos orales del corpus CREA. Versión 2.0. Instituto de Lexicografía, Real Academia Española. En: Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico (MC-NLCH). Preparado por José Antonio Samper Padilla, Clara Eugenia Hernández Cabrera y Magnolia Troya Déniz. Edición en CD-ROM. Las Palmas de Gran Canaria: Servicio de Publicaciones de la Universidad de Las Palmas de Gran Canaria, 1998.
PINO, M.- SÁNCHEZ, M. (1999) "El subcorpus oral del banco de datos CREA-CORDE (Real Academia Española): Procedimientos de transcripción y codificación", Oralia. Análisis del discurso oral 2: 83-138.
- La representación ortográfica debe hacerse de acuerdo con las convenciones ortográficas normativas del español
- Las formas reducidas de una palabra pueden transcribirse sin modificación, siempre que sean frecuentes e impliquen eliminación de sílabas
- Las abreviaturas y acrónimos se transcriben tal como los pronuncie el hablante. Si éste pronuncia una palabra, se transcribe como tal; si deletrea el acrónimo, se transcribe en forma de palabra cada letra, separándola del resto de letras deletreadas por un guión
- Las secuencias numéricas deben transcribirse también en forma de palabras. Se utiliza el guión como separador para los casos de listas de números. No se emplea el guión, en cambio, en expresiones numéricas pronunciadas según el sistema numérico decimal
- Las interjecciones se representan de acuerdo con la ortografía estándar del Diccionario de la Real Academia Española, pero entre corchetes. Cualquier otra expresión vocal no recogida por el diccionario se transcribe entre corchetes y, si es necesario, con algún otro tipo de signo ortográfico
- Los límites de enunciado "ortográfico" pueden marcarse con un punto, una interrogación o una exclamación. El comienzo de enunciado debe ir indicado con mayúscula inicial. En general, deben seguirse las normas de puntuación normativas, con algunas restricciones:
- No se utiliza el punto y coma
- La coma se utiliza siguiendo, en principio, las normas de puntuación, aunque respetando, a ser posible, las pausas que realice el hablante. Es importante que el texto se pueda leer de manera semejante a como fue pronunciado
- Los dos puntos deben emplearse para marcar el comienzo de discurso directo, citas y algunas enumeraciones (las que vayan precedidas por una pausa). Como norma general, tras los dos puntos se introducirá mayúscula si la secuencia que sigue constituye una cláusula u oración, pero se pondrá minúscula si se trata de una enumeración
- Se emplean tres medios tipográficos de resalte: comillas dobles, cursiva y letras mayúsculas en toda la palabra
- Las comillas dobles se utilizarán para marcar un discurso directo o una cita
- La cursiva servirá para representar los títulos, las palabras extranjeras no adaptadas, los usos metalingüísticos , los nombres de conceptos, las marcas o locales comerciales y cualquier otro tipo de texto que aparezca resaltado, normalmente, en los textos escritos
- La intensidad muy superior a lo normal (más de lo que es habitual en la función informativa de foco, por ejemplo), cercana al grito, en alguna palabra, se marca mayúsculas en todas las letras de la palabra
- Los errores de producción se representan entre asteriscos
- Las rectificaciones del discurso y las pausas que suponen interrupciones bruscas del discurso se marcan por medio de puntos suspensivos
- Los titubeos que dan lugar a palabras repetidas deben transcribirse. Es conveniente dejar espacios en blanco entre las formas repetidas o rectificadas
- Los titubeos que dan lugar a fragmentos de palabras se transcriben por medio de dos asteriscos pegados a la forma incompleta por la derecha
- Los fragmentos ininteligibles se transcriben como tres signos de interrogación de cierre, y los fragmentos poco claros se transcriben con tres signos de interrogación de inicio y tres de cierre

La representación ortográfica de corpus orales
Joaquim Llisterri, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim/language_resources/spoken_res/Repres_ortog_corp_oral.html
Last modified: 26/10/08 23:33
This
work is licensed under a
Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.