line_red

La representación ortográfica de corpus orales

line_red

La representación ortográfica

Transcripción utilizando la ortografía convencional de los enunciados producidos por los hablantes: transliteración

Nivel de representación común a todo tipo de corpus orales

Problemas

El empleo de los signos de puntuación

La transcripción ortográfica del habla espontánea

Propuestas en el ámbito de la lingüística de corpus

La propuesta del NERC (Network of European Reference Corpora)

CALZOLARI, N.- BAKER, M.- KRUYT, J.G. (Eds.) (1995) Towards a Network of European Reference Corpora. Pisa: Giardini Editori (Linguistica Computazionale, XI).

Convenciones desarrolladas por French (1991, 1992) utilizadas en la constitución de la parte oral del corpus COBUILD.

FRENCH, J.P. (1991) Updated notes for soundprint transcribers. Working paper, University of Birmingham, October 1991, NERC-WP4-47.

FRENCH, J.P. (1992) Transcription proposals: multilevel system. Working paper, University of Birmingham, October 1992. NERC-WP4-50.

La propuesta del Grupo de Trabajo de Textos Orales de EAGLES (Expert Advisory Group on Language Engineering Standards)

Recoge recoge las sugerencias de NERC y algunas de las ideas desarrolladas en el ámbito de las tecnologías del habla

LLISTERRI, J. (1996) Preliminary Recommendations on Spoken Texts. EAGLES Document EAG-TCWG-STP/P, May 1996.

Propuestas en el ámbito de las tecnologías del habla

La propuesta de SpeechDat

LRE-63314 SpeechDat , Infrastructure for Spoken Language Resources

LE2-4001 SpeechDat II, Speech Databases for the Creation of Voice Driven Teleservices

Creación de recursos lingüísticos especialmente adecuados al entrenamiento y evaluación de sistemas de reconocimiento automático del habla

Dos recomendaciones básicas: "Keep it simple" y "Document everything adequately"

"The transcription is intended to be an ORTHOGRAPHIC, lexical transcription with a few details included that represent audible acoustic events (speech and non speech) present in the corresponding waveform files. The extra marks contained in the transcription aid in interpreting the text form of the utterance. [...] The transcription is intended to be a quick and broad transcription. Transcribers should not have to agonise over decisions, but rather realise that their transcription is intended to be a rough guide that others may examine further for details."

SENIA, F.- van VELDEN, J.G. (1997) Specifications of orthographic transcription and lexicon conventions. LRE-4001 SpeechDat Technical Report SD1.3.2, Final version, 10 January 1997.

La propuesta del Grupo de Trabajo de Lengua Oral de EAGLES (Expert Advisory Group on Language Engineering Standards)

GIBBON, D. - MOORE, R.- WINSKI, R. (Eds.) (1998) Spoken Language Systems and Corpus Design. Berlin: Mouton De Gruyter. (Handbook of Standards and Resources for Spoken Language Systems, Volume I).

La transcripción ortográfica de corpus orales en español

La propuesta del CREA, Corpus de Referencia del Español Actual

PINO, M. (1997) Transcripción, codificación y almacenamiento de los textos orales del corpus CREA. Versión 2.0. Instituto de Lexicografía, Real Academia Española. En: Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico (MC-NLCH). Preparado por José Antonio Samper Padilla, Clara Eugenia Hernández Cabrera y Magnolia Troya Déniz. Edición en CD-ROM. Las Palmas de Gran Canaria: Servicio de Publicaciones de la Universidad de Las Palmas de Gran Canaria, 1998.

PINO, M.- SÁNCHEZ, M. (1999) "El subcorpus oral del banco de datos CREA-CORDE (Real Academia Española): Procedimientos de transcripción y codificación", Oralia. Análisis del discurso oral 2: 83-138.

line_red

La representación ortográfica de corpus orales
Joaquim Llisterri, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim/language_resources/spoken_res/Repres_ortog_corp_oral.html
Last modified: 26/10/08 23:33

Creative Commons License
This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.

line_red