La representación ortográfica de corpus orales


La representación ortográfica

Transcripción utilizando la ortografía convencional de los enunciados producidos por los hablantes: transliteración.

Nivel de representación común a todo tipo de corpus orales.

Problemas:

El empleo de los signos de puntuación:

La transcripción ortográfica del habla espontánea:

arrow_up_gray

Propuestas en el ámbito de la lingüística de corpus

La propuesta del NERC (Network of European Reference Corpora)

Baker, M., Calzolari, N. y Kruyt, J. G. (Eds). (1995). Towards a network of European reference corpora. Report of the NERC consortium feasibility study. Pisa: Giardini.

Convenciones desarrolladas por French (1991, 1992) utilizadas en la constitución de la parte oral del corpus COBUILD.

French, J. P. (1991). Updated notes for soundprint transcribers. Working paper. NERC-WP4-47. Birmingham: University of Birmingham.

French, J. P. (1992). Transcription proposals: Multilevel system. Working paper. NERC-WP4-50. Birmingham: University of Birmingham.

La propuesta del Grupo de Trabajo de Textos Orales de EAGLES (Expert Advisory Group on Language Engineering Standards)

Recoge recoge las sugerencias de NERC (Network of European Reference Corpora) y algunas de las ideas desarrolladas en el ámbito de las tecnologías del habla.

Llisterri, J. (1996). Preliminary recommendations on spoken texts. EAGLES Documents EAG-TCWG-STP/P. May 1996. Consultado en http://www.ilc.cnr.it/EAGLES96/spokentx/spokentx.html

arrow_up_gray

Propuestas en el ámbito de las tecnologías del habla

La propuesta de SpeechDat

LRE-63314 SpeechDat , Infrastructure for Spoken Language Resources

LE2-4001 SpeechDat II, Speech Databases for the Creation of Voice Driven Teleservices

Creación de recursos lingüísticos especialmente adecuados al entrenamiento y evaluación de sistemas de reconocimiento automático del habla.

Dos recomendaciones básicas: Keep it simple y Document everything adequately.

“The transcription is intended to be an ORTHOGRAPHIC, lexical transcription with a few details included that represent audible acoustic events (speech and non speech) present in the corresponding waveform files. The extra marks contained in the transcription aid in interpreting the text form of the utterance. (. . .) The transcription is intended to be a quick and broad transcription. Transcribers should not have to agonise over decisions, but rather realise that their transcription is intended to be a rough guide that others may examine further for details.”

Senia, F. y van Velden, J. G. (1997). Specification of orthographic transcription and lexicon conventions. LRE-4001 SpeechDat Technical Report SD1.3.2. Final version, 10 January 1997. Consultado en http://www.speechdat.org/speechdat/deliverables/public/SD132V24.PDF

La propuesta del Grupo de Trabajo de Lengua Oral de EAGLES (Expert Advisory Group on Language Engineering Standards)

Gibbon, D., Moore, R. y Winski, R. (Eds). (1998). Spoken language system and corpus design. Berlin - New York: Mouton de Gruyer.

arrow_up_gray

La transcripción ortográfica de corpus orales en español

La propuesta del CREA, Corpus de Referencia del Español Actual

Pino, M. (1998). Transcripción, codificación y almacenamiento de los textos orales del corpus CREA. Versión 2.0. Instituto de Lexicografía, Real Academia Española. 29/07/1997. En J. A. Samper, C. E. Hernández Cabrera y M. Troya (Eds.), Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico (MC-NLCH). [CD-ROM] Las Palmas de Gran Canaria: Servicio de Publicaciones de la Universidad de Las Palmas de Gran Canaria.

Pino, M. y Sánchez, M. (1999). El subcorpus oral del banco de datos CREA-CORDE (Real Academia Española): Procedimientos de transcripción y codificación. Oralia. Análisis del Discurso Oral, 2, 83-138.

arrow_up_gray

La representación ortográfica de corpus orales
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim/language_resources/spoken_res/Repres_ortog_corp_oral.html
Last updated: 24/2/14 21:12

Creative Commons License
This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.