Corpus de lengua oral en español


CORLEC, Corpus Oral de Referencia del Español Contemporáneo
Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico
Subcorpus Oral del Corpus de Referencia del Español Actual (CREA)
Corpus de conversación coloquial - Grupo Val.Es.Co
C-ORAL-ROM, Corpus integrado de referencia en lenguas romances
PRESEEA, Proyecto para el Estudio Sociolingüístico del Español del España y de América

Corpus orales y corpus de lengua oral en español


CORLEC, Corpus Oral de Referencia del Español Contemporáneo

Laboratorio de Lingüística Informática, Departamento de Lingüística, Lenguas Modernas, Lógica y Filosofía de la Ciencia, Universidad Autónoma de Madrid
http://www.lllf.uam.es/ESP/Corlec.html

Contenidos

Información y descripción del corpus

Fenómenos codificados

Información y descripción del corpus

Información contenida en la cabecera

Información y descripción del corpus

Referencias

Disponibilidad:
Laboratorio de Lingüística Informática, Departamento de Lingüística, Lenguas Modernas, Lógica y Filolofía de la Ciencia, Universidad Autónoma de Madrid
http://www.lllf.uam.es/ESP/Corlec.html

arrow_up_gray

Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico

Samper, J. A., Hernández Cabrera, C. E., y Troya, M. (Eds.). (1998). Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico (MC-NLCH). Edición en CD-ROM. Las Palmas de Gran Canaria: Servicio de Publicaciones de la Universidad de las Palmas de Gran Canaria.

Contenidos

Formato de los textos y estándares de codificación

Referencias

Disponibilidad:
Servicio de Publicaciones de la Universidad de Las Palmas de Gran Canaria
Alfonso XIII, 2, 35003 Las Palmas de Gran Canaria.

arrow_up_gray

Subcorpus Oral del Corpus de Referencia del Español Actual (CREA)

Real Academia Española. (s. f.). Corpus de Referencia del Español Actual (CREA). Madrid: Real Academia Española. Consultado en http://www.rae.es/recursos/banco-de-datos/crea

Contenidos

Formato de los textos y estándares de codificación

Pino, M. (1998). Transcripción, codificación y almacenamiento de los textos orales del corpus CREA. Versión 2.0. Instituto de Lexicografía, Real Academia Española. 29/07/1997. En J. A. Samper Padilla, C. E. Hernández Cabrera, & M. Troya Déniz (Eds.), Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico (MC-NLCH). [CD-ROM] Las Palmas de Gran Canaria: Servicio de Publicaciones de la Universidad de Las Palmas de Gran Canaria.

Pino, M. y Sánchez, M. (1999). El subcorpus oral del banco de datos CREA-CORDE (Real Academia Española): Procedimientos de transcripción y codificación. Oralia. Análisis del Discurso Oral, 2, 83-138.

Fenómenos codificados

<div>

Cada entrevista o conversación constituye una unidad <div>

Se indica el nivel jerárquico (<div1>, <div2>, <div3>, ... <div8>) si se encuentran entrevistas o conversaciones dentro de entrevistas o conversaciones más amplias.

<s>

Secuencia separada del resto del texto por un punto, exclamación o interrogación.


<u>

Segmento precedido y/o seguido de un cambio de hablante.

Atributo who: código identificador del participante.


<u>

Atributo trans

smooth cuando <u> empieza con una pausa normal.

overlap cuando <u> empieza antes de que la anterior haya finalizado.


<pause>


<event>

Atributo desc: describe el tipo de evento del que se trata.


<kinesic>

Atributo desc: describe el tipo de gesto del que se trata.


<vocal>

Atributo type: recoge la transcripción del fenómeno vocal:

tos, respiración, estornudo, risa

aha, tch tch, e..., risa

Atributo desc: describe la intención comunicativa del fenómeno vocal:

asentimiento, negación


<q>

Atributo rend: indica el tipo de resalte empleado en la transcripción.


<writing>


<foreign>

Atributo lang: especifica la lengua según el código ISO 639.


<num>


<distinct>

Atributo type

dele


<abbr>

Atributo type: especifica el tipo de abreviatura:

normal

acronym


<hi>

Atributo rend: especifica el tipo de resalte:

cdob: comillas dobles.

curs: cursiva.

mayu: mayúscula.


<unclear>

Atributo cert: recoge el grado de certeza.

unclear: fragmento poco claro, que se reproduce de la manera más ajustada posible.

unintelligible: fragmento ininteligible, que no se reproduce.


<sic>

<distinct>

Atributo type

titu: palabra fragmentaria por titubeo.

repe: palabra repetida por titubeo.


Información contenida en la cabecera

Referencias

Disponibilidad:
Consulta a través de Internet en las páginas de la Real Academia Española
http://www.rae.es/recursos/banco-de-datos/crea

arrow_up_gray

Corpus de conversación coloquial - Grupo Val.Es.Co

Grupo Val.Es.Co (Valencia Español Coloquial), Departamento de Filología Española, Universidad de Valencia - Universidad de Alicante
http://www.valesco.es/

Contenidos

Muestra del corpus

Fuente: http://www.valesco.es/?q=es/node/84

Fenómenos codificados

Sistema de transcripción

Referencias

Disponibilidad:

Briz, A. (Ed). (1995). La conversación coloquial (materiales para su estudio) [Cuadernos de Filología, Anejo XVI]. València: Facutat de Filologia, Departament de Filologia Espanyola, Universitat de València.

Briz, A. (Ed). (2000). Corpus de conversaciones coloquiales [Anejo 1 de Oralia]. Madrid: Arco/Libros.

arrow_up_gray

C-ORAL-ROM, Corpus integrado de referencia en lenguas romances

LABLITA, Laboratorio Linguistico, Dipartimento di Italianistica, Università di Firenze
http://lablita.dit.unifi.it/coralrom/

Laboratorio de Lingüística Informática, Departamento de Lingüística, Lenguas Modernas, Lógica y Filosofía de la Ciencia, Universidad Autónoma de Madrid
http://www.lllf.uam.es/ESP/Coralrom.html

Contenidos

Muestras del corpus

Formato de los textos y estándares de codificación

Fenómenos codificados

Referencias

Disponibilidad:

Cresti, E. y Moneglia, M. (Eds). (2005). C-ORAL-ROM. Integrated reference corpora for spoken romance languages. Amsterdam: John Benjamins.

arrow_up_gray

PRESEEA, Proyecto para el Estudio Sociolingüístico del Español del España y de América

Preseea.gif

Coordinación: Departamento de Filología, Universidad de Alcalá de Henares
http://preseea.linguas.net

Contenidos

Archivo sonoro de muestra

Fuente: http://preseea.linguas.net

Fenómenos codificados

<(hh)><(m:)><(ts)><(e:)><(pf)>

<ininteligible> </ininteligible>

<interrupción de la grabación>

<silencio>

Pausa larga; incluye lo que en pragmática se identifica como “lapso” y como “silencio”.

<risas=R/todos>

<ruido>

<simultáneo></simultáneo>

<suspensión voluntaria>

<palabra cortada>

<corrección>

<vacilación>: repetición de palabra.

<expresivo></expresivo>: admiración, exclamación.

<interrogativo></interrogativo>

<estilo directo></estilo directo>

PRESEEA. (2009). Marcas y etiquetas mínimas obligatorias [Versión 1.2] (Versión 1.2). Consultado en http://preseea.linguas.net

Referencias

Disponibilidad:
Muestras de los materiales en
http://preseea.linguas.net

arrow_up_gray

Corpus de lengua oral en español

Corpus orales y corpus de lengua oral en español


Corpus de lengua oral en español
Joaquim Llisterri, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim/language_resources/spoken_res/Corp_leng_oral_esp.html
Last updated: 25/5/14 21:29

Creative Commons License
This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.