Corpus de lengua oral en español
CORLEC, Corpus Oral de Referencia del Español Contemporáneo
Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico
Subcorpus Oral del Corpus de Referencia del Español Actual (CREA)
Corpus de conversación coloquial - Grupo Val.Es.Co
C-ORAL-ROM, Corpus integrado de referencia en lenguas romances
PRESEEA, Proyecto para el Estudio Sociolingüístico del Español del España y de América
Laboratorio de Lingüística
Informática, Departamento de Lingüística, Lenguas
Modernas, Lógica y Filosofía de la Ciencia,
Universidad Autónoma de Madrid
http://www.lllf.uam.es/ESP/Corlec.html
- Administrativos y políticos - 5.6%.
- Científicos - 3.3%.
- Conversacionales o familiares - 24.5%.
- Educativos - 5.3%.
- Humanísticos - 5.6%.
- Instrucciones (megafonía) - 0.6%.
- Jurídicos - 3.2%.
- Lúdicos (concursos, etc.) - 5.6%.
- Periodísticos:
- Debates - 8.5%.
- Deportes - 5.3%.
- Documentales - 2.6%.
- Entrevistas - 15.6%.
- Noticiario - 6.6%.
- Publicitarios - 2.8%.
- Religiosos . 1.1%.
- Técnicos - 3.9%.
Información y descripción del corpus
Información y descripción del corpus
Información y descripción del corpus
Disponibilidad:
Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico (MC-NLCH). Preparado por José Antonio Samper Padilla, Clara Eugenia Hernández Cabrera y Magnolia Troya Déniz. Edición en CD-ROM. Las Palmas de Gran Canaria: Servicio de Publicaciones de la Universidad de Las Palmas de Gran Canaria, 1998.
Recursos Lingüísticos, Banco de Datos, Real Academia Española
http://www.rae.es/
- Análisis de la Conversación de la Universidad de Alcalá de Henares.
- Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico de la Asociación de Lingüística y Filología de América Latina.
- Caracas-77: Estudio sociolingüístico de Caracas, 1977.
- Caracas-87: Estudio sociolingüístico de Caracas, 1987.
- Corpus de Encuestas en Asunción de Paraguay.
- Corpus oral de la variedad juvenil universitaria del español hablado en Alicante.
- Corpus para el estudio del español hablado en Santiago de Compostela.
- Corpus Sociolingüístico de Mérida-Venezuela.
- UAM: Corpus Oral de Referencia del Español Contemporáneo de la Universidad Autónoma de Madrid.
- Material público procedente de Internet.
- Canal comunicativo:
- Radio.
- Televisión.
- Grabación directa.
- Teléfono.
- Otros.
- Procedencia:
- Grabación.
- Texto previamente transcrito.
- Texto previamente transcrito y codificado.
- España: 50%.
- Hispanoamérica: 50%:
- Zona Andina: Venezuela, Colombia, Ecuador, Perú y Bolivia.
- Zona Caribeña: Cuba, Pánama, Puerto Rico, República Dominicana, costas de Venezuela y Colombia y sudeste de Estados Unidos.
- ZonaCentral: Costa Rica y Nicaragua.
- Zona Chilena: Chile.
- Zona Mexicana: Guatemala, Honduras, El Salvador, México y Sudoeste de Estados Unidos.
- Zona Rioplatense: Argentina, Paraguay y Uruguay.
- 1975-1979.
- 1980-1984.
- 1985-1989.
- 1990-1994.
- 1995-1999.
- 2000-2004.
- Textos procedentes de grabaciones de radio y de televisión:
- Noticias.
- Reportajes.
- Entrevistas.
- Debates.
- Tertulias.
- Documentales.
- Retransmisiones deportivas.
- Magacines.
- Revistas deportivas.
- Variedades.
- Sorteos y concursos.
- Otros textos: discursos políticos, conversaciones telefónicas, mensajes en contestadores, diálogos informales, etc..
- Formalidad = alta, Audiencia = interlocutor, Canal = cara a cara.
- Formalidad = alta, Audiencia = interlocutor, Canal = otro.
- Formalidad = alta, Audiencia = oyente pasivo, Canal = cara a cara.
- Formalidad = alta, Audiencia = oyente pasivo, Canal = otro.
- Formalidad = baja, Audiencia = interlocutor, Canal = cara a cara.
- Formalidad = baja, Audiencia = interlocutor, Canal = otro.
- Formalidad = baja, Audiencia = oyente pasivo, Canal = cara a cara.
- Formalidad = baja, Audiencia = oyente pasivo, Canal = otro.
<div>
Cada entrevista o conversación constituye una unidad <div><s>Se indica el nivel jerárquico (<div1>, <div2>, <div3>, ... <div8>) si se encuentran entrevistas o conversaciones dentro de entrevistas o conversaciones más amplias.
Secuencia separada del resto del texto por un punto, exclamación o interrogación.
<u>
Segmento precedido y/o seguido de un cambio de hablante.Atributo who: código identificador del participante.
<u>
Atributo transsmooth cuando <u> empieza con una pausa normal.
overlap cuando <u> empieza antes de que la anterior haya finalizado.
<pause>
<event>
Atributo desc: describe el tipo de evento del que se trata.
<kinesic>
Atributo desc: describe el tipo de gesto del que se trata.
<vocal>
Atributo type: recoge la transcripción del fenómeno vocal:tos, respiración, estornudo, risa
aha, tch tch, e..., risa
Atributo desc: describe la intención comunicativa del fenómeno vocal:
asentimiento, negación
<q>
Atributo rend: indica el tipo de resalte empleado en la transcripción.
<writing>
<foreign>
Atributo lang: especifica la lengua según el código ISO 639.
<num>
<distinct>
Atributo typedele
<abbr>
Atributo type: especifica el tipo de abreviatura:normal
acronym
<hi>
Atributo rend: especifica el tipo de resalte:cdob: comillas dobles.
curs: cursiva.
mayu: mayúscula.
<unclear>
Atributo cert: recoge el grado de certeza.unclear: fragmento poco claro, que se reproduce de la manera más ajustada posible.
unintelligible: fragmento ininteligible, que no se reproduce.
<sic>
<distinct>
Atributo typetitu: palabra fragmentaria por titubeo.
repe: palabra repetida por titubeo.
Pino, M. (1998). Transcripción, codificación y almacenamiento de los textos orales del corpus CREA. Versión 2.0. Instituto de Lexicografía, Real Academia Española. 29/07/1997. En J. A. Samper Padilla, C. E. Hernández Cabrera, & M. Troya Déniz (Eds.), Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico (MC-NLCH). [CD-ROM] Las Palmas de Gran Canaria: Servicio de Publicaciones de la Universidad de Las Palmas de Gran Canaria.
Pino, M. y Sánchez, M. (1999). El subcorpus oral del banco de datos CREA-CORDE (real academia española): Procedimientos de transcripción y codificación. Oralia. Análisis del Discurso Oral, 2, 83-138.
Grupo Val.Es.Co (Valencia Español Coloquial), Departamento de Filología Española, Universidad de Valencia - Universidad de Alicante
http://www.valesco.es/
Fuente: http://www.valesco.es/corpus.wav
Briz, A. (Ed). (1995). La conversación coloquial (materiales para su estudio) [Cuadernos de Filología, Anejo XVI]. València: Facutat de Filologia, Departament de Filologia Espanyola, Universitat de València.
Briz, A. (Ed). (2000). Corpus de conversaciones coloquiales [Anejo 1 de Oralia]. Madrid: Arco/Libros.

LABLITA, Laboratorio Linguistico, Dipartimento di Italianistica, Università di Firenze
http://lablita.dit.unifi.it/coralrom/
Laboratorio de Lingüística
Informática, Departamento de Lingüística, Lenguas
Modernas, Lógica y Filosofía de la Ciencia,
Universidad Autónoma de Madrid
http://www.lllf.uam.es/ESP/Coralrom.html
- Habla informal: 50%.
- Habla formal: 35%.
- Medios de comunicación: 15%.
Cresti, E. y Moneglia, M. (Eds). (2005). C-ORAL-ROM. Integrated reference corpora for spoken romance languages. Amsterdam: John Benjamins.

Coordinación: Departamento de Filología, Universidad de Alcalá de Henares
http://preseea.linguas.net
- Saludos.
- El tiempo.
- Lugar donde vive.
- Familia y amistad.
- Costumbres.
- Peligro de muerte.
- Anécdotas importantes en la vida.
- Deseo de mejora económica.
- Final.
Archivo sonoro de muestra
Fuente: http://preseea.linguas.net
<(hh)><(m:)><(ts)><(e:)><(pf)>
<ininteligible> </ininteligible><interrupción de la grabación>
<silencio>Pausa larga; incluye lo que en pragmática se identifica como “lapso” y como “silencio”.
<risas=R/todos>
<ruido>
<simultáneo></simultáneo><suspensión voluntaria>
<palabra cortada><corrección>
<vacilación>: repetición de palabra.
<expresivo></expresivo>: admiración, exclamación.<interrogativo></interrogativo>
<estilo directo></estilo directo>
PRESEEA. (2009). Marcas y etiquetas mínimas obligatorias [Versión 1.2] (Versión 1.2). Consultado en http://preseea.linguas.net
Disponibilidad:
Corpus de lengua oral en español
Corpus orales y corpus de lengua oral en español
Corpus de lengua oral en español
Joaquim Llisterri,
Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim/language_resources/spoken_res/Corp_leng_oral_esp.html
Last updated: 26/5/13 22:54
This
work is licensed under a
Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.