La constitución de corpus orales
Etapas en la constitución de un corpus oral
Las características
lingüísticas
La adquisición de los datos
La representación de los datos
Planificación del proyecto
- Definición de objetivos.
- Definición de tareas.
- Evaluación de materiales existentes.
- Evaluación de estándares existentes.
- Recursos humanos.
- Recursos técnicos.
- Recursos económicos.
- Planificación temporal.

Diseño
- Definición del material lingüístico.
- Definición de los locutores.
- Definición del entorno y del procedimiento de recogida de datos.
- Definición de los criterios y niveles de transcripción y anotación.
Estándares en corpus orales

Recogida de los datos
- Entorno de recogida de datos.
- Estándares de grabación.
- Procedimiento de búsqueda de locutores.

Procesamiento de los datos
- Transcripción.
- Codificación.
- Segmentación.
- Etiquetado.
- Alineación.

Organización de los datos
- Formato de los ficheros.
- Formato de las cabeceras.
- Tipos de etiquetas utilizadas.
- Procedimiento de consulta.
- Soporte físico.

Documentación

Validación

Producción

Distribución
- Cuestiones técnicas.
- Condiciones comerciales.
- Consentimiento de los informantes.
- Centros de distribución de recursos lingüísticos.
ELDA, Evaluations and Language resources Distribution Agency, Paris, France, EU
LDC, Linguistic Data Consortium, University of Pennsylvania, Philadelphia, PA, USA

Mantenimiento y actualización

El corpus de trabajo
Diseño y
constitución de corpus orales
El corpus de trabajo

Los informantes
Los informantes
Los datos y su
adquisición
Los datos de un corpus oral
- Señal sonora.
- Registros articulatorios.
- Imágenes.
- Transcripción ortográfica y
fonética de la señal.
El procedimiento de recogida de
datos
La obtención del corpus
Diseño y
constitución de corpus orales
El entorno de adquisición
La grabación del corpus
La grabación

Tipos de representación de un
corpus oral
Representaciones discretas o representaciones continuas del contenido del corpus.
Representaciones variables o representaciones invariables del contenido del corpus.
| Discreta |
Continua |
Variable |
Invariable |
Representación ortográfica
Transcripción fonética |
Señal sonora |
Señal sonora
Transcripción fonética |
Representación ortográfica |

Niveles de
representación, transcripción, etiquetado y codificación
- Los niveles de representación de los datos
dependen de los objetivos del corpus.
- Análisis del discurso oral:
nivel de representación ortográfica, nivel de
representación prosódica.
- Estudio de la sintaxis de la
lengua oral: representación de los datos que
contenga información sintáctica.
- Corpus para el estudio
fonético: representación fonética,
caracterización de los datos mediante
parámetros acústicos o
articulatorios.
Niveles de etiquetado
La transcripción
- Primer nivel de
representación de un corpus oral.
"un procedimiento de traslado o transposición a
una forma gráfica (escrita) de una producción
(lingüística, discursiva) originariamente oral"
Payrató, L. (1995). Transcripción del discurso coloquial. En L. Cortés (Ed.), El español coloquial. Actas del I simposio sobre análisis del discurso oral. Almería, 23-25 de noviembre de 1994. (pp. 43-70). Almería: Servicio de Publicaciones de la Universidad de Almería.
Niveles de representación fonética
Representación fonética de corpus orales
Transcripción y codificación de corpus orales
Enriquecimiento del
corpus mediante información adicional
introducida por el investigador en función de sus
objetivos y de su interpretación lingüística de
los datos.
- Para cada nivel de
representación se establece un conjunto de
"etiquetas" que se asocian a unidades de
análisis del corpus.
- Etiquetado fonético: refleja las
características articulatorias o acústicas de los
sonidos del habla. Requiere el acceso a la onda sonora.
- Etiquetado fonológico: refleja los sonidos del habla que son distintivos en una lengua determinada.
- Etiquetado prosódico: incorpora información sobre los elementos suprasegmentales.
- Etiquetado morfosintáctico (POS: part of speech tagging):
refleja las propiedades morfológicas y léxicas
de las palabras.
- Etiquetado sintáctico (parsing): expresa la estructura de constituyentes de los enunciados.
- Corpus etiquetados sintácticamente: treebanks.
- Etiquetado semántico:
incorpora información sobre el significado léxico.
- Etiquetado pragmático:
refleja información de naturaleza pragmática (actos de habla, intencionalidad,...).
- Necesidad de establecer un
inventario de etiquetas (tag set), en algunos casos
adaptado a corpus multilingües.
- Alineación (alignment).
La señal sonora se sincroniza temporalmente con la transcripción ortográfica
y con la transcripción fonética, fonológica o prosódica.
Etiquetado de alófonos y de difonemas en “el año”, realizado con el programa Praat
Etiquetado de corpus orales
La codificación
- Sistema o esquema de
codificación.
- Fenómenos representados en los
diferentes niveles del corpus.
- Etiquetas correspondientes a los
fenómenos adoptados.
- Utilidad de la codificación:
- Herramienta que dota al corpus de
una estructura
- Permite mantener una distinción
entre los datos y su forma de
representación.
Transcripción y codificación de corpus orales

La constitución de los corpus orales
Joaquim Llisterri, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim/language_resources/spoken_res/Const_corp_oral.html
Last modified: 17/11/11 13:48
This
work is licensed under a
Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.