El corpus de trabajo

Bookmark and Share


La definición del corpus
El corpus
Tipos de corpus
La constitución del corpus
El tamaño del corpus
La noción de variable
Las variables que intervienen en la constitución del corpus
La obtención del corpus
Entrevistas individuales
Tareas específicas
Observación participativa
Entrevistas telefónicas
Pregunta breve y anónima

La constitución del corpus


La definición del corpus

Corpus

Conjunto de realizaciones sonoras de la lengua que serán objeto de estudio.

"Le choix des matériaux qui constituent le corpus sur la réalisation duquel le phoneticien veut travailler est déterminé par le but qu'il se propose"

Debrock, M. (1975). Contribution à la phonétique acoustique du français et du néerlandais. Thèse doctorale, Louvain. [Citado en: Murillo, J. (1981). El umbral de fonologización de los sonidos turbulentos agudos del habla en francés y en español. Tesis doctoral, Facultat de Lletres, Universitat Autònoma de Barcelona. p. IV-12]

La selección del tipo de corpus y de sus características específicas viene condicionada por la hipótesis de trabajo.

Tipos de corpus

Diseņo de corpus de lengua oral

Corpus de habla espontánea

Estrategias para obtener las variantes de pronunciación propias de un registro familiar.

Estrategias para obtener muestras de habla cercanas al estilo que habitualmente usan los informantes.

Los informantes utilizan la lengua tal como lo hacen en su entorno cotidiano al estar cada vez menos pendientes del observador.

"even when interviewed by a stranger, a speaker will settle down to a pattern approximating to his or her everyday interactional style after about the first hour. Speech produced before this period has elapsed tends to show radically different patterns"

Douglas-Cowie, E. (1978). Linguistic code-switching in a Northern Irish village: Social interaction and social ambition. En P. Trudgill (Ed.), Sociolinguistic patterns in British English. (pp. 37-51). London: Edward Arnold.

Ellen Douglas-Cowie

Ellen Douglas-Cowie
(Fuente: http://emotion-research.net/Members/EllenDCowie)

Problemas en la recogida del corpus:

Aplicaciones de un corpus de habla espontánea:

Corpus preparado ad hoc

Tendencia general en los estudios de fonética experimental.

Preparación de corpus especialmente diseñados para el estudio de un fenómeno específico en función de la hipótesis inicial que guía la investigación.

En general, los informantes seleccionados leen o producen el corpus en un entorno que facilite una grabación técnicamente correcta.

Materiales

Logatomos
Palabras sin sentido cuyas características fonológicas corresponden a lo que podría ser una palabra en la lengua que se estudia.

Palabras
Pueden encontrarse palabras que cumplan determinados requisitos fonéticos efectuando búsquedas en diccionarios en formato electrónico o mediante herramientas especializadas.

BuFón, Buscador de patrones fonológicos. Laboratorio de Fonética, Centro de Ciencias Humanas y Sociales, Consejo Superior de Investigaciones Científicas

Frases
Frases cortas en las que se introducen las palabras que contienen los elementos que se desean analizar.

Frase marco o frase portadora (carrier sentence)

"conservar en la medida de lo posible las características del habla espontánea, de los enunciados producidos en situaciones reales de comunicación lingüística"

Murillo, J. (1981). El umbral de fonologización de los sonidos turbulentos agudos del habla en francés y en español. Tesis doctoral, Facultat de Lletres, Universitat Autònoma de Barcelona. pp. IV-12

Julio Murillo

Julio Murillo
(Fuente: Baqué, L., & Estrada, M. (Eds). (2010). La langue et l'être communiquant. Hommage à Julio Murillo. Mons: Éditions du CIPA.)

Secuencia constante a lo largo de todo el corpus, en la cual se incluye, siempre en la misma posición, el elemento que se desea analizar.

Va dir-li "quica" i va sortir
Va dir-li "papa" i va callar
Va dir-li "títol" i va callar
Va dir-li "còctel" i va penjar
Va dir-li "pipa" i va marxar
Va dir-li "coca" i va callar
Va dir-li "pupa" i va plorar

Ventajas de la frase marco
Permite evitar el efecto de serie.

Impide que se produzcan influencias de un elemento del corpus sobre otro debido a la predictibilidad de los elementos.

Variación de los elementos léxicos o de la estructura sintáctica para reducir el efecto de la repetición de enunciados similares.

"Dijo ... y se fue"
"Dijo ... y salió"
"Dijo ... y colgó"

La inserción del elemento analizado en la frase marco permite que éste se integre en un enunciado que mantenga las características de los enunciados naturales de la lengua.

Importancia de la estructura sintáctica.

Justificación en una situación comunicativa real.

"Dijo ... y colgó" permite imaginar el contexto de una conversación telefónica.

"enunciados que podrían haberse pronunciado como frases únicas en una situación de comunicación hablada (es decir, que constituyan producciones sonoras de habla que reúnen las condiciones de "autonomía" y "verosimilitud")"

Murillo, J. (1981). El umbral de fonologización de los sonidos turbulentos agudos del habla en francés y en español. Tesis doctoral, Facultat de Lletres, Universitat Autònoma de Barcelona. pp. IV-18

Julio Murillo

Julio Murillo
(Fuente: Baqué, L., & Estrada, M. (Eds). (2010). La langue et l'être communiquant. Hommage à Julio Murillo. Mons: Éditions du CIPA.)

Mediante la frase marco se respetan:

La frase marco hace que los elementos estudiados adquieran una función metalingüística.

Contexto desprovisto de toda connotación.

Se reduce la posibilidad de que el hablante realice variaciones entonativas asociadas a posibles interpretaciones del enunciado.

Mediante la frase marco se neutralizan:

La frase marco o portadora tiene una doble función:

Frases fonéticamente equilibradas o textos fonéticamente equilibrados
La frecuencia de aparición de cada segmento en el corpus se acerca lo más posible a la frecuencia de aparición de cada segmento en una muestra más amplia de la lengua.

Se requieren datos sobre frecuencia de aparición de los segmentos en la lengua, preferiblemente procedentes de corpus de lengua oral que constituyan una muestra representativa.

Textos fonéticamente equilibrados en español

Frecuencia de aparición de segmentos en español

arrow_up_gray

La constitución del corpus

El tamaño del corpus

Análisis lingüístico de un corpus espontáneo.

"about ten hours will be needed to analyse each hour of recorded data "

Milroy, L. (1987). Observing and analysing natural language. A critical account of sociolinguistic method. Oxford: Basil Blackwell. p. 7

Ann Lesley Milroy

Ann Lesley Milroy

La noción de variable

"an attribute of a person or of an object which "varies" from person to person or from object to object"

Hatch, E. M. y Farhady, H. (1982). Research design and statistics for Applied Linguistics. Rowley, Mass: Newbury House. p. 1

Farhady

Hossein Farhady

En un diseño experimental, una variable es algo que, precisamente, debemos hacer "variar" a fin de averiguar su comportamiento.

Identificación de las variables

Depende de los conocimientos sobre el tema del investigador.

Estudio piloto basado en un corpus y en un número reducido de informantes.

Identificar las variables...

"involves finding evidence that a linguistic unit varies in a systematic way between speakers, or between different speech styles of a single speaker. It also involves identifying linguistic constraints on variation; that is, specifying the manner in which variable elements are embedded in linguistic structure"

Milroy, L. (1987). Observing and analysing natural language. A critical account of sociolinguistic method. Oxford: Basil Blackwell. p. 115

Ann Lesley Milroy

Ann Lesley Milroy

Transcripción fonética del corpus recogido.

Análisis de las variaciones en la realización de un mismo fonema -alófonos- que aparecen condicionadas por:

Variables e hipótesis

Una hipótesis establece la relación entre dos -o más- variables.

Variables libres

Cambiarán en las condiciones que previamente haya decidido el experimentador.

Variables controladas

Se mantendrán constantes a lo largo de todo el estudio.

Hipótesis: la duración de las vocales es menor cuanto mayor es la velocidad de elocución del hablante

Variables libres: duración vocálica y velocidad de elocución

Variables controladas: sonoridad de la consonante adyacente, duración del enunciado, acento

Hipótesis: la duración de las vocales es menor cuando van seguidas por una consonante sorda que cuando van seguidas de una consonante sonora

Variables libres: la consonante que sigue a la vocal

Variables controladas: velocidad de elocución, duración del enunciado, acento

Variables que intervienen en la constitución del corpus

Tres tipos de variables o "condicionamientos":

Murillo, J. (1981). El umbral de fonologización de los sonidos turbulentos agudos del habla en francés y en español. Tesis doctoral, Facultat de Lletres, Universitat Autònoma de Barcelona.

Julio Murillo

Julio Murillo
(Fuente: Baqué, L., & Estrada, M. (Eds). (2010). La langue et l'être communiquant. Hommage à Julio Murillo. Mons: Éditions du CIPA.)

Variables relacionadas con la elocución

Idioma

Variable libre en:

Orden de grabación

Variable que debe ser controlada.

Neutralización del efecto de serie.

Suele deshacerse el orden interno del corpus para efectuar la grabación en un orden aleatorio.

Velocidad de elocución

Caudal, tempo, tempo elocutivo o velocidad de elocución (speech rate).

Suele cuantificarse indicando el número de sonidos que un hablante pronuncia en una determinada unidad de tiempo (sílabas por segundo).

Variables fonéticas

Relacionadas con el contexto en el cual se insertan los sonidos estudiados.

Situación en el conjunto del enunciado

Variable, en general, controlada, a no ser que la hipótesis haga referencia explícita a ella.

Incide en:

"en un grupo fónico con melodía ascendente se observa un incremento de la tensión fonadora en el conjunto de los alófonos que constituyen dicho grupo (muy especialmente en las dos últimas sílabas)"

Murillo, J. (1981). El umbral de fonologización de los sonidos turbulentos agudos del habla en francés y en español. Tesis doctoral, Facultat de Lletres, Universitat Autònoma de Barcelona. p. IV-63

Julio Murillo

Julio Murillo
(Fuente: Baqué, L., & Estrada, M. (Eds). (2010). La langue et l'être communiquant. Hommage à Julio Murillo. Mons: Éditions du CIPA.)

Posición en la sílaba

La posición en la sílaba de un determinado alófono y el tipo de sílaba en el que se encuentre tiene consecuencias sobre sus características.

Incide en las caraterísticas articulatorias y acústicas.

Influye especialmente sobre la duración.

Acento

El acento puede causar variaciones en:

Entorno fonético inmediato

Segmentos que se encuentran antes y después del elemento estudiado.

Influencia mutua entre sonidos adyacentes: coarticulación.

Influye en las características acústicas y articulatorias: duración, intensidad, frecuencia de los formantes.

Variables lingüísticas

Valor funcional

Diferencia entre un segmento que se realiza como parte de un morfema léxico y el que forma parte de un morfema gramatical.

Estructura del enunciado

Las realizaciones del hablante son distintas si el enunciado constituye una frase entera o un fragmento.

La estructura sintáctica condiciona:

Intuición ortológica

Los hablantes de una lengua suelen tender hacia un determinado modelo de pronunciación.

Influencia en el momento de producir un corpus, especialmente cuando el informante sabe será objeto de análisis por parte de un especialista.

Hipercorrección

"a 'misfire' attempt at a prestige pronunciation which speakers have reconstructed by means of a linguistic schema fairly obviously derived by over-generalized analogical reasoning"

Milroy, L. (1987). Observing and analysing natural language. A critical account of sociolinguistic method. Oxford: Basil Blackwell. p. 177

Ann Lesley Milroy

Ann Lesley Milroy

La variación estilística

Coexistencia de un un amplio repertorio de estilos en un mismo hablante.

Estudio de la variación estilística en la lengua oral: William Labov

"styles can be arranged along a single dimension, measured by the amount of attention payed to speech"

Labov, W. (1972). Sociolinguistic patterns. Oxford: Basil Blackwell. p. 208

William Labov

William Labov (1927)

El estilo depende del grado de atención del hablante hacia las características de su propia producción lingüística.

Escala desde el habla más cuidada hasta la más informal.

Labov, W. (1972). The isolation of contextual styles. En Sociolinguistic patterns. (pp. 70-109). Oxford: Basil Blackwell.

William Labov

William Labov (1927)

Conversación formal (careful speech).

Estilo utilizado por los informantes cuando contestan a las preguntas de un entrevistador que, en los estudios de Labov, tienen por tema la propia forma de hablar del entrevistado.

Conversación informal (casual speech)

"the everyday speech used in informal situations, where no attention is directed to language"

Labov, W. (1972). The isolation of contextual styles. En Sociolinguistic patterns. (pp. 70-109). Oxford: Basil Blackwell.

William Labov

William Labov (1927)

Inhibido por la presencia del experimentador.

Puede obtenerse fuera del contexto de la entrevista o mediante preguntas que despierten la emotividad del hablante.

La adaptación al interlocutor

Desde el punto de vista de la psicología social, la elección de un determinado estilo viene dada por la adaptación al interlocutor.

La variabilidad fonética es el resultado de la adaptación al intercambio de información entre el hablante y el oyente.

"we feel justified in proposing, as a working hypothesis, that intra-speaker's phonetic variation is genuine and arises as a consequence of the speaker's adaptation to his judgement of the 'needs of the situation'. In the sense of the biologist's term speech behaviour is an adaptive process"

Lindblom, B. (1988). Phonetic invariance and the adaptive nature of speech. En B. A. G. Elsendoorn, y H. Bouma (Eds.), Working models of human perception. London: Academic Press. p. 163

El modelo de la variabilidad adaptativa en la percepción del habla

arrow_up_gray

La obtención del corpus

Lectura

Procedimiento utilizado en los corpus ad hoc diseñados para estudios fonéticos específicos.

Entrevistas individuales

Permiten la obtención de un corpus largo y relativamente espontáneo.

Permiten la grabación de lecturas de textos o de un corpus ad hoc constituido por frases marco.

Permiten la recogida de elementos léxicos aislados.

Problema de obtener la palabra deseada sin que el investigador la mencione previamente, para evitar ofrecer un modelo de pronunciación.

"Individuals who are being questioned will seldom produce large volumes of speech in their replies"

Milroy, L. (1987). Observing and analysing natural language. A critical account of sociolinguistic method. Oxford: Basil Blackwell. p. 46

Ann Lesley Milroy

Ann Lesley Milroy

El diálogo se rige por unas normas sociales entre las que se encuentra el "principio de cooperación".

La distribución de los turnos de habla y del tiempo que ocupa cada hablante tiende a ser equitativa.

Las preguntas directas no suelen ser habituales en la conversación corriente entre personas del mismo estatus.

"even when interviewed by a stranger, a speaker will settle down to a pattern approximating to his or her everyday interactional style after about the first hour. Speech produced before this period has elapsed tends to show radically different patterns"

Douglas-Cowie, E. (1978). Linguistic code-switching in a Northern Irish village: Social interaction and social ambition. En P. Trudgill (Ed.), Sociolinguistic patterns in British English. (pp. 37-51). London: Edward Arnold.

Ellen Douglas-Cowie

Ellen Douglas-Cowie
(Fuente: http://emotion-research.net/Members/EllenDCowie)

Tareas específicas para la elicitación de habla semi-espontánea

Realizadas en parejas formadas por el investigador y el informante o por dos informantes.

Los participantes en la tarea deben colaborar para alcanzar un objetivo común.

Tarea del mapa

Participan dos informantes, cada uno de los cuales tiene un mapa que no puede ver el otro informante.

En el mapa se indican una serie de lugares señalados con su nombre.

En uno de los mapas se ha señalado un camino y en el otro no.

El informante que tiene el mapa sin el camino trazado tiene que dibujarlo siguiendo las instrucciones del informante que tiene el mapa con el camino.

Al finalizar la tarea, cada uno de los informantes lee una lista de palabras consistente en los nombres de lugar señalados en el mapa y en otros elementos que aparecen en la conversación.

Tarea del mapa

Mapa con el camino trazado

Tarea del mapa

Mapa sin camino

1 Neil: Right. Start from the sandy shore,
2 Chris: Okay.
3 Neil: moving down ... straight down.
4 Chris: How far?
5 Neil: Down as far as the bottom of the well.
6 Chris: I don't have a well.
7 Neil: Right. Move down,, vertically down about a quarter of the way down the page. Move to the right in ... Do you have local residents?
8 Chris: I do.
9 Neil: Right, well, move up and round and above them.
10 Chris: Okay.
11 Neil: Right. Across, not as far as a wood. Do you have a wood?
12 Chris: Do I cross the bridge?
[...]

The Map Task Corpus, Human Communication Research Centre, University of Edinburgh - University of Glasgow.

Tarea del mapa

Tarea del mapa en español

Aguilar, L. (2001). Los procesos fonológicos y su manifestación en diferentes situaciones comunicativas: La alternancia vocal/semiconsonante/consonante. Tesis doctoral, Departament de Filologia Espanyola, Facultat de Filosofia i Lletres, Universitat Autònoma de Barcelona. Consultada en http://hdl.handle.net/10803/4886

Juego de las diferencias

Cada participante dispone de una lámina que representa una escena.

Las dos láminas contienen diferencias.

Cada participante solamente puede ver su propia lámina.

Los participantes deben descubrir las diferencias entre las dos láminas.

p1#1: <breath> soy Julián y yo soy el número uno
p2#2: #<eeh> yo soy Paco y soy el número dos#
p1#3: #<inspiration> vale pues empiezo yo ##<p2#4> #<sp># te cuento lo que veo #<sp> hay un chico que está en el mar tiene un flotador que es un flotador de un patito con pintas negras y está mirando un#<nn> especie de huevo que parece como que lo hubiese pues+ pues , está asombrado porque#<ee> porque el flotador que es un pato #<sp> ##<p2#4> ha puesto un huevo# #
p2#4: #<p1#3> sí# #<lp> ##<p1#3> #<laugh># ¿ cuántas manchas tiene el huevo ?#
p1#5: el huevo tiene tres manchas#
p2#6: ¿ y una se le está cayendo por ##<p1#7> abajo# ?#
p1#7: ##<p2#6> y una# que se le está cayendo por ##<p2#8> abajo# sí#
p2#8: ##<p1#7> vale# #<lp> ##<p1#9> #<eh>##
p1#9: ##<p2#8> el flotador# tiene uno , dos , tres , cuatro , cinco manchas#
p2#10: ##<p1#11> sí# #
p1#11: ##<p2#10> el# patito este #
p2#12: ¿ tiene la boca abierta ?#
p1#13: no tiene la boca cerrada #
p2#14: pues no encontramos ni una#
p1#15: #<inspiration> y cuando encontramos un error #<sp> da igual seguimos #<sp> #<eeh> el chico tiene un bañador , #<eeh> es moreno #<sp> #<tongue-click> #<eeh> bueno te sigo describiendo lo ##<p2#16> que hay##
p2#16: ##<p1#15> sí sí sigue# y yo si ve+ si veo algo que ##<p1#17> no#<oo> concuerda# con el mío te lo digo #
p1#17: ##<p2#16> vale# #<inspiration> hay dos nubes una en / a la izquierda y otra a la derecha #<eeh> y#<yy> en#<nn> el lado derecho hay un barco que tiene una banderita blanca #<lp> ##<p2#18> un velero##
p2#18: ##<p1#17> ¿ blanca?# ¿ cómo que blanca ? #<sp> todo es blanco#
p1#19: no bueno que no / no está / no está rellena no está ##<p2#20> pintada de negro##
p2#20: ##<p1#19> #<ah> vale vale##
p1#21: #<ehm>#
p2#22: todo es igual#
p1#23: todo es igual ##<p2#24> #<lp># #
p2#24: ##<p1#23> #<laugh>##

Savy, R., De Leo, S., Alfano, I., Solís, I., y Cioffi, E. (n.d.). Corpus PraTiD nelle lingue europee. Corpora. Parlare italiano [Página web].

Observación participativa

Si el investigador se sumerge en la vida del grupo, llega un momento en que éste ya no es consciente de su presencia y adopta un comportamiento más espontáneo.

Entrevistas telefónicas

Permiten obtener respuestas simples centradas sobre determinados fenómenos si las preguntas se construyen de modo suficientemente restrictivo.

La experiencia de Labov parece indicar que la cualidad de las grabaciones es suficiente para un posterior análisis en el laboratorio, siempre y cuando no se trate de sonidos que cubran una gama de frecuencias mayor que la utilizada en la banda telefónica.

Pregunta breve y anónima

Ejemplo paradigmático: descripción sobre la estratificación social de [r] en Nueva York llevada a cabo por Labov (1966, 1972).

Labov, W. (2006). The social stratification of English in New York city. 2nd ed.. Cambridge: Cambridge University Press. (Primera edición: 1996)

Labov, W. (1972). Sociolinguistic patterns. Oxford: Basil Blackwell.

Labov, W. (1983). Modelos sociolingüísticos. Madrid: Cátedra.

William Labov

William Labov (1927)

Sondeo llevado a cabo en tres grandes almacenes representativos de tres estatus sociales distintos.

El investigador representa el papel de un cliente que desea saber en qué piso se encuentra un producto, de modo que la respuesta sea siempre "Fourth floor".

Tras preguntar por primera vez, con la excusa de no haber entendido bien se obtenía una repetición en un estilo mucho más cuidado.

Según los cálculos de Labov, es posible entrevistar a 264 personas en seis horas y media.

Problemas y ventajas:

arrow_up_gray

La constitución del corpus

Textos orales y corpus de lengua oral

Corpus orales y corpus de lengua oral

La constitución de los corpus orales

La constitución de los corpus de lengua oral

La representación fonética de corpus orales

Corpus orales y corpus de lengua oral


El corpus de trabajo
Joaquim Llisterri, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim/phonetics/fon_met_exper/corp_trab.html
Last modified: 16/11/11 12:10

Bookmark and Share

Creative Commons License
This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.