El análisis de los datos


La organización de los datos
Definición operativa de las variables
Tipos de variables
Tablas de datos
La presentación de los datos
Histograma
Diagrama de barras
Polígono de frecuencias
Diagrama de caja
Campo de dispersión
Diagrama de porciones
Herramientas
El tratamiento estadístico de los datos
La descripción estadística de los datos
Las pruebas estadísticas
La correlación entre las variables
Otros tipos de análisis
Consideraciones metodológicas

El análisis de los datos

R, A language and environment for statistical computing



La organización de los datos

Definición operativa de las variables

Necesidad de explicitar los criterios en los que se basa el investigador para asignar un determinado valor a una variable.

“The operationalization of variables is a researcher's chance to explain how each variable is being defined with respect to the construct in question. Such an operational definition should take a variable out of the realm of theory and plant it squarely in concrete reality. Basically, it must be a definition that is based on observable, testable, or quantifiable characteristics” (p. 8).

Brown, J. D. (1988). Understanding research in second language learning. A teacher's guide to statistics and research design. Cambridge: Cambridge University Press.

James Brown

James Dean Brown

Asignación del nivel de conocimiento de una L2
Asignación del grado de bilingüismo

La definición operativa de las variables, especificando claramente los criterios seguidos, asegura que el mismo experimento pueda realizarlo otro investigador utilizando las mismas variables.

Tipos de variables

Variables dependientes y variables independientes

La variable dependiente es la variable en la que se mide el efecto del cambio en las variables independientes.

Duración segmental
Valores de formantes
Número de aciertos o errores en las respuestas a una prueba
Porcentaje de identificación correcta o incorrecta en una prueba de percepción
Tiempo de reacción

La variable independiente es la variable que manipula el investigador; corresponde a factores que pueden afectar el comportamiento de la variable dependiente.

Primera lengua
Variante dialectal
Competencia fonética en una L2
Contexto fonético

Los resultados pueden presentarse en una tabla en la que se observen los cambios en la variable dependiente en función de las variables consideradas como independientes.

Contexto fonético
Variable independiente
Duración de la vocal
Variable dependiente
CV 100 ms
CVC 60 ms

Primera lengua
Variable independiente
Porcentaje de identificación correcta de vocales del inglés
Variable dependiente
Catalán 60%
Inglés 99%

Variables libres y variables controladas

Variables continuas y variables discontinuas

Las variables continuas pueden tener cualquier valor.

Duración en milisegundos de un segmento
Frecuencia en hercios de un formante

Las variables discontinuas o discretas solamente pueden tomar ciertos valores.

Número de alófonos de una palabra
Grado de acentuación de una sílaba

Variables nominales y variables ordinales

Las variables nominales son cualitativas y su valor no acepta grados.

Sexo de un informante
Lengua materna

Las variables ordinales son aquellas cuyos valores pueden organizarse en grados en una escala de mayor a menor.

Grado de bilingüismo de un hablante

Variables de intervalo y variables de relación

En las variables de intervalo no hay un cero absoluto y los intervalos entre los puntos de la escala pueden considerarse equivalentes.

En las variables de relación se da un cero absoluto, pudiendo también considerarse equivalentes los intervalos entre los puntos de la escala.

Duración de un enunciado cuantificada en segundos

Tablas de datos

Presentan los valores encontrados para cada variable.

Las tablas de datos proporcionan una primera idea de las tendencias de los resultados.

La tabulación de los datos constituye el primer paso para su presentación gráfica y para el tratamiento estadístico posterior.

Su organización depende del número y de las características de las variables que intervengan en el experimento.

Variables continuas

valores lateral

Valores en hercios del segundo formante de la consonante lateral [l] en el contexto [le] en un hablante bilingüe catalán-castellano leyendo un texto en francés.

Cada una de las cifras corresponde al valor de la variable estudiada en cada uno de los 34 casos analizados para uno de los informantes.

Martínez Daudén, G. y Llisterri, J. (1990). Phonetic interference in bilingual speakers learning a third language: The production of lateral consonants. ERIC Document Reproduction Service (ED 324 909). Consultado en http://liceu.uab.cat/~joaquim/publicacions/Martinez_Llisterri_91.pdf

valores oclusivas

Valores en milisegundos del VOT de la consonante oclusiva sorda [p] del catalán en contacto con vocales tónicas en cinco informantes.

El valor del VOT constituye la variable dependiente.

Las variables independientes son: el contexto vocálico y el informante.

Llisterri, J. (1987). Anàlisi, síntesi i percepció de grups oclusiu-vocal del català. Contribució a l’estudi dels correlats acústics del lloc d’articulació. Tesi Doctoral. [Microforma] Bellaterra: Servei de Publicacions de la Univesitat Autònoma de Barcelona.

Variables discretas

aparición de dudas

Frecuencia de aparición de manifestaciones fonéticas de la interrupción del discurso en un conferenciante y en dos intérpretes.

La tabla recoge la frecuencia de aparición de los fenómenos estudiados.

Diferencias en la frecuencia de aparición de interrupciones del tipo descrito en el conferenciante y en los intérpretes.

Estrategias utilizadas por cada intérprete en los momentos de vacilación.

Llisterri, J. y Poch, D. (1991). A phonetic analysis of discourse construction procedures in simultaneous interpreting. En S. Stati, E. Weigand y F. Hundsnurcher (Eds.), Dialoganalyse III. Referate der 3. Arbeitstagung Bologna 1990. Teil 2. (pp. 295-305). Tübingen: Max Niemeyer. Consultado en http://liceu.uab.cat/~joaquim/publicacions/Llisterri_Poch_91_Interpreting.pdf

Matrices de confusión

matriz de confusión

Matriz de confusiones (en porcentajes) obtenida mediante una prueba de percepción de vocales sintetizadas.

Eje vertical: estímulos.

Eje horizontal: respuestas a los estímulos.

60.6 % en la intersección entre las dos vocales [i] indica que tal vocal fue identificada correctamente un 60.6% de las veces que apareció en la prueba.

El tanto por ciento que se encuentra en la intersección entre [i] y [e] indica en qué proporción la primera se confundió con la segunda.

Llisterri, J. (1984). Anàlisi i síntesi de vocals catalanes. Determinació experimental de la freqüència dels tres primers formants en un corpus de vocals en context realitzades per quatre parlants de català central. Tesi de Llicenciatura, Facultat de Lletres, Universitat Autònoma de Barcelona.

arrow_up_gray

La presentación de los datos

Histograma

Eje horizontal: valores hallados para una determinada variable.

Eje vertical: número de casos encontrados para cada valor o frecuencia de aparición.

El histograma permite obtener una primera impresión visual sobre la distribución de los datos.

histograma valores lmatriz de confusión

Histograma de la distribución de los valores del segundo formante de [l] en el contexto [le] en un informante.

Eje horizontal: valores encontrados para la variable agrupados en intervalos.

Eje vertical: número de casos en que aparece cada intervalo de valores.

Martínez Daudén, G. y Llisterri, J. (1990). Phonetic interference in bilingual speakers learning a third language: The production of lateral consonants. ERIC Document Reproduction Service (ED 324 909). Consultado en http://liceu.uab.cat/~joaquim/publicacions/Martinez_Llisterri_91.pdf

histograma dudas

Histograma de la frecuencia de aparición de fenómenos relacionados con la interrupción del discurso en un conferenciante y en dos intérpretes.

Eje horizontal: variables estudiadas en el conferenciante (“conf”) y en los intérpretes (“int1” e “int2”).

Prolongación de vocales, simbolizada como “alarg”;
“er” (en inglés);
“eh”, “mm” (en español).

Eje vertical: número de veces que aparece cada fenómeno.

Llisterri, J. y Poch, D. (1991). A phonetic analysis of discourse construction procedures in simultaneous interpreting. En S. Stati, E. Weigand y F. Hundsnurcher (Eds.), Dialoganalyse III. Referate der 3. Arbeitstagung Bologna 1990. Teil 2. (pp. 295-305). Tübingen: Max Niemeyer. Consultado en http://liceu.uab.cat/~joaquim/publicacions/Llisterri_Poch_91_Interpreting.pdf

Diagrama de barras

Presenta la misma información que un histograma rotando la posición de los ejes.

barras dudas

Diagrama de barras mostrando el número de fenómenos relacionados con la interrupción del discurso en un conferenciante y en dos intérpretes.

Llisterri, J. y Poch, D. (1991). A phonetic analysis of discourse construction procedures in simultaneous interpreting. En S. Stati, E. Weigand y F. Hundsnurcher (Eds.), Dialoganalyse III. Referate der 3. Arbeitstagung Bologna 1990. Teil 2. (pp. 295-305). Tübingen: Max Niemeyer. Consultado en http://liceu.uab.cat/~joaquim/publicacions/Llisterri_Poch_91_Interpreting.pdf

histograma VOT

Histograma de los valores del VOT de [p], [t] y [k] del catalán seguidas de vocal tónica en cinco informantes.

Eje horizontal: cinco repeticiones de cada vocal ya que cada una ha sido realizada por un informante distinto.
Las barras verticales corresponden a las tres consonantes [p], [t] y [k], por este orden.

Eje vertical: valor en milisegundos de la variable dependiente (VOT).

Llisterri, J. (1987). Anàlisi, síntesi i percepció de grups oclusiu-vocal del català. Contribució a l’estudi dels correlats acústics del lloc d’articulació. Tesi Doctoral. [Microforma] Bellaterra: Servei de Publicacions de la Univesitat Autònoma de Barcelona.

Dificultad de realizar una evaluación visual de los resultados.

histograma VOT medias

Histograma de valores medios del VOT de [p], [t] y [k] del catalán en contacto con vocal tónica.

Presentación de valores medios.

Para cada vocal se representa el valor de la media de las realizaciones de los cinco informantes.

Llisterri, J. (1987). Anàlisi, síntesi i percepció de grups oclusiu-vocal del català. Contribució a l’estudi dels correlats acústics del lloc d’articulació. Tesi Doctoral. [Microforma] Bellaterra: Servei de Publicacions de la Univesitat Autònoma de Barcelona.

Mayor claridad en la presentación de las tendencias generales de los resultados.

barras VOT medias

Diagrama de barras de valores medios del VOT de [p], [t] y [k] del catalán en contacto con vocal tónica.

Eje horizontal: escala en milisegundos.

La longitud total de la barra es la suma de todos los valores encontrados para el VOT de las tres consonantes en contacto con una determinada vocal.

Las zonas sombreadas corresponden a la duración del VOT en cada oclusiva.

Permite observar la relación entre las tres consonantes, mostrando en qué proporción el valor del VOT es mayor o menor según el lugar de articulación.

Llisterri, J. (1987). Anàlisi, síntesi i percepció de grups oclusiu-vocal del català. Contribució a l’estudi dels correlats acústics del lloc d’articulació. Tesi Doctoral. [Microforma] Bellaterra: Servei de Publicacions de la Univesitat Autònoma de Barcelona.

Polígono de frecuencias

Los valores de las variables se representan mediante puntos, en lugar de hacerlo mediante barras como en los histogramas.

La altura del punto en el eje vertical indica o bien la frecuencia de aparición o bien el valor de una determinada variable, situada en el eje horizontal.

Pueden compararse distribuciones de datos juntando dos o más polígonos en la misma gráfica.

polígono VOT medias

Polígono de frecuencias con los valores medios del VOT de [p], [t] y [k] del catalán en contacto con vocal tónica.

Eje vertical: duración en milisegundos del VOT.

Eje horizontal: contexto vocálico en el que se ha realizado cada consonante.

Permite observar de forma independiente el comportamiento de las tres consonantes.

Llisterri, J. (1987). Anàlisi, síntesi i percepció de grups oclusiu-vocal del català. Contribució a l’estudi dels correlats acústics del lloc d’articulació. Tesi Doctoral. [Microforma] Bellaterra: Servei de Publicacions de la Univesitat Autònoma de Barcelona.

polígono identificación

Identificación de consonantes ([p] o [t]) en sílabas sintetizadas.

Eje horizontal: estímulos (sílabas con [p] y sílabas con [t]).

Eje vertical: número de casos en que cada estímulo es identificado como una sílaba con la consonante inicial [p] o [t].

Llisterri, J. (1987). Anàlisi, síntesi i percepció de grups oclusiu-vocal del català. Contribució a l’estudi dels correlats acústics del lloc d’articulació. Tesi Doctoral. [Microforma] Bellaterra: Servei de Publicacions de la Univesitat Autònoma de Barcelona.

Diagrama de caja (Box plot)

Presenta la distribución de los datos en cuartiles, el valor de la mediana y los datos atípicos (outliers) que no parecen consistentes con el resto de observaciones.

Histograma_Ejemplo_Notas_G1
Caja_Ejemplo_Notas_G1
Histograma con la distribución de las notas obtenidas por los alumnos de un grupo (G1). Diagrama de caja con la distribución de las notas obtenidas por los alumnos de un grupo (G1).

Valor mínimo: 1.

Valor máximo: 10.

Mediana: la mitad de los casos presentan valores superiores a la mediana (5.5) y la otra mitad de los casos presentan valores inferiores a la mediana.

Primer cuartil: entre el primer cuartil (4) y la mediana (5.5) se sitúan el 25% de los valores más bajos de la distribución.

Tercer cuartil: entre el tercer cuartil (7) y la mediana (5.5) se sitúan el 25% de los valores más altos de la distribución.

Histograma_Ejemplo_Notas_G1
Caja_Ejemplo_Notas_G2
Histograma con la distribución de las notas obtenidas por los alumnos de un grupo (G2). Diagrama de caja con la distribución de las notas obtenidas por los alumnos de un grupo (G2).

Valor mínimo: 1.

Valor máximo: 10.

Mediana: la mitad de los casos presentan valores superiores a la mediana (9) y la otra mitad de los caos presentan valores inferiores a la mediana.

Primer cuartil: entre el primer cuartil (7) y la mediana (9) se sitúan el 25% de los valores más bajos de la distribución.

Tercer cuartil: entre el tercer cuartil (9) y la mediana (9) se sitúan el 25% de los valores más altos de la distribución; en este caso, el tercer cuartil coincide con la mediana.

Diagrama de caja con la distribución de las notas obtenidas por los alumnos de un grupo (G2).

Campo de dispersión (Scatter)

Se obtienen situando los valores de dos variables en un eje de coordenadas.

Observación de la dispersión de los datos.

Observación de la relación entre las variables.

campo de dispersión vocales

Campo de dispersión de una muestra de vocales del catalán.

Eje horizontal: frecuencia en hercios del primer formante (F1).

Eje vertical; frecuencia en hercios del segundo (F2).

Cada punto representa una vocal producida por un informante.

Los seis puntos que pueden contarse para cada vocal corresponden a las realizaciones de la misma vocal en el mismo contexto de seis informantes diferentes.

Llisterri, J. (1984). Anàlisi i síntesi de vocals catalanes. Determinació experimental de la freqüència dels tres primers formants en un corpus de vocals en context realitzades per quatre parlants de català central. Tesi de Llicenciatura, Facultat de Lletres, Universitat Autònoma de Barcelona.

Diagrama de porciones

Los valores de las variables se reparten sobre una superficie circular.

Cada una de las porciones representa una de las variables.

La parte que ocupa en el círculo es proporcional al valor de la variable.

diagrama porciones intérprete 1

Diagrama de porciones de la aparición de los elementos relacionados con interrupciones del discurso en el intérprete 1.

diagrama porciones intérprete 2

Diagrama de porciones de la aparición de elementos relacionados con la interrupción del discurso en el intérprete 2.

Cálculo del porcentaje que representa la aparición de una variable respecto del total.

Del total de vacilaciones en el discurso del intérprete, un 60% corresponde a prolongaciones de vocales, un 10% a elementos como “mm” y un 8% a “eh”.

Llisterri, J. y Poch, D. (1991). A phonetic analysis of discourse construction procedures in simultaneous interpreting. En S. Stati, E. Weigand y F. Hundsnurcher (Eds.), Dialoganalyse III. Referate der 3. Arbeitstagung Bologna 1990. Teil 2. (pp. 295-305). Tübingen: Max Niemeyer. Consultado en http://liceu.uab.cat/~joaquim/publicacions/Llisterri_Poch_91_Interpreting.pdf

Herramientas

Corresponde al investigador seleccionar el tipo de presentación gráfica que se adecúa mejor a sus resultados.

Un programa que permita elaborar gráficos de un modo flexible y relativamente completo es una de las herramientas imprescindibles en la realización de un trabajo de fonética experimental.

arrow_up_gray

El tratamiento estadístico de los datos

R, A language and environment for statistical computing

La descripción estadística de los datos

La distribución normal

Muchas pruebas en estadística se basan en el principio de que se aplican a conjuntos de valores que se acercan a la distribución normal.

Estudiante Nota Estudiante Nota Estudiante Nota
1 1 11 8 21 5
2 10 12 8 22 5
3 2 13 4 23 5
4 2 14 4 24 5
5 9 15 4 25 5
6 9 16 4 26 6
7 3 17 7 27 6
8 3 18 7 28 6
9 3 19 7 29 6
10 8 20 7 30 6

Notas de 30 estudiantes en un examen correspondientes a una distribución normal.

histograma distribución normal

Histograma de la distribución de notas en un grupo de 30 estudiantes correspondiente a una distribución normal.

Sólo un estudiante ha obtenido un 1 y sólo uno ha obtenido un 10, dos tienen 2 y dos 9, tres han obtenido un 3 y tres un 7...

Uniendo mediante una línea curva los extremos de cada una de las barras, obtendríamos lo que se conoce como campana de Gauss, o curva de la distribución normal, caracterizada por su forma simétrica respecto del punto más alto.

gauss distribución normal

Curva de la distribución de notas en un grupo de 30 estudiantes correspondiente a una distribución normal.

caja distribución normal

Diagrama de caja de la distribución de notas en un grupo de 30 estudiantes correspondiente a una distribución normal.

En los datos reales, casi nunca se encuentra una distribución perfectamente normal.

Habitualmente, cuando el número de casos es igual o mayor que 30, la distribución de una muestra de casos -elegidos al azar- se acerca suficientemente a la normal.

Con menos de 10 casos para una determinada variable encontraremos seguramente que ésta se comporta al azar.

Con 10 casos tenemos el 90% de posibilidades de acercarnos a una distribución normal.

Con 35 casos llegaremos casi con toda seguridad a una distribución normal, a condición de que después no deseemos formar grupos más pequeños en el interior de esta variable.

Guy, G. R. (1980). Variation in the group and the individual: The case of final stop deletion. En W. Labov (Ed.), Locating language in time and space. (pp. 1-36). New York: Academic Press. [Citado por Milroy, L. (1987). Observing and analysing natural language. A critical account of sociolinguistic method. Oxford: Basil Blackwell. p. 135].

Gregory R. Guy

Las medidas de la tendencia central

Mediana (Median)

Valor de una distribución para el que se encuentra el mismo número de casos con un valor más alto que con un valor más bajo.

Valor situado en el centro de la distribución.

caja distribución normal

Diagrama de caja y valor de la mediana (5,5) de la distribución de notas en un grupo de 30 estudiantes correspondiente a una distribución normal.

Moda

El valor con la frecuencia de aparición más alta en una distribución.

5 y 6 en el grupo de notas, puesto que son las notas obtenidas por seis alumnos, mientras que el resto de notas corresponden a grupos más pequeños de estudiantes.

Media (Mean)

Se calcula como la suma de los valores de todos los casos dividida por el número de casos.

La nota media del grupo es 5,5 (la suma de todas las notas es 165 y el grupo tiene 30 alumnos).

gauss distribución normal

Curva de la distribución de notas y media en un grupo de 30 estudiantes correspondiente a una distribución normal.

En el caso de una distribución perfectamente normal coinciden la media, la mediana y la moda.

Nota
Mediana (Median) 5.5
Media (Mean) 5.5

Mediana y media de la distribución de notas en un grupo de 30 estudiantes correspondiente a una distribución normal.

La principal limitación es que la media también tiene en cuenta los valores extremos de la distribución.

Puede obviarse el problema considerando un número elevado de casos.

El valor de la media puede ser el mismo en grupos con distribuciones diferentes de los datos.

Grupo 1 Grupo 2 Grupo 3 Grupo 4
1 5 1 3
2 5 1 3
3 5 1 3
4 5 1 8
5 5 1 8
6 6 10 8
7 6 10 6
8 6 10 6
9 6 10 5
10 6 10 5

Distribución de notas en cuatro grupos de estudiantes.

Grupo 1 Grupo 2 Grupo 3 Grupo 4
Min.: 1.00 Min.: 5.0 Min.: 1.0 Min.: 3.0
1st Qu.: 3.25 1st Qu.: 5.0 1st Qu.: 1.0 1st Qu.: 3.5
Median: 5.5 Median: 5.5 Median: 5.5 Median: 5.5
Mean: 5.5 Mean : 5.5 Mean: 5.5 Mean: 5.5
3rd Qu.: 7.75 3rd Qu.: 6.0 3rd Qu.: 10.0 3rd Qu.: 7.5
Max.: 10.00 Max.: 6.0 Max.: 10.0 Max.: 8.0

Min.: valor mínimo - 1st Qu.: primer cuartil - Median: mediana - Mean: media - 3rd Qu.: tercer cuartil - Max.: valor máximo.

Valor en la distribución de notas en cuatro grupos de estudiantes.

distribución grupo
distribución grupo

Distribución de notas de los estudiantes del grupo 1 (media = 5.5)

distribución grupo
distribución grupo

Distribución de notas de los estudiantes del grupo 2 (media = 5.5).

distribución grupo
distribución grupo

Distribución de notas de los estudiantes del grupo 3 (media = 5.5).

distribución grupo
distribución grupo

Distribución de notas de los estudiantes del grupo 4 (media = 5.5).

Indicadores de la distribución de los datos

Valor máximo, mínimo y rango

Valor máximo

El valor más alto de la distribución.

Valor mínimo

El valor más bajo de la distribución.

Rango

Diferencia entre el valor máximo y el valor mínimo.

histograma VOT k

Histograma de los valores en ms del VOT de [k] del catalán.

El VOT de [k] presenta un valor mínimo de 12.5 ms y un máximo de 59.5 ms.

Rango de variación: 47,3 ms.

Media: 29,3 ms.

Mediana: 29 ms.

Distribución que se aproxima a la normal, exceptuando los valores extremos que aparecen a la derecha del histograma.

Llisterri, J. (1987). Anàlisi, síntesi i percepció de grups oclusiu-vocal del català. Contribució a l’estudi dels correlats acústics del lloc d’articulació. Tesi Doctoral. [Microforma] Bellaterra: Servei de Publicacions de la Univesitat Autònoma de Barcelona.

Desviación típica (Standard deviation)

A grandes rasgos, puede considerarse una especie de promedio de las desviaciones de todos los valores respecto de la media.

Índice que tiene en cuenta la variación de cada caso respecto de la media.

Cuanto más elevada es la desviación típica, mayor es la dispersión respecto de la media de cada uno de los valores.

Cuanto más baja es la desviación típica, más agrupados se encuentran los valores alrededor de la media o punto central de la distribución.

Grupo 1 Grupo 2 Grupo 3 Grupo 4
1 5 1 3
2 5 1 3
3 5 1 3
4 5 1 8
5 5 1 8
6 6 10 8
7 6 10 6
8 6 10 6
9 6 10 5
10 6 10 5

Distribución de notas en cuatro grupos de estudiantes

Grupo 1 Grupo 2 Grupo 3 Grupo 4
Media (mean) 5.5 5.5 5.5 5.5
Desviación típica
(standard deviation)
3.02 0.52 4.74 2.06

Valor de la media y de la desviación típica en la distribución de notas en cuatro grupos de estudiantes.

distribución grupo
distribución grupo
Grupo 1 Grupo 2
distribución grupo
distribución grupo
Grupo 3 Grupo 4

Distribución de notas en cuatro grupos de estudiantes.

Sesgo y curtosis

Sesgo

Simetría de una distribución respecto del centro.

Valores centrados hacia la izquierda: sesgo positivo.

Valores centrados hacia la derecha: sesgo negativo.

Curtosis

Agrupación de una distribución alrededor del valor central.

Curtosis alta: los valores se agrupan de forma muy pronunciada alrededor de la media.

Curtosis baja: los valores se reparten tendiendo a un histograma que daría una línea casi plana si se unieran los extremos de las barras.

Las pruebas estadísticas

La hipótesis nula (H0)

En un experimento se intenta siempre falsar la hipótesis nula, simbolizada como H0.

Diferencias entre el VOT de [p] y [t].

Hipótesis nula: no hay diferencias entre el VOT de [p] y de [t].

Si fuera cierto, los valores del VOT de cada una de las clases de consonantes pertenecerían a un único conjunto de datos.

El objetivo es demostrar la falsedad de esta afirmación, utilizando un procedimiento que permita demostrar que los valores hallados en el análisis corresponden a dos conjuntos de datos distintos.

“The strategy of hypothesis testing is to try to accumulate enough evidence to reject the null hypothesis, rather than to try to support any of the possible alternative hypothesis directly. What we must do it to calculate, by means of some suitable procedure, a test statistic which will allow us to find the probability of obtaining the results we have observed, on the assumption that the null hypothesis is true. (. . .) If there is only a very small probability of getting the observed differences in sample means, then we can reject the null hypothesis and accept our alternative hypothesis (. . .) If the probability of obtaining the observed results is quite high, we can not reject the null hypothesis: the two samples may well be from populations with identical means.
It is extremely important to realise that we can never prove conclusively that the null hypothesis is correct or that any alternative hypothesis is correct. There is always a chance (maybe a very small one) that the differences we observe are indeed due to sample variation and not to the independent variable. All we can do is try to show that the probability of this being so is very small” (p. 70).

Butler, C. (1985). Statistics in linguistics. Oxford: Basil Blackwell. Consultado en http://www.uwe.ac.uk/hlss/llas/statistics-in-linguistics/bkindex.shtml

La significación estadística

Significación estadística

Para falsar la hipótesis nula se parte de la idea de que los valores obtenidos en las mediciones pertenecen al mismo conjunto de datos.

Se aplica un prueba que, comparando las medias, proporciona un grado de probabilidad de que esto suceda.

El grado de probabilidad se relaciona con la significación estadística del resultado de la prueba.

La significación suele presentarse en forma decimal y se convierte en un porcentaje multiplicándola por 100.

Cuando la probabilidad de obtener un determinado resultado si los datos pertenecieran al mismo conjunto es alta, no puede falsarse la hipótesis nula.

Nivel de significación

Probabilidad mínima a partir de la cual se puede considerar que la hipótesis nula queda falsada.

¿Qué tanto por ciento de posibilidades consideramos el mínimo para pensar que nos hallamos frente a dos grupos diferentes de datos?

En ciencias humanas suele fijarse el nivel de significación en 0.05 (5%).

Cuando la probabilidad de que los dos grupos de valores comparados pertenezcan a una misma clase es igual o menor al 5% puede pensarse que pertenecen a dos clases distintas.

La selección de las pruebas estadísticas

La selección de la prueba más adecuada para falsar la hipótesis nula depende de varios factores:

Antes de utilizar un determinado tipo de prueba, es preciso asegurarse de cuáles son los requisitos que los datos deben cumplir.

El t-test de Student

Compara las medias de dos grupos de datos.

Ofrece una probabilidad de que las medias:

Diferencias entre el VOT de [p] y [t].

Comparando las medias de duración del VOT de [p] y de [t] mediante un t-test, se obtiene una significación de 0.

Existe el 0% de posibilidades de que las medias provengan del mismo grupo.

El análisis de varianza (ANOVA)

A grandes rasgos, se trata de determinar si la variabilidad de los datos entre los diferentes grupos es mayor que la variabilidad en el interior de cada grupo.

El objetivo es falsar la hipótesis nula si esto sucede.

La correlación entre las variables

Dos variables se encuentran en correlación cuando aumentan o disminuyen de manera paralela.

El grado de correlación se visualiza en un campo de dispersión o scatter.

Se observa la colocación respecto a los dos ejes de los puntos que representan a los valores.

valores correlación

Valores medios en hercios del fundamental y del primer formante de las vocales tónicas del catalán para una informante femenina.

correlación Fo-F1

Correlación entre la frecuencia fundamental y la frecuencia del primer formante en una muestra de vocales tónicas del catalán realizadas por una informante femenina.

Correlación positiva:

En las vocales anteriores al aumentar la frecuencia del fundamental (en el eje horizontal) aumenta también la del primer formante (en el eje vertical).

Correlación negativa:

En las vocales posteriores al incrementarse la frecuencia del fundamental decrece la del primer formante.

Llisterri, J. (1984). Anàlisi i síntesi de vocals catalanes. Determinació experimental de la freqüència dels tres primers formants en un corpus de vocals en context realitzades per quatre parlants de català central. Tesi de Llicenciatura, Facultat de Lletres, Universitat Autònoma de Barcelona.

Coeficiente de correlación

Cifra cuyos valores oscilan entre + 1 y -1.

Se obtiene un valor de +1 en las correlaciones perfectamente positivas.

Se obtiene un valor de 0 cuando no existe ninguna correlación.

Se obtiene un valor de -1 cuando la correlación es totalmente negativa.

El valor del coeficiente de correlación en las vocales anteriores es de 1, mientras que el de las posteriores es de -1.

Indica simplemente la existencia de una relación matemática entre dos variables.

No puede interpretarse directamente como una relación de causa a efecto.

Otros tipos de análisis

Análisis multivariante

Interacción entre variables dependientes e independientes.

Regresión múltiple

Permite evaluar la influencia simultánea de varias variables independientes sobre una variable dependiente.

Supera las limitaciones de la correlación, que sólo es útil para examinar simultáneamente dos variables.

Análisis discriminante

Utilizado cuando en la variable dependiente existe más de una categoría y quiere averiguarse cómo se relaciona esta división con las variables independientes.

Análisis factorial

Herramienta para obtener información sobre las características subyacentes a un conjunto de datos.

Todas las variables se consideran independientes y se busca qué conexiones se establecen entre ellas, de modo que puedan identificarse un cierto número de factores que las relacionen.

Confusiones entre consonantes encontradas en pruebas de discriminación de sílabas

Análisis en componentes principales

Ayuda a distinguir tendencias y agrupaciones en los resultados.

Reduce el número de dimensiones que el investigador examina.

Indica en qué medida cada dimensión contribuye a la variabilidad del grupo de datos.

Estudios de sociolingüistica.
Estudios de enseñanza de lenguas.

Consideraciones metodológicas

Antes de utilizar una determinada técnica es esencial conocer a qué tipo de variables y de distribuciones puede aplicarse y cuáles son los conceptos que subyacen a los cálculos realizado.

La estadística constituye una herramienta que ayuda en la interpretación de los resultados, permitiendo falsar las hipótesis sobre las relaciones que se establecen entre los datos obtenidos.

Un tratamiento estadístico es solamente el primer paso para la interpretación de los resultados de un experimento, y no un fin en sí mismo.

“Lo sublime del género ha sido imaginado por un fisiólogo que habiendo tomado la orina de un urinario de la estación de un ferrocarril, por donde pasaban gentes de todas las naciones, creyó poder dar así el análisis de la ¡orina media europea!” (p. 150)

Claude Bernard, citado en Martí, O. (1980). Conocer Claude Bernard y su obra. Barcelona: Dopesa.

Claude Bernard

Claude Bernard (1813-1878)

arrow_up_gray

El análisis de los datos

R, A language and environment for statistical computing


El análisis de los datos
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim/phonetics/fon_met_exper/anal_datos.html
Last updated: 28/9/14 21:40

Creative Commons License
This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.