El análisis de los datos
Necesidad de explicitar los criterios en los que se basa el investigador para asignar un determinado valor a una variable.
La definición operativa de las variables, especificando claramente los criterios seguidos, asegura que el mismo experimento pueda realizarlo otro investigador utilizando las mismas variables.
«Lo que se mide».
La variable dependiente es la variable en la que se mide el efecto del cambio en las variables independientes.
«Lo que se cambia para saber si influye en lo que se mide».
La variable independiente es la variable que manipula el investigador; corresponde a factores que pueden afectar el comportamiento de la variable dependiente.
Los resultados del experimento pueden presentarse en una tabla en la que se observen los cambios en la variable dependiente en función de las variables consideradas como independientes.
Contexto fonético Variable independiente |
Duración de la vocal Variable dependiente |
CV | 100 ms |
CVC | 60 ms |
Primera lengua Variable independiente |
Porcentaje de identificación correcta de vocales del inglés Variable dependiente |
Catalán | 60 % |
Inglés | 99 % |
«Lo que se mantiene constante para que no influya en lo que se mide».
Las variables controladas son las variables que podrían incidir en el resultado del experimento pero que se mantienen constantes para evitar o neutralizar su influencia.
Las variables continuas pueden tener cualquier valor.
Las variables discontinuas o discretas solamente pueden tomar ciertos valores.
Las variables nominales son cualitativas y su valor no acepta grados.
Las variables ordinales son aquellas cuyos valores pueden organizarse en grados en una escala de mayor a menor.
En las variables de intervalo no hay un cero absoluto y los intervalos entre los puntos de la escala pueden considerarse equivalentes.
En las variables de relación se da un cero absoluto, pudiendo también considerarse equivalentes los intervalos entre los puntos de la escala.
Presentan los valores encontrados para cada variable.
Las tablas de datos proporcionan una primera idea de las tendencias de los resultados.
La tabulación de los datos constituye el primer paso para su presentación gráfica y para el tratamiento estadístico posterior.
Su organización depende del número y de las características de las variables que intervengan en el experimento.
Valores en hercios del segundo formante de la consonante lateral [l] en el contexto [le] en un hablante bilingüe catalán-castellano leyendo un texto en francés.
Cada una de las cifras corresponde al valor de la variable estudiada en cada uno de los 34 casos analizados para uno de los informantes.
Valores en milisegundos del VOT de la consonante oclusiva sorda [p] del catalán en contacto con vocales tónicas en cinco informantes.
El valor del VOT constituye la variable dependiente.
Las variables independientes son: el contexto vocálico y el informante.
Frecuencia de aparición de manifestaciones fonéticas de la interrupción del discurso en un conferenciante y en dos intérpretes.
La tabla recoge la frecuencia de aparición de los fenómenos estudiados.
Diferencias en la frecuencia de aparición de interrupciones del tipo descrito en el conferenciante y en los intérpretes.
Estrategias utilizadas por cada intérprete en los momentos de vacilación.
Llisterri, J. y Poch, D. (1991). A phonetic analysis of discourse construction procedures in simultaneous interpreting. En S. Stati, E. Weigand y F. Hundsnurcher (Eds.), Dialoganalyse III. Referate der 3. Arbeitstagung Bologna 1990. Teil 2. (pp. 295-305). Tübingen: Max Niemeyer. Consultado en http://liceu.uab.cat/~joaquim/publicacions/Llisterri_Poch_91_Interpreting.pdfMatriz de confusiones (en porcentajes) obtenida mediante una prueba de percepción de vocales sintetizadas.
Eje vertical: estímulos.
Eje horizontal: respuestas a los estímulos.
60.6 % en la intersección entre las dos vocales [i] indica que tal vocal fue identificada correctamente un 60.6 % de las veces que apareció en la prueba.
El tanto por ciento que se encuentra en la intersección entre [i] y [e] indica en qué proporción la primera se confundió con la segunda.
Llisterri, J. (1984). Anàlisi i síntesi de vocals catalanes. Determinació experimental de la freqüència dels tres primers formants en un corpus de vocals en context realitzades per quatre parlants de català central. Tesi de Llicenciatura, Facultat de Lletres, Universitat Autònoma de Barcelona.Eje horizontal: valores hallados para una determinada variable.
Eje vertical: número de casos encontrados para cada valor o frecuencia de aparición.
El histograma permite obtener una primera impresión visual sobre la distribución de los datos.
Histograma de la distribución de los valores del segundo formante de [l] en el contexto [le] en un informante.
Eje horizontal: valores encontrados para la variable agrupados en intervalos.
Eje vertical: número de casos en que aparece cada intervalo de valores.
Histograma de la frecuencia de aparición de fenómenos relacionados con la interrupción del discurso en un conferenciante y en dos intérpretes.
Eje horizontal: variables estudiadas en el conferenciante («conf») y en los intérpretes («int1» e «int2»).
Prolongación de vocales, simbolizada como «alarg»;
«er» (en inglés);
«eh», «mm» (en español).
Eje vertical: número de veces que aparece cada fenómeno.
Presenta la misma información que un histograma rotando la posición de los ejes.
Diagrama de barras mostrando el número de fenómenos relacionados con la interrupción del discurso en un conferenciante y en dos intérpretes.
Histograma de los valores del VOT de [p], [t] y [k] del catalán seguidas de vocal tónica en cinco informantes.
Eje horizontal: cinco repeticiones de cada vocal ya que cada una ha sido realizada por un informante distinto.
Las barras verticales corresponden a las tres consonantes [p], [t] y [k], por este orden.
Eje vertical: valor en milisegundos de la variable dependiente (VOT).
Dificultad de realizar una evaluación visual de los resultados.
Histograma de valores medios del VOT de [p], [t] y [k] del catalán en contacto con vocal tónica.
Presentación de valores medios.
Para cada vocal se representa el valor de la media de las realizaciones de los cinco informantes.
Mayor claridad en la presentación de las tendencias generales de los resultados.
Diagrama de barras de valores medios del VOT de [p], [t] y [k] del catalán en contacto con vocal tónica.
Eje horizontal: escala en milisegundos.
La longitud total de la barra es la suma de todos los valores encontrados para el VOT de las tres consonantes en contacto con una determinada vocal.
Las zonas sombreadas corresponden a la duración del VOT en cada oclusiva.
Permite observar la relación entre las tres consonantes, mostrando en qué proporción el valor del VOT es mayor o menor según el lugar de articulación.
Los valores de las variables se representan mediante puntos, en lugar de hacerlo mediante barras como en los histogramas.
La altura del punto en el eje vertical indica o bien la frecuencia de aparición o bien el valor de una determinada variable, situada en el eje horizontal.
Pueden compararse distribuciones de datos juntando dos o más polígonos en la misma gráfica.
Polígono de frecuencias con los valores medios del VOT de [p], [t] y [k] del catalán en contacto con vocal tónica.
Eje vertical: duración en milisegundos del VOT.
Eje horizontal: contexto vocálico en el que se ha realizado cada consonante.
Permite observar de forma independiente el comportamiento de las tres consonantes.
Identificación de consonantes ([p] o [t]) en sílabas sintetizadas.
Eje horizontal: estímulos (sílabas con [p] y sílabas con [t]).
Eje vertical: número de casos en que cada estímulo es identificado como una sílaba con la consonante inicial [p] o [t].
Presenta la distribución de los datos en cuartiles, el valor de la mediana y los datos atípicos (outliers) que no parecen consistentes con el resto de observaciones.
Histograma con la distribución de las notas obtenidas por los alumnos de un grupo (G1). | Diagrama de caja con la distribución de las notas obtenidas por los alumnos de un grupo (G1). |
Valor mínimo: 1.
Valor máximo: 10.
Mediana: la mitad de los casos presentan valores superiores a la mediana (5.5) y la otra mitad de los casos presentan valores inferiores a la mediana.
Primer cuartil: entre el primer cuartil (4) y la mediana (5.5) se sitúan el 25 % de los valores más bajos de la distribución.
Tercer cuartil: entre el tercer cuartil (7) y la mediana (5.5) se sitúan el 25 % de los valores más altos de la distribución.
Histograma con la distribución de las notas obtenidas por los alumnos de un grupo (G2). | Diagrama de caja con la distribución de las notas obtenidas por los alumnos de un grupo (G2). |
Valor mínimo: 1.
Valor máximo: 10.
Mediana: la mitad de los casos presentan valores superiores a la mediana (9) y la otra mitad de los caos presentan valores inferiores a la mediana.
Primer cuartil: entre el primer cuartil (7) y la mediana (9) se sitúan el 25 % de los valores más bajos de la distribución.
Tercer cuartil: entre el tercer cuartil (9) y la mediana (9) se sitúan el 25 % de los valores más altos de la distribución; en este caso, el tercer cuartil coincide con la mediana.
Se obtienen situando los valores de dos variables en un eje de coordenadas.
Observación de la dispersión de los datos.
Observación de la relación entre las variables.
Campo de dispersión de una muestra de vocales del catalán.
Eje horizontal: frecuencia en hercios del primer formante (F1).
Eje vertical; frecuencia en hercios del segundo (F2).
Cada punto representa una vocal producida por un informante.
Los seis puntos que pueden contarse para cada vocal corresponden a las realizaciones de la misma vocal en el mismo contexto de seis informantes diferentes.
Los valores de las variables se reparten sobre una superficie circular.
Cada una de las porciones representa una de las variables.
La parte que ocupa en el círculo es proporcional al valor de la variable.
Diagrama de porciones de la aparición de los elementos relacionados con interrupciones del discurso en el intérprete 1.
Diagrama de porciones de la aparición de elementos relacionados con la interrupción del discurso en el intérprete 2.
Cálculo del porcentaje que representa la aparición de una variable respecto del total.
Del total de vacilaciones en el discurso del intérprete, un 60 % corresponde a prolongaciones de vocales, un 10 % a elementos como «mm» y un 8 % a «eh».
Corresponde al investigador seleccionar el tipo de presentación gráfica que se adecúa mejor a sus resultados.
Un programa que permita elaborar gráficos de un modo flexible y relativamente completo es una de las herramientas imprescindibles en la realización de un trabajo de fonética experimental.
❯ R, A language and environment for statistical computing
Muchas pruebas en estadística se basan en el principio de que se aplican a conjuntos de valores que se acercan a la distribución normal.
Estudiante | Nota | Estudiante | Nota | Estudiante | Nota | ||
1 | 1 | 11 | 8 | 21 | 5 | ||
2 | 10 | 12 | 8 | 22 | 5 | ||
3 | 2 | 13 | 4 | 23 | 5 | ||
4 | 2 | 14 | 4 | 24 | 5 | ||
5 | 9 | 15 | 4 | 25 | 5 | ||
6 | 9 | 16 | 4 | 26 | 6 | ||
7 | 3 | 17 | 7 | 27 | 6 | ||
8 | 3 | 18 | 7 | 28 | 6 | ||
9 | 3 | 19 | 7 | 29 | 6 | ||
10 | 8 | 20 | 7 | 30 | 6 |
Notas de 30 estudiantes en un examen correspondientes a una distribución normal.
Histograma de la distribución de notas en un grupo de 30 estudiantes correspondiente a una distribución normal.
Sólo un estudiante ha obtenido un 1 y sólo uno ha obtenido un 10, dos tienen 2 y dos 9, tres han obtenido un 3 y tres un 7. . .
Uniendo mediante una línea curva los extremos de cada una de las barras, obtendríamos lo que se conoce como campana de Gauss, o curva de la distribución normal, caracterizada por su forma simétrica respecto del punto más alto.
Curva de la distribución de notas en un grupo de 30 estudiantes correspondiente a una distribución normal.
Diagrama de caja de la distribución de notas en un grupo de 30 estudiantes correspondiente a una distribución normal.
En los datos reales, casi nunca se encuentra una distribución perfectamente normal.
Habitualmente, cuando el número de casos es igual o mayor que 30, la distribución de una muestra de casos —elegidos al azar— se acerca suficientemente a la normal.
Con menos de 10 casos para una determinada variable encontraremos seguramente que ésta se comporta al azar.
Con 10 casos tenemos el 90 % de posibilidades de acercarnos a una distribución normal.
Con 35 casos llegaremos casi con toda seguridad a una distribución normal, a condición de que después no deseemos formar grupos más pequeños en el interior de esta variable.
Valor de una distribución para el que se encuentra el mismo número de casos con un valor más alto que con un valor más bajo.
Valor situado en el centro de la distribución.
Diagrama de caja y valor de la mediana (5,5) de la distribución de notas en un grupo de 30 estudiantes correspondiente a una distribución normal.
El valor con la frecuencia de aparición más alta en una distribución.
Se calcula como la suma de los valores de todos los casos dividida por el número de casos.
Curva de la distribución de notas y media en un grupo de 30 estudiantes correspondiente a una distribución normal.
En el caso de una distribución perfectamente normal coinciden la media, la mediana y la moda.
Nota | |
Mediana (Median) | 5.5 |
Media (Mean) | 5.5 |
Mediana y media de la distribución de notas en un grupo de 30 estudiantes correspondiente a una distribución normal.
La principal limitación es que la media también tiene en cuenta los valores extremos de la distribución.
Puede obviarse el problema considerando un número elevado de casos.
El valor de la media puede ser el mismo en grupos con distribuciones diferentes de los datos.
Grupo 1 | Grupo 2 | Grupo 3 | Grupo 4 |
1 | 5 | 1 | 3 |
2 | 5 | 1 | 3 |
3 | 5 | 1 | 3 |
4 | 5 | 1 | 8 |
5 | 5 | 1 | 8 |
6 | 6 | 10 | 8 |
7 | 6 | 10 | 6 |
8 | 6 | 10 | 6 |
9 | 6 | 10 | 5 |
10 | 6 | 10 | 5 |
Distribución de notas en cuatro grupos de estudiantes.
Grupo 1 | Grupo 2 | Grupo 3 | Grupo 4 |
Min.: 1.00 | Min.: 5.0 | Min.: 1.0 | Min.: 3.0 |
1st Qu.: 3.25 | 1st Qu.: 5.0 | 1st Qu.: 1.0 | 1st Qu.: 3.5 |
Median: 5.5 | Median: 5.5 | Median: 5.5 | Median: 5.5 |
Mean: 5.5 | Mean : 5.5 | Mean: 5.5 | Mean: 5.5 |
3rd Qu.: 7.75 | 3rd Qu.: 6.0 | 3rd Qu.: 10.0 | 3rd Qu.: 7.5 |
Max.: 10.00 | Max.: 6.0 | Max.: 10.0 | Max.: 8.0 |
Min.: valor mínimo - 1st Qu.: primer cuartil - Median: mediana - Mean: media - 3rd Qu.: tercer cuartil - Max.: valor máximo.
Valor en la distribución de notas en cuatro grupos de estudiantes.
Distribución de notas de los estudiantes del grupo 1 (media = 5.5)
Distribución de notas de los estudiantes del grupo 2 (media = 5.5).
Distribución de notas de los estudiantes del grupo 3 (media = 5.5).
Distribución de notas de los estudiantes del grupo 4 (media = 5.5).
Valor máximo
El valor más alto de la distribución.
Valor mínimo
El valor más bajo de la distribución.
Rango
Diferencia entre el valor máximo y el valor mínimo.
A grandes rasgos, puede considerarse una especie de promedio de las desviaciones de todos los valores respecto de la media.
Índice que tiene en cuenta la variación de cada caso respecto de la media.
Cuanto más elevada es la desviación típica, mayor es la dispersión respecto de la media de cada uno de los valores.
Cuanto más baja es la desviación típica, más agrupados se encuentran los valores alrededor de la media o punto central de la distribución.
Grupo 1 | Grupo 2 | Grupo 3 | Grupo 4 |
1 | 5 | 1 | 3 |
2 | 5 | 1 | 3 |
3 | 5 | 1 | 3 |
4 | 5 | 1 | 8 |
5 | 5 | 1 | 8 |
6 | 6 | 10 | 8 |
7 | 6 | 10 | 6 |
8 | 6 | 10 | 6 |
9 | 6 | 10 | 5 |
10 | 6 | 10 | 5 |
Distribución de notas en cuatro grupos de estudiantes
Grupo 1 | Grupo 2 | Grupo 3 | Grupo 4 | |
Media (mean) | 5.5 | 5.5 | 5.5 | 5.5 |
Desviación típica (standard deviation) | 3.02 | 0.52 | 4.74 | 2.06 |
Valor de la media y de la desviación típica en la distribución de notas en cuatro grupos de estudiantes.
Grupo 1: media = 5,5; desviación típica = 3.02 | Grupo 2: media = 5,5, desviación típica = 0.52 |
Grupo 3: media = 5,5; desviación típica = 4.74 | Grupo 4: media = 5,5; desviación típica = 2.06 |
Distribución de notas en cuatro grupos de estudiantes.
Sesgo
Simetría de una distribución respecto del centro.
Valores centrados hacia la izquierda: sesgo positivo.
Valores centrados hacia la derecha: sesgo negativo.
Curtosis
Agrupación de una distribución alrededor del valor central.
Curtosis alta: los valores se agrupan de forma muy pronunciada alrededor de la media.
Curtosis baja: los valores se reparten tendiendo a un histograma que daría una línea casi plana si se unieran los extremos de las barras.
En un experimento se intenta siempre falsar la hipótesis nula, simbolizada como H0.
Para falsar la hipótesis nula se parte de la idea de que los valores obtenidos en las mediciones pertenecen al mismo conjunto de datos.
Se aplica un prueba que, comparando las medias, proporciona un grado de probabilidad de que esto suceda.
El grado de probabilidad se relaciona con la significación estadística del resultado de la prueba.
La significación suele presentarse en forma decimal y se convierte en un porcentaje multiplicándola por 100.
Cuando la probabilidad de obtener un determinado resultado si los datos pertenecieran al mismo conjunto es alta, no puede falsarse la hipótesis nula.
Probabilidad mínima a partir de la cual se puede considerar que la hipótesis nula queda falsada.
¿Qué tanto por ciento de posibilidades consideramos el mínimo para pensar que nos hallamos frente a dos grupos diferentes de datos?
En ciencias humanas suele fijarse el nivel de significación en 0.05 (5 %).
Cuando la probabilidad de que los dos grupos de valores comparados pertenezcan a una misma clase es igual o menor al 5 % puede pensarse que pertenecen a dos clases distintas.
La selección de la prueba más adecuada para falsar la hipótesis nula depende de varios factores:
Antes de utilizar un determinado tipo de prueba, es preciso asegurarse de cuáles son los requisitos que los datos deben cumplir.
Compara las medias de dos grupos de datos.
Ofrece una probabilidad de que las medias:
A grandes rasgos, se trata de determinar si la variabilidad de los datos entre los diferentes grupos es mayor que la variabilidad en el interior de cada grupo.
El objetivo es falsar la hipótesis nula si esto sucede.
Dos variables se encuentran en correlación cuando aumentan o disminuyen de manera paralela.
El grado de correlación se visualiza en un campo de dispersión o scatter.
Se observa la colocación respecto a los dos ejes de los puntos que representan a los valores.
Valores medios en hercios del fundamental y del primer formante de las vocales tónicas del catalán para una informante femenina.
Correlación entre la frecuencia fundamental y la frecuencia del primer formante en una muestra de vocales tónicas del catalán realizadas por una informante femenina.
Correlación positiva:
En las vocales anteriores al aumentar la frecuencia del fundamental (en el eje horizontal) aumenta también la del primer formante (en el eje vertical).
Correlación negativa:
En las vocales posteriores al incrementarse la frecuencia del fundamental decrece la del primer formante.
Cifra cuyos valores oscilan entre + 1 y -1.
Se obtiene un valor de +1 en las correlaciones perfectamente positivas.
Se obtiene un valor de 0 cuando no existe ninguna correlación.
Se obtiene un valor de -1 cuando la correlación es totalmente negativa.
Indica simplemente la existencia de una relación matemática entre dos variables.
No puede interpretarse directamente como una relación de causa a efecto.
Interacción entre variables dependientes e independientes.
Permite evaluar la influencia simultánea de varias variables independientes sobre una variable dependiente.
Supera las limitaciones de la correlación, que sólo es útil para examinar simultáneamente dos variables.
Utilizado cuando en la variable dependiente existe más de una categoría y quiere averiguarse cómo se relaciona esta división con las variables independientes.
Herramienta para obtener información sobre las características subyacentes a un conjunto de datos.
Todas las variables se consideran independientes y se busca qué conexiones se establecen entre ellas, de modo que puedan identificarse un cierto número de factores que las relacionen.
Ayuda a distinguir tendencias y agrupaciones en los resultados.
Reduce el número de dimensiones que el investigador examina.
Indica en qué medida cada dimensión contribuye a la variabilidad del grupo de datos.
Antes de utilizar una determinada prueba es esencial conocer a qué tipo de variables y de distribuciones puede aplicarse y cuáles son los conceptos que subyacen a los cálculos realizado.
La estadística constituye una herramienta que ayuda en la interpretación de los resultados, permitiendo falsar las hipótesis sobre las relaciones que se establecen entre los datos obtenidos.
Un tratamiento estadístico es solamente el primer paso para la interpretación de los resultados de un experimento, y no un fin en sí mismo.
❯ R, A language and environment for statistical computing