¿Por qué es un problema la dependencia?

8

Me interesa saber por qué las observaciones dependientes son un problema en las estadísticas. Supongamos que quiere saber si hay una diferencia en los puntajes promedio de los exámenes entre dos escuelas. Recoges 50 observaciones en cada escuela. Estas 50 observaciones se derivan de 5 aulas diferentes en cada escuela y hay dependencia dentro de las aulas. En este caso, ¿cómo se verían afectados los resultados de la prueba t y cómo podrían conducir a conclusiones inexactas?

hypothesis-testing t-test independence non-independent luciano
fuente

5

El valor p para la prueba t se calcula bajo el supuesto de que todas las observaciones son independientes. Calcular las probabilidades (como el valor p) es mucho más difícil cuando se trata de variables dependientes, y no siempre es fácil ver matemáticamente dónde las cosas salen mal con la prueba en presencia de dependencia. Sin embargo, podemos ilustrar fácilmente el problema con una simulación.

Considere, por ejemplo, el caso en el que hay 5 aulas en cada una de las dos escuelas, con 10 estudiantes en cada aula. Bajo el supuesto de normalidad, el valor p de la prueba debe distribuirse uniformemente en el intervalo si no hay diferencia en los puntajes promedio de la prueba entre todas las aulas. Es decir, si realizamos muchos estudios como este y trazamos un histograma de todos los valores de p, debería parecerse a la distribución uniforme en forma de caja . $(0,1)$

Sin embargo, si existe una correlación dentro del aula entre los resultados de los estudiantes, los valores p ya no se comportan como deberían. Una correlación positiva (como podría esperarse aquí) a menudo conducirá a valores p que son demasiado pequeños, de modo que la hipótesis nula será rechazada con demasiada frecuencia cuando de hecho sea cierta. Una simulación R que ilustra esto se puede encontrar a continuación. Se simulan 1000 estudios de dos escuelas para diferentes correlaciones dentro del aula. Los valores p de la prueba t de corrección de correlación se muestran en los histogramas de la figura. Se distribuyen uniformemente cuando no hay correlación, pero no de otra manera. En la simulación, se supone que no hay diferencias medias entre las aulas y que todas las aulas tienen la misma correlación dentro del aula.

La consecuencia de este fenómeno es que la tasa de error de tipo I de la prueba t estará muy lejos si hay correlaciones presentes dentro del aula. Como ejemplo, una prueba t al nivel del 5% es, de hecho, aproximadamente al nivel del 25% si la correlación dentro del aula es 0.1. En otras palabras, el riesgo de rechazar falsamente la hipótesis nula aumenta dramáticamente cuando las observaciones son dependientes .

Simulación Tenga en cuenta que los ejes difieren algo entre los histogramas.

Código R:

library(MASS) 
B1<-1000

par(mfrow=c(3,2))

for(correlation in c(0,0.1,0.25,0.5,0.75,0.95))
{
# Create correlation/covariance matrix and mean vector
Sigma<-matrix(correlation,10,10)
diag(Sigma)<-1
mu<-rep(5,10)

# Simulate B1 studies of two schools A and B
p.value<-rep(NA,B1)
for(i in 1:B1)
{
    # Generate observations of 50 students from school A
    A<-as.vector(mvrnorm(n=5,mu=mu,Sigma=Sigma))

    # Generate observations of 50 students from school B
    B<-as.vector(mvrnorm(n=5,mu=mu,Sigma=Sigma))

    p.value[i]<-t.test(A,B)$p.value
}

# Plot histogram
hist(p.value,main=paste("Within-classroom correlation:",correlation),xlab="p-value",cex.main=2,cex.lab=2,cex.axis=2)
}

MånsT
fuente

MånsT su respuesta es el tipo de respuesta que esperaba obtener (+1). Sin embargo, ¿podría explicar cómo es posible calcular una correlación dentro del aula? Cada una de las 5 aulas en cada una de las 2 escuelas tiene 10 observaciones, cada una medida en una sola variable. Mi comprensión de las correlaciones es que necesitarían observaciones medidas en dos variables.

luciano

@luciano: ¡Calcular, o mejor dicho, estimar esta correlación podría resultar complicado! Sin embargo, es fácil incluirlo en el modelo utilizado en la simulación: cuando se generan los resultados para los 10 estudiantes en el aula, se generan de forma correlacionada. Las dos variables que tienen correlación.

ρ

$\rho$ son el resultado

X_{i}

$X_i$ de estudiante

i

$i$ y el resultado

X_{j}

$X_j$ de estudiante

j

$j$ para todas las combinaciones de

i = 1, \dots, 10

$i=1,\ldots,10$ y

j = 1, \dots, 10

$j=1,\ldots,10$ . Básicamente, esto significa que si un estudiante en el aula se desempeña bien (en comparación con la media de la escuela), es más probable que otros también lo hagan bien.

MånsT

3

El problema sería que comparar las dos escuelas de esta manera combina los efectos a nivel universitario con los efectos a nivel de aula. Un modelo mixto te permitiría desenredarlos. Si no está interesado en desenredarlos, debe tener en cuenta el muestreo agrupado (aunque muchas personas no lo hacen).

El comentario anterior de @Nico llega a un problema aquí: ¿Supongamos que un maestro en una escuela es realmente bueno y que él / ella es uno de los maestros elegidos?

Pero otro problema es que los estudiantes de cada clase serán más parecidos entre sí que con otros estudiantes de la misma universidad en todo tipo de formas: las diferentes materias atraen a diferentes tipos de estudiantes por edad, género, experiencia, fortaleza académica y debilidad etc.

Peter Flom
fuente

1

No hay nada de malo en el examen que describió porque tomó una muestra de ambas escuelas de manera justa. Las observaciones dependientes entran en juego cuando hay otra variable de la que dependen las muestras. Es decir, en una de las escuelas solo se ha presentado una clase y usted decidió tomar los resultados de 50 personas dentro de esta clase pensando que estaría bien. Pero dentro del resultado de la escuela depende de una clase, por lo que no puede hacerlo así y dará un resultado incorrecto que no puede detectar mediante ninguna prueba estadística ... es solo un diseño experimental incorrecto.

Pero creo que la gente suele hablar de observaciones dependientes desde diferentes puntos de vista. Es cuando cree que puede derivar distribuciones y errores de sus muestras basándose en supuestos de independencia (la mayoría de las fórmulas estándar asumen eso), mientras que cuando sus resultados dependen unos de otros, esas reglas no son exactas en absoluto ...

sashkello
fuente

3

¿Qué pasa si una sola clase en una de las dos escuelas tiene un maestro extremadamente bueno para que los niños de esa clase superen el promedio de las otras clases? El puntaje promedio general de esa escuela puede ser más alto, pero solo por esa clase, no porque la población general de esa escuela sea mejor.

nico

¿Y qué? Esa escuela es en promedio mejor, y sí, también gracias a ese maestro. Si está tratando de comparar a niños de diferentes áreas, sí, esto entrará en juego. De lo contrario, no tiene nada de malo.

sashkello

Bueno, uno puede llegar a la conclusión errónea de que todas las clases en esa escuela son mejores (porque, digamos, de las políticas del director), cuando realmente estás viendo el efecto de un valor atípico. Corregir el "efecto maestro", por ejemplo modelarlo como un factor molesto puede corregir este problema.

nico

1

No creo que sea relevante. En un contexto de "qué escuela es mejor", la escuela con un resultado promedio más alto es mejor, sin importar cuál sea el motivo. El resultado de tal experimento no es incorrecto, solo necesita interpretarlo adecuadamente. Además, 1 de cada 5 clases no es un caso atípico. También podría argumentar que, de hecho, no existe un "valor atípico" en absoluto, porque no importa cuán lejos esté del promedio, es una cuestión de definición qué escuela consideras mejor: la que tiene un promedio mejor o la que tiene mediana mejor o la que tiene mejores 5 mejores estudiantes o lo que sea.

sashkello

¿Por qué es un problema la dependencia?

Respuestas: