La prueba

Acabo de leer en una revista científica bastante respetada (popular) (PM alemán, 02/2013, p.36) sobre un experimento interesante (sin una fuente, desafortunadamente). Me llamó la atención porque intuitivamente dudé de la importancia del resultado, pero la información proporcionada fue suficiente para reproducir las pruebas estadísticas.

Los investigadores se preguntaron si enfriarse en climas fríos aumenta las probabilidades de contraer un resfriado. Entonces dividieron al azar a un grupo de 180 estudiantes en dos grupos. Un grupo tuvo que mantener los pies en agua fría durante 20 minutos. El otro mantuvo sus zapatos. Creo que es una especie de manipulación divertida, pero por otro lado no soy médico y tal vez los médicos piensan que es divertido. Cuestiones éticas a un lado.

De todos modos, después de 5 días, 13 de los estudiantes en el grupo de tratamiento tenían un resfriado, pero solo 5 en el grupo que mantenían sus zapatos puestos. La razón de posibilidades de este experimento es, por lo tanto, 2,87.

Dado el tamaño de muestra bastante pequeño, comencé a preguntarme si esta diferencia puede ser significativa. Entonces realicé dos pruebas.

Primero, una prueba simple de igualdad de proporciones usando la aproximación normal. Esta prueba tiene con . Supongo que esto es lo que probaron los investigadores. Esto es verdaderamente significativo. Sin embargo, esta prueba z solo es válida en muestras grandes, si no me equivoco, debido a la aproximación normal. Además, las tasas de prevalencia son bastante pequeñas y me pregunto si esto puede no afectar la tasa de cobertura del intervalo de confianza del efecto. $z=1.988$ $p=0.0468$

Así que mi segundo intento fue una prueba de independencia de chi-cuadrado, tanto con simulación de Montecarlo como con Chi-cuadrado estándar de Pearson. Aquí encuentro valores tanto sobre . $p=.082$

Ahora, eso no es tan tranquilizador sobre los resultados. Me preguntaba si hay más opciones para probar estos datos y cuáles son sus opiniones sobre las dos pruebas (en particular, los supuestos de la primera prueba significativa)

hypothesis-testing chi-squared experiment-design proportion biostatistics tomka
fuente

Creo que ha realizado una corrección de continuidad en la estadística de chi-cuadrado de Pearson, que explica la discrepancia en los valores p.

Scortchi - Restablece a Monica

Respuestas:

Usaría una prueba de permutación en lugar de la aproximación Normal o el chi-cuadrado. La prueba de permutación es exacta y más poderosa, condicional a los datos.

En este caso, no podemos calcular todas las permutaciones de los grupos, pero podemos generar muchas permutaciones aleatorias de los datos y obtener un valor bastante preciso:

group <- c(rep("A",90),rep("B",90))
n_a <- rep(0,100000)
for (i in 1:length(n_a)) {
   temp <- sample(group, size=18)
   n_a[i] <- sum(temp == "A")
}
> mean(n_a >= 13)
[1] 0.03904

lo que indicaría un valor p de 0.039.

SIN EMBARGO, y esto es muy importante, sin embargo, supongo que se viola la suposición de que los sujetos que se resfrían son eventos independientes. Estas personas son estudiantes, presumiblemente en la misma escuela. Imagine que dos de ellos comparten una clase, o un dormitorio, o alguna otra actividad, o una cafetería (en una escuela con varias cafeterías); los eventos "# 1 se resfría" y "# 2 se resfría" no son independientes. Me imagino que un estudiante diría "¡inscribámonos en este experimento!" a su compañero de cuarto o amigos; Me imagino que los estudiantes fueron reclutados de las clases que los profesores enseñaron; Me imagino muchas formas en que se viola el supuesto de independencia. Quizás el documento, que no he leído, aborda algunos de estos, pero es difícil ver cómo podría abordarlos a todos,

jbowman
fuente

Gracias @jbowman, además, realizó una prueba unilateral, ya veo. Creo que esto tiene más sentido que las pruebas de dos lados que utilicé. Si la aproximación normal se hace de un lado, los valores de p son .023 arriba. Me gusta el poit sobre la independencia. Probablemente, los estudiantes tampoco estaban aislados cuando mantenían los pies en el agua, por lo que también es una forma de transmitir un resfriado.

tomka

(+1) Pero vale la pena señalar que no necesita simular: la distribución de su estadística de prueba sigue una distribución hipergeométrica bajo la hipótesis nula (y condicionando los totales marginales). Esta es la prueba exacta de Fisher.

Scortchi - Restablece a Monica

$z$ $\chi^2$

$\boldsymbol z$ -test:

Hay dos preocupaciones acerca de la conveniencia de usar la prueba , ambas con respecto a si la distribución de muestreo asumida es correcta. Primero, la prueba utiliza la distribución normal en lugar de la distribución , lo que implica que las desviaciones estándar se conocen sin error de muestreo. Segundo, la distribución de muestreo es continua, pero los datos son discretos; Como solo son posibles ciertas combinaciones de datos, solo son posibles ciertos valores estadísticos de prueba realizados, que pueden no coincidir con la distribución de muestreo teórico. (Discuto este tema en el contexto de otras pruebas aquí: comparación y contraste, valores p, niveles de significancia y error tipo I ). $z$ $z$ $t$

Consideremos la primera preocupación en un contexto diferente. Si tiene dos grupos con datos distribuidos normalmente, y desea ver si las medias son equivalentes, debe calcular tanto las medias como las desviaciones estándar. Ahora sabemos que las medias están sujetas a errores de muestreo, por eso necesitamos hacer la prueba en lugar de decir que estas dos medias de muestra no son idénticas. Sin embargo, nuestras estimaciones de las desviaciones estándar también deben estar sujetas a errores de muestreo y tenemos que tener en cuenta ese hecho de alguna manera. Cuando hacemos eso, resulta que el estadístico de prueba (una especie de diferencia de medias escalada) se distribuye como . Si usamos la distribución normal en su lugar (es decir, la $t$ $z$ -test), significaría que estamos asumiendo que nuestras estimaciones de las desviaciones estándar son sin error - perfecto. Entonces, ¿por qué podría usarse la prueba en su caso? La razón es que sus datos son binomiales (es decir, el número de "éxitos" de un total conocido de "ensayos"), en lugar de lo normal. En la distribución binomial , la desviación estándar es una función de la media, por lo que una vez que haya estimado la media no hay ninguna incertidumbre adicional de la que deba preocuparse. Por lo tanto, la distribución normal puede usarse como modelo de la distribución de muestreo del estadístico de prueba. $z$

Aunque utilizar la distribución normal para comprender el comportamiento a largo plazo de la estadística de prueba es técnicamente correcto, surge otro problema. El problema es que la distribución normal es continua, pero debido a que sus datos son discretos, no todos los valores en la distribución teórica se pueden encontrar en su conjunto de datos. (Una vez más, discuto este tema en mucho más detalle en la respuesta anteriormente unido.) Afortunadamente, el partido entre los posibles resultados de sus datos y la distribución normal de muestreo teórico se pone mejor cuanto mayor sea . En su caso, no importa cuáles sean las verdaderas probabilidades subyacentes, podría tener tantos éxitos o tan pocos como ninguno en cada grupo. Eso significa que el número de combinaciones posibles es $N$ $91\times 91 = 1,\!729$ , que es muchas posibilidades. Con un pequeño conjunto de datos, realmente puede encontrarse con algunos de los tipos de problemas que discuto en mi respuesta vinculada, pero con , no tiene mucho de qué preocuparse. Creo que la prueba fue una elección válida para los investigadores. $N = 180$ $z$

$\boldsymbol \chi^2$ -test:

Pero, ¿qué pasa con la ? Creo que también es una opción válida, pero no sería mi primera opción. (Permítanme señalar de paso que la segunda preocupación discutida anteriormente, un desajuste entre datos discretos y una distribución de referencia continua, se aplica tanto a la como a la prueba , por lo que hay sin ventaja aquí.) El problema con el $\chi^2$ $\chi^2$ $z$ $\chi^2$ -test es que no asume que hay algo especial en los totales de columna en relación con los totales de fila; ambos se tratan como si pudieran haber sido otros valores posibles. Sin embargo, esto no refleja con precisión la configuración experimental. Había 180 personas, y 90 fueron asignados a cada grupo. Lo único que realmente variaría entre estudios idénticos repetidos es la cantidad de personas que se resfriaron en cada grupo. La trata incorrectamente tanto la cantidad de resfriados como la cantidad de personas en cada grupo como si pudieran variar, pero la prueba hace la suposición correcta. Es por eso que la prueba tiene más poder aquí. $\chi^2$ $z$ $z$

Por lo que vale, la prueba de permutación sugerida por @jbowman también hace que este aspecto de su diseño sea correcto y no sufre el problema de discrepancia continua discreta. Por lo tanto, es la mejor opción. Pero pensé que te gustaría saber un poco más sobre cómo se comparan las pruebas y en tu situación. $z$ $\chi^2$

gung - Restablece a Monica
fuente

Gracias @gung, realmente aprecio tus esfuerzos. Hace las cosas más claras.

tomka

@gung, estoy confundido: ¿Chi cuadrado y z de proporción son iguales o no? stats.stackexchange.com/questions/173415/…

Xavier Bourret Sicotte

@XavierBourretSicotte, la prueba z a menudo se implementa bajo el capó como una prueba de chi-cuadrado, R lo hace, por ejemplo. Todavía prefiero usar la prueba z porque la información se presenta de manera consistente con el entendimiento de que 1 variable es una covariable y la otra es la respuesta.

gung - Restablece a Monica

(+1) @XavierBourretSicotte: Hay dos pruebas z de uso común para la diferencia entre dos proporciones: una es una prueba de puntaje, equivalente a la prueba de chi-cuadrado de Pearson (en la cual la varianza en el denominador se calcula bajo el ajuste más adecuado) nulo); la otra es una prueba de Wald (en la cual la varianza en el denominador se calcula en la estimación de máxima verosimilitud de la diferencia en las dos proporciones).

Scortchi - Restablece a Monica

@Scortchi gracias por aclarar esto! Es la primera vez que me encuentro con una explicación tan explícita de la diferencia: ¿podría vincular a los lugares donde se explican los dos enfoques? ¿Con las fórmulas correspondientes para la varianza?

Xavier Bourret Sicotte