Acabo de leer en una revista científica bastante respetada (popular) (PM alemán, 02/2013, p.36) sobre un experimento interesante (sin una fuente, desafortunadamente). Me llamó la atención porque intuitivamente dudé de la importancia del resultado, pero la información proporcionada fue suficiente para reproducir las pruebas estadísticas.
Los investigadores se preguntaron si enfriarse en climas fríos aumenta las probabilidades de contraer un resfriado. Entonces dividieron al azar a un grupo de 180 estudiantes en dos grupos. Un grupo tuvo que mantener los pies en agua fría durante 20 minutos. El otro mantuvo sus zapatos. Creo que es una especie de manipulación divertida, pero por otro lado no soy médico y tal vez los médicos piensan que es divertido. Cuestiones éticas a un lado.
De todos modos, después de 5 días, 13 de los estudiantes en el grupo de tratamiento tenían un resfriado, pero solo 5 en el grupo que mantenían sus zapatos puestos. La razón de posibilidades de este experimento es, por lo tanto, 2,87.
Dado el tamaño de muestra bastante pequeño, comencé a preguntarme si esta diferencia puede ser significativa. Entonces realicé dos pruebas.
Primero, una prueba simple de igualdad de proporciones usando la aproximación normal. Esta prueba tiene con . Supongo que esto es lo que probaron los investigadores. Esto es verdaderamente significativo. Sin embargo, esta prueba z solo es válida en muestras grandes, si no me equivoco, debido a la aproximación normal. Además, las tasas de prevalencia son bastante pequeñas y me pregunto si esto puede no afectar la tasa de cobertura del intervalo de confianza del efecto.p = 0.0468
Así que mi segundo intento fue una prueba de independencia de chi-cuadrado, tanto con simulación de Montecarlo como con Chi-cuadrado estándar de Pearson. Aquí encuentro valores tanto sobre .
Ahora, eso no es tan tranquilizador sobre los resultados. Me preguntaba si hay más opciones para probar estos datos y cuáles son sus opiniones sobre las dos pruebas (en particular, los supuestos de la primera prueba significativa)
Respuestas:
Usaría una prueba de permutación en lugar de la aproximación Normal o el chi-cuadrado. La prueba de permutación es exacta y más poderosa, condicional a los datos.
En este caso, no podemos calcular todas las permutaciones de los grupos, pero podemos generar muchas permutaciones aleatorias de los datos y obtener un valor bastante preciso:
lo que indicaría un valor p de 0.039.
SIN EMBARGO, y esto es muy importante, sin embargo, supongo que se viola la suposición de que los sujetos que se resfrían son eventos independientes. Estas personas son estudiantes, presumiblemente en la misma escuela. Imagine que dos de ellos comparten una clase, o un dormitorio, o alguna otra actividad, o una cafetería (en una escuela con varias cafeterías); los eventos "# 1 se resfría" y "# 2 se resfría" no son independientes. Me imagino que un estudiante diría "¡inscribámonos en este experimento!" a su compañero de cuarto o amigos; Me imagino que los estudiantes fueron reclutados de las clases que los profesores enseñaron; Me imagino muchas formas en que se viola el supuesto de independencia. Quizás el documento, que no he leído, aborda algunos de estos, pero es difícil ver cómo podría abordarlos a todos,
fuente
Hay dos preocupaciones acerca de la conveniencia de usar la prueba , ambas con respecto a si la distribución de muestreo asumida es correcta. Primero, la prueba utiliza la distribución normal en lugar de la distribución , lo que implica que las desviaciones estándar se conocen sin error de muestreo. Segundo, la distribución de muestreo es continua, pero los datos son discretos; Como solo son posibles ciertas combinaciones de datos, solo son posibles ciertos valores estadísticos de prueba realizados, que pueden no coincidir con la distribución de muestreo teórico. (Discuto este tema en el contexto de otras pruebas aquí: comparación y contraste, valores p, niveles de significancia y error tipo I ). z tz z t
Consideremos la primera preocupación en un contexto diferente. Si tiene dos grupos con datos distribuidos normalmente, y desea ver si las medias son equivalentes, debe calcular tanto las medias como las desviaciones estándar. Ahora sabemos que las medias están sujetas a errores de muestreo, por eso necesitamos hacer la prueba en lugar de decir que estas dos medias de muestra no son idénticas. Sin embargo, nuestras estimaciones de las desviaciones estándar también deben estar sujetas a errores de muestreo y tenemos que tener en cuenta ese hecho de alguna manera. Cuando hacemos eso, resulta que el estadístico de prueba (una especie de diferencia de medias escalada) se distribuye como . Si usamos la distribución normal en su lugar (es decir, laz zt z -test), significaría que estamos asumiendo que nuestras estimaciones de las desviaciones estándar son sin error - perfecto. Entonces, ¿por qué podría usarse la prueba en su caso? La razón es que sus datos son binomiales (es decir, el número de "éxitos" de un total conocido de "ensayos"), en lugar de lo normal. En la distribución binomial , la desviación estándar es una función de la media, por lo que una vez que haya estimado la media no hay ninguna incertidumbre adicional de la que deba preocuparse. Por lo tanto, la distribución normal puede usarse como modelo de la distribución de muestreo del estadístico de prueba. z
Aunque utilizar la distribución normal para comprender el comportamiento a largo plazo de la estadística de prueba es técnicamente correcto, surge otro problema. El problema es que la distribución normal es continua, pero debido a que sus datos son discretos, no todos los valores en la distribución teórica se pueden encontrar en su conjunto de datos. (Una vez más, discuto este tema en mucho más detalle en la respuesta anteriormente unido.) Afortunadamente, el partido entre los posibles resultados de sus datos y la distribución normal de muestreo teórico se pone mejor cuanto mayor sea . En su caso, no importa cuáles sean las verdaderas probabilidades subyacentes, podría tener tantos éxitos o tan pocos como ninguno en cada grupo. Eso significa que el número de combinaciones posibles es91 × 91 = 1 ,N N = 180 z91×91=1,729 , que es muchas posibilidades. Con un pequeño conjunto de datos, realmente puede encontrarse con algunos de los tipos de problemas que discuto en mi respuesta vinculada, pero con , no tiene mucho de qué preocuparse. Creo que la prueba fue una elección válida para los investigadores. N=180 z
Pero, ¿qué pasa con la ? Creo que también es una opción válida, pero no sería mi primera opción. (Permítanme señalar de paso que la segunda preocupación discutida anteriormente, un desajuste entre datos discretos y una distribución de referencia continua, se aplica tanto a la como a la prueba , por lo que hay sin ventaja aquí.) El problema con elχ 2 z χ 2 χ 2 z zχ2 χ2 z χ2 -test es que no asume que hay algo especial en los totales de columna en relación con los totales de fila; ambos se tratan como si pudieran haber sido otros valores posibles. Sin embargo, esto no refleja con precisión la configuración experimental. Había 180 personas, y 90 fueron asignados a cada grupo. Lo único que realmente variaría entre estudios idénticos repetidos es la cantidad de personas que se resfriaron en cada grupo. La trata incorrectamente tanto la cantidad de resfriados como la cantidad de personas en cada grupo como si pudieran variar, pero la prueba hace la suposición correcta. Es por eso que la prueba tiene más poder aquí. χ2 z z
Por lo que vale, la prueba de permutación sugerida por @jbowman también hace que este aspecto de su diseño sea correcto y no sufre el problema de discrepancia continua discreta. Por lo tanto, es la mejor opción. Pero pensé que te gustaría saber un poco más sobre cómo se comparan las pruebas y en tu situación. χ 2z χ2
fuente