¿Puedes reproducir este resultado de la prueba de chi-cuadrado?

7

En Skeptics.StackExchange , una respuesta cita un estudio sobre hipersensibilidad electromagnética:

Tengo dudas sobre algunas de las estadísticas utilizadas, y agradecería cierta experiencia en la verificación doble de que se utilizan adecuadamente.

La Figura 5a muestra los resultados de un sujeto que intenta detectar cuándo se encendió un generador de campo electromagnético.

Aquí hay una versión simplificada:

 Actual:   Yes  No
Detected:
  Yes       32  19
  No       261 274

Afirman haber utilizado una prueba de ji cuadrado y encontraron significancia (p <0.05, sin indicar qué es p).

Las frecuencias de las respuestas somáticas y conductuales en presencia y ausencia del campo se evaluaron mediante la prueba de chi-cuadrado (tablas 2 × 2) o la extensión Freeman – Halton de la prueba de probabilidad exacta de Fisher (tablas 2 × 3; Freeman & Halton, 1951).

Veo varios problemas

  • Excluyeron algunos de los datos, ver Tabla 5b, donde dejaron el dispositivo apagado durante largos períodos. No puedo ver la justificación para separar esos datos.

  • Parecen estar afirmando que el resultado es estadísticamente significativo cuando el dispositivo real estaba encendido, pero no cuando no lo estaba. (Puedo estar leyendo mal esto; no está claro.) Ese no es un resultado que la prueba de ji cuadrado puede dar, ¿verdad?

  • Cuando intenté reproducir esta prueba con una calculadora en línea, me pareció estadísticamente insignificante.

Esta es mi verdadera pregunta: ¿estoy en lo cierto al decir esto ?: Una prueba de chi-cuadrado de dos colas utilizando la prueba exacta de Fisher es la forma correcta de analizar estos datos y NO es estadísticamente significativa.

Pensamiento extraño
fuente
¿Se observan las variables "detectadas" y "reales" en la misma unidad? Si es así, diría que este es un problema de simetría.
Momo
@Momo: Creo que la respuesta es sí. Hubo 600 ensayos. En 300, el dispositivo estaba realmente encendido, y en los otros 300 el dispositivo estaba realmente apagado. Se le preguntó al sujeto si podía detectar la radiación electromagnética y respondió Sí o No. En 14 casos, no respondió y fueron excluidos. En 535 casos, ella dijo que no, lo que significa que su sensibilidad era baja (si es que existía). No estoy seguro de cómo eso genera un problema de simetría: ¿algún enlace que pueda leer para obtener más información?
Pensamiento extraño
OK gracias. Me acabo de dar cuenta de que el problema de simetría parece ser una expresión que no se usa en inglés, así que lo siento. Lo que quiero decir con esto es que las clasificaciones cruzadas no se derivan de unidades independientes, sino que se le preguntó repetidamente a la misma unidad y, por lo tanto, es una configuración de medición emparejada o repetida.
Momo
2
Para el registro: hubo una carta al editor con respecto a este documento. Desafió algunas de las clasificaciones de gravedad (¿post hoc?) Utilizadas en la Tabla 3a (Experimento 1 y 2), advirtió sobre los riesgos de sesgo de publicación y la necesidad de replicar. No se quejó de los datos en la Tabla 5.
Pensamiento extraño
2
También vale la pena señalar que esta tabla está justo al margen de parecer "significativa": si se hubiera clasificado erróneamente una sola detección, la prueba de Fisher (que es la adecuada para usar) devolvería un valor p del 10,9%. Si el reclamo es extraordinario o controvertido, se requeriría evidencia mucho más fuerte que esta para aceptar una conclusión de asociación positiva.
whuber

Respuestas:

3

Me parece que hay tres cosas mal con la conclusión.

Primero, como dijo @caracal: están informando "importancia" usando una prueba de una cola, sin decir que lo están haciendo. Creo que la mayoría de las personas recomiendan usar pruebas de dos colas casi siempre. Ciertamente, no está bien usar una prueba de una cola sin decirlo.

En segundo lugar, el efecto es pequeño. Cuando había una señal, el sujeto (solo había una) la detectaba el 11% de las veces (32/293). Cuando no había señal, ella detectaba una señal el 6.5% del tiempo. Esa diferencia parece bastante pequeña. ¡Y el sujeto no pudo detectar la señal el 89% del tiempo!

En tercer lugar, como señaló @oddthinking, hubo algunos informes de datos selectivos que no se explicaron o justificaron adecuadamente (no leí el documento cuidadosamente, así que simplemente repito lo que estaba en la publicación original).

Harvey Motulsky
fuente
0

Una prueba exacta de Fisher en la tabla dada da, según este código

actual <- c(rep("Y", 32), rep("N", 19), rep("Y", 261), rep("N", 274))
det <- c(rep("Y", 51), rep("N", 535))
table(det,actual) 
fisher.test(det,actual)

ap = 0.08

Peter Flom
fuente
3
¿Diría que una prueba de Fisher es apropiada para esta tabla de contingencia?
Momo
2
Pero ese es el valor p de dos lados. Supongo que la hipótesis era unilateral (p("yes"|yes)>p("yes"|no), dando un valor p de 0.039.
caracal
@caracal: ¿Quieres elaborar tu razonamiento y convertir esto en una respuesta?
Pensamiento extraño
@Oddthinking Lo siento, actualmente no tengo tiempo para hojear el documento y pensar en los temas de muestreo / diseño experimental relevantes para la pregunta.
caracal