Si las comparaciones múltiples están "planificadas", ¿aún necesita corregir las comparaciones múltiples?

20

Estoy revisando un trabajo que ha realizado> 15 pruebas separadas de 2 x 2 Chi Square. Sugerí que debían corregir las comparaciones múltiples, pero respondieron que todas las comparaciones fueron planificadas y, por lo tanto, esto no es necesario.

Siento que esto no debe ser correcto, pero no puedo encontrar ningún recurso que indique explícitamente si este es el caso.

¿Alguien puede ayudar con esto?


Actualizar:

Gracias por todas sus respuestas muy útiles. En respuesta a la solicitud de @ gung de obtener más información sobre el estudio y los análisis, están comparando los datos de recuento de dos tipos de participantes (estudiantes, no estudiantes) en dos condiciones, en tres períodos de tiempo. Las múltiples pruebas de Chi cuadrado de 2x2 comparan cada período de tiempo, en cada condición, para cada tipo de participante (si eso tiene sentido; por ejemplo, estudiantes, condición 1, período de tiempo 1 versus período de tiempo 2), por lo que todos los análisis prueban la misma hipótesis .

DrJay
fuente
2
Muchas personas que realizan comparaciones múltiples planean hacerlas todas a priori . Lo hacen porque quieren controlar la tasa de error general de tipo I. En algunas situaciones puede ser razonable no corregir las comparaciones múltiples, pero no es solo una cuestión de planificar hacerlas todas desde el principio.
Glen_b -Reinstate Monica
3
¿Puedes decir un poco más sobre el estudio, sus datos y sus análisis? ¿El> 15 equivale a todas las comparaciones posibles, o solo a un pequeño porcentaje? ¿Cuántos datos tienen? ¿Cuán plausible es que las hipótesis fueran todas a priori? ¿Son todos significativos? ¿Las pruebas de chi cuadrado son independientes entre sí? Considere también algunas de las preguntas planteadas en la respuesta de @peuhp.
gung - Restablece a Monica
44
Debido a que "ellos" probablemente estén interesados ​​en encontrar resultados significativos, su respuesta es egoísta. Por lo tanto, la carga recae en ellos para demostrar por qué su enfoque es legítimo, en lugar de que usted demuestre que es ilegítimo. Cualquier intento de demostrar que se pueden descuidar las correcciones de comparaciones múltiples fracasará tan pronto como se considere la tasa de falsos positivos en todo el documento y, por lo tanto, "deben" (falsamente) evitar toda consideración de ese tema o proporcionar un buen argumento sobre por qué no preocupa a su público objetivo.
whuber
1
Me sentiría muy tentado a responder con un enlace a esta tira XKCD (que, como puede observar, implica una serie totalmente planificada de pruebas múltiples ...).
Ilmari Karonen

Respuestas:

21

Este es en mi humilde opinión un tema complejo y me gustaría hacer tres comentarios sobre esta situación.

Primero y en general, me centraría más en si enfrenta un estudio confirmatorio con un conjunto de hipótesis bien formadas definidas en un contexto argumentativo o un estudio explicativo en el que se observan muchos indicadores probables que si están planificados o no (porque puede simplemente planee hacer todas las comparaciones posibles).

Segundo, también me enfocaría en cómo se discuten los valores p resultantes. ¿Se utilizan individualmente para servir a un conjunto de conclusiones definitivas, o se discuten conjuntamente como evidencia y falta de evidencia?

Finalmente, discutiría la posibilidad de que la hipótesis> 15 resultante de las> 15 pruebas de chi-cuadrado separadas sean, de hecho, la expresión de unas pocas hipótesis (tal vez una sola) que pueden resumirse.

En términos más generales, independientemente de si las hipótesis están preespecificadas o no, corregir las comparaciones múltiples o no es una cuestión de lo que se incluye en el error tipo I. Al no corregir MC, solo mantiene un control de tasa de error por tipo de comparación I. Por lo tanto, en caso de numerosas comparaciones, tiene una alta tasa de error familiar tipo I y, por lo tanto, es más propenso a descubrimientos falsos.

peuhp
fuente
8
(+1) Podría valer la pena explicar que la tasa de error en cuanto al experimento no está controlada por las quince comparaciones individuales que se planifican; Por otro lado, las posibles comparaciones más allá de las quince no previstas en el protocolo no necesitan ser tomadas en cuenta en la corrección de comparaciones múltiples.
Scortchi - Restablece a Monica
@Scortchi Gracias por su aporte, pero no entiendo qué quiere decir con "la tasa de error en cuanto al experimento no está controlada por las quince comparaciones individuales que se planifican".
peuhp
1
Solo el punto básico de que si desea controlar la probabilidad de cometer uno o más errores de Tipo I en todas esas pruebas, debe utilizar un procedimiento de comparaciones múltiples. Solo lo menciono porque me he encontrado con confusión sobre el asunto antes.
Scortchi - Restablece a Monica
2
Tenga en cuenta que este mismo problema surgió en un hilo muy reciente: la aplicación Post Hoc de comparaciones múltiples .
Michael R. Chernick
1
@Scortchi. Ok, gracias por esta aclaración y aporte, esto debería especificarse claramente en mi respuesta. Agregaré esto.
peuhp
5

Dada su actualización sobre el diseño, sugeriría que hagan algún tipo de modelo log-lineal para usar todos los datos a la vez. Hacer los análisis por piezas que han hecho parece (a) ineficiente (b) poco científico, ya que prueba 15 hipótesis donde seguramente hay menos hipótesis reales.

No soy fanático de corregir la multiplicidad como un reflejo condicionado, pero en este caso si rechazan un enfoque analítico más profundo, sugeriría que corrijan.

mdewey
fuente
1
Si todas las pruebas prueban la misma hipótesis, entonces también se puede usar alguna herramienta metaanalítica para "combinar" los resultados de las 15 pruebas en una sola. Usted es un experto en metanálisis, por lo que tal vez podría sugerir algo más específico. Como lo más simple, he visto personas que calculan el valor p para obtenerk15
1
χ2
4

Si sustituye la palabra 'premeditado' por 'planeado', esto puede ayudar a disipar el argumento ofrecido por los autores. Considere dos análisis estadísticos diferentes de los mismos datos:

  1. Un 'crimen premeditado' en el que cada prueba de hipótesis posible se presenta de forma combinatoria por adelantado por un 'cerebro criminal estadístico', el plan es probar cada uno sistemáticamente y elegir la prueba con el valor p más pequeño como el 'hallazgo clave' para promover en las secciones de Resultados, Discusión y Conclusión del documento, y de hecho también el Título.
  2. Un "crimen pasional" en el que la intención inicial era simplemente confrontar los datos con una hipótesis, pero "bueno ... una cosa lleva a otra" y múltiples pruebas de hipótesis ad hoc "simplemente suceden" en el calor de la pasión científica para aprender "algo ... cualquier cosa " de los datos.

De cualquier manera, es 'asesinato': la pregunta es si está en Primer Grado o Segundo Grado. Claramente, el primero es moralmente más problemático. Me parece que los autores aquí intentan reclamar algo en el sentido de que no fue asesinato porque fue premeditado.

David C. Norris
fuente
44
Pero hacer comparaciones múltiples no es un delito, premeditado o no. P-caza es.
Cliff AB