¿Cuándo corregir los valores de p en comparaciones múltiples?

11

Me temo que las preguntas relacionadas no respondieron a las mías. Evaluamos el rendimiento de> 2 clasificadores (aprendizaje automático). Nuestra hipótesis nula es que los rendimientos no difieren. Realizamos pruebas paramétricas (ANOVA) y no paramétricas (Friedman) para evaluar esta hipótesis. Si son significativos, queremos averiguar qué clasificadores difieren en una búsqueda post-hoc.

Mi pregunta es doble:

1) ¿Es necesaria una corrección de los valores de p después de múltiples pruebas de comparación? El sitio alemán de Wikipedia en "Alphafehler Kumulierung" dice que el problema solo ocurre si se prueban múltiples hipótesis con los mismos datos. Al comparar los clasificadores (1,2), (1,3), (2,3), los datos solo se superponen parcialmente. ¿Sigue siendo necesario corregir los valores p?

2) La corrección del valor P a menudo se usa después de la prueba por pares con una prueba t. ¿También es necesario cuando se realizan pruebas post-hoc especializadas, como la prueba de HSD de Nemenyi (no paramétrica) o de Tukey? Esta respuesta dice "no" para el HSD de Tukey: ¿Corrige la prueba HSD de Tukey las comparaciones múltiples? . ¿Existe una regla o tengo que buscar esto para cada posible prueba post-hoc?

¡Gracias!

Chris
fuente
¿Por qué realiza las pruebas ANOVA y Friedman?
Alexis
Se trata de un marco de prueba automatizado que debería proporcionar al revisor una alternativa paramétrica y no paramétrica, si no se cumplen los supuestos paramétricos.
Chris
1
Acerca de las pruebas generales que mencionó: (A) si sus grupos de datos son independientes, debe usar la prueba ANOVA (paramétrica) o Kruskal-Wallis (no paramétrica); (B) si sus grupos son dependientes (p. Ej., Medidas repetidas), entonces debe usar la prueba ANOVA de medidas repetidas (paramétrica) o de Friedman (no paramétrica). (Clásico) ANOVA y prueba de Friedman ya que su alternativa no suena correcta.
GegznaV

Respuestas:

10

Respuesta a la pregunta 1
Debe ajustar las comparaciones múltiples si le preocupa la probabilidad de que cometa un error de Tipo I. Una combinación simple de metáfora / experimento mental puede ayudar:

Imagina que quieres ganar la lotería. Esta lotería, por extraño que parezca, te da una probabilidad de ganar de 0,05 (es decir, 1 de cada 20). M es el costo del boleto en esta lotería, lo que significa que su retorno esperado para una sola llamada de lotería es M / 20. Ahora aún más extraño, imagine que por razones desconocidas, este costo, M , le permite tener tantos boletos de lotería como desee (o al menos más de dos). Pensando en ti mismo "cuanto más juegas, más ganas" agarras un montón de boletos. Su rendimiento esperado en una llamada de lotería ya no es M / 20, sino algo un poco más grande. Ahora reemplace "ganar la lotería" con "cometer un error Tipo I".

Si no le importan los errores, y no le importan las personas que dirigen su atención repetidamente y burlonamente a ciertos dibujos animados sobre gominolas , continúe y no se ajuste a las comparaciones múltiples.

El problema de los "mismos datos" surge en los métodos de corrección de errores familiar (por ejemplo, Bonferroni, Holm-Sidák, etc.), ya que el concepto de "familia" es algo vago. Sin embargo, los métodos de tasa de descubrimiento falso (por ejemplo, Benjamini y Hochberg, Benjamini y Yeuketeli, etc.) tienen la propiedad de que sus resultados son sólidos en diferentes grupos de inferencias.


Respuesta a la pregunta 2
La mayoría de las pruebas por pares requieren corrección, aunque existen diferencias estilísticas y disciplinarias en lo que se denomina prueba. Por ejemplo, algunas personas se refieren a " pruebas t de Bonferroni " (que es un buen truco, ya que Bonferroni no desarrolló ni la prueba t ni el ajuste de Bonferroni para comparaciones múltiples :). Personalmente, esto me parece insatisfactorio, ya que (1) me gustaría hacer una distinción entre realizar un grupo de pruebas estadísticas y ajustar las comparaciones múltiples para comprender de manera efectiva las inferencias que estoy haciendo, y (2) cuando alguien viene con una nueva prueba por pares fundada en una definición sólida de , entonces sé que puedo realizar ajustes para múltiples comparaciones.α

Alexis
fuente
2
+1 para una respuesta completa y humorística (y para referirse a xkcd). En particular, también abordó mi pregunta aún no verbalizada de si hay una diferencia entre "Bonferroni-test" y "Bonferroni-correct". Sin embargo, ¿le importaría explicar el problema de las comparaciones múltiples en términos de la descripción de mi problema? Entiendo que un clasificador es como un grupo de tratamiento sin gominolas / azul / verde / ... en el cómic.
Chris
@ Chris De nada ... No estoy muy seguro de lo que estás preguntando. Sí, se necesitan múltiples comparaciones. Sí, puede realizar ajustes FWER o FDR en cualquier prueba por pares que devuelva valores (los procedimientos generalmente modifican los valores , o modifican el nivel de rechazo, ya sea general o secuencialmente). ppp
Alexis
Creo que está bien, ¡muchas gracias! Podría llevarme más tiempo aplicar el ejemplo de la lotería a mi caso de uso, pero se me ocurrió la idea.
Chris
@ Chris entiende que la lotería fue solo una metáfora. Si necesita ayuda para aplicar los métodos FWER o FDR, consulte las entradas de Wikipedia, busque preguntas relacionadas aquí o, tal vez, haga una nueva pregunta al respecto. :)
Alexis