Me temo que las preguntas relacionadas no respondieron a las mías. Evaluamos el rendimiento de> 2 clasificadores (aprendizaje automático). Nuestra hipótesis nula es que los rendimientos no difieren. Realizamos pruebas paramétricas (ANOVA) y no paramétricas (Friedman) para evaluar esta hipótesis. Si son significativos, queremos averiguar qué clasificadores difieren en una búsqueda post-hoc.
Mi pregunta es doble:
1) ¿Es necesaria una corrección de los valores de p después de múltiples pruebas de comparación? El sitio alemán de Wikipedia en "Alphafehler Kumulierung" dice que el problema solo ocurre si se prueban múltiples hipótesis con los mismos datos. Al comparar los clasificadores (1,2), (1,3), (2,3), los datos solo se superponen parcialmente. ¿Sigue siendo necesario corregir los valores p?
2) La corrección del valor P a menudo se usa después de la prueba por pares con una prueba t. ¿También es necesario cuando se realizan pruebas post-hoc especializadas, como la prueba de HSD de Nemenyi (no paramétrica) o de Tukey? Esta respuesta dice "no" para el HSD de Tukey: ¿Corrige la prueba HSD de Tukey las comparaciones múltiples? . ¿Existe una regla o tengo que buscar esto para cada posible prueba post-hoc?
¡Gracias!
Respuestas:
Respuesta a la pregunta 1
Debe ajustar las comparaciones múltiples si le preocupa la probabilidad de que cometa un error de Tipo I. Una combinación simple de metáfora / experimento mental puede ayudar:
Si no le importan los errores, y no le importan las personas que dirigen su atención repetidamente y burlonamente a ciertos dibujos animados sobre gominolas , continúe y no se ajuste a las comparaciones múltiples.
El problema de los "mismos datos" surge en los métodos de corrección de errores familiar (por ejemplo, Bonferroni, Holm-Sidák, etc.), ya que el concepto de "familia" es algo vago. Sin embargo, los métodos de tasa de descubrimiento falso (por ejemplo, Benjamini y Hochberg, Benjamini y Yeuketeli, etc.) tienen la propiedad de que sus resultados son sólidos en diferentes grupos de inferencias.
Respuesta a la pregunta 2
La mayoría de las pruebas por pares requieren corrección, aunque existen diferencias estilísticas y disciplinarias en lo que se denomina prueba. Por ejemplo, algunas personas se refieren a " pruebas t de Bonferroni " (que es un buen truco, ya que Bonferroni no desarrolló ni la prueba t ni el ajuste de Bonferroni para comparaciones múltiples :). Personalmente, esto me parece insatisfactorio, ya que (1) me gustaría hacer una distinción entre realizar un grupo de pruebas estadísticas y ajustar las comparaciones múltiples para comprender de manera efectiva las inferencias que estoy haciendo, y (2) cuando alguien viene con una nueva prueba por pares fundada en una definición sólida de , entonces sé que puedo realizar ajustes para múltiples comparaciones.
fuente