Estoy comparando el rendimiento de múltiples algoritmos en múltiples conjuntos de datos. Como no se garantiza que esas mediciones de rendimiento se distribuyan normalmente, elegí la prueba de Friedman con la prueba post-hoc de Nemenyi basada en Demšar (2006) .
Luego encontré otro artículo que, además de sugerir otros métodos como la prueba Quade con la posterior prueba post-Shaffer de Shaffer, aplican la prueba de Nemenyi de manera diferente.
¿Cómo aplico correctamente la prueba post-hoc de Nemenyi?
1. ¿Usando la estadística de rango Studentizado?
En el artículo de Demšar dice rechazar la hipótesis nula (sin diferencia de rendimiento de dos algoritmos) si la diferencia de rango promedio es mayor que la distancia crítica CD con
"donde los valores críticos qα se basan en la estadística del rango Studentizado dividida por "
Después de investigar un poco, descubrí que esos "valores críticos" pueden buscarse para ciertos alfa, por ejemplo en una tabla para , para grados infinitos de libertad (en la parte inferior de cada tabla).
2. o usando la distribución normal?
Justo cuando pensaba que sabía qué hacer, encontré otro papel que me confundió nuevamente, porque solo estaban usando la distribución normal. Demšar afirma algo similar en la página 12:
Las estadísticas de prueba para comparar el clasificador i-th y j-th usando estos métodos son El valor z se usa para encontrar la probabilidad correspondiente de la tabla de distribución normal, que luego se compara con un apropiado . Las pruebas difieren en la forma en que ajustan el valor de para compensar las comparaciones múltiples.
En este párrafo estaba hablando de comparar todos los algoritmos con un algoritmo de control, pero la observación "difiere en la forma en que se ajustan ... para compensar las comparaciones múltiples" sugiere que esto también debería ser válido para la prueba de Nemenyi.
Entonces, lo que me parece lógico es calcular el valor p en función del estadístico de prueba , que normalmente se distribuye, y corregirlo dividiendo entre .
Sin embargo, eso produce diferencias de rango completamente diferentes para rechazar la hipótesis nula. Y ahora estoy atascado y no sé qué método aplicar. Me inclino fuertemente hacia el que usa la distribución normal , porque es más simple y más lógico para mí. Tampoco necesito buscar valores en tablas y no estoy obligado a ciertos valores de significación.
Por otra parte, nunca he trabajado con la estadística de rango estudiado y no lo entiendo.
fuente
También me topé con la pregunta de si calcular el valor p de una distribución t normal o estudiada. Desafortunadamente, todavía no puedo responder, porque diferentes documentos comunican diferentes métodos.
Sin embargo, para calcular los valores p ajustados, debe multiplicar el valor p no corregido con el factor de ajuste, p. Ej. P * (k-1) en caso de comparaciones con un método de control o p * ((k * (k-1 )) / 2) para nxn comparaciones.
Lo que debe dividir por el factor de ajuste es el valor alfa, si se compara con los p no ajustados.
fuente