Cómo aplicar correctamente la prueba post-hoc de Nemenyi después de la prueba de Friedman

11

Estoy comparando el rendimiento de múltiples algoritmos en múltiples conjuntos de datos. Como no se garantiza que esas mediciones de rendimiento se distribuyan normalmente, elegí la prueba de Friedman con la prueba post-hoc de Nemenyi basada en Demšar (2006) .

Luego encontré otro artículo que, además de sugerir otros métodos como la prueba Quade con la posterior prueba post-Shaffer de Shaffer, aplican la prueba de Nemenyi de manera diferente.

¿Cómo aplico correctamente la prueba post-hoc de Nemenyi?

1. ¿Usando la estadística de rango Studentizado?

En el artículo de Demšar dice rechazar la hipótesis nula (sin diferencia de rendimiento de dos algoritmos) si la diferencia de rango promedio es mayor que la distancia crítica CD con

CD=qαk(k+1)6N

"donde los valores críticos qα se basan en la estadística del rango Studentizado dividida por "2.

Después de investigar un poco, descubrí que esos "valores críticos" pueden buscarse para ciertos alfa, por ejemplo en una tabla paraα=0.05 , para grados infinitos de libertad (en la parte inferior de cada tabla).

2. o usando la distribución normal?

Justo cuando pensaba que sabía qué hacer, encontré otro papel que me confundió nuevamente, porque solo estaban usando la distribución normal. Demšar afirma algo similar en la página 12:

Las estadísticas de prueba para comparar el clasificador i-th y j-th usando estos métodos son El valor z se usa para encontrar la probabilidad correspondiente de la tabla de distribución normal, que luego se compara con un apropiado . Las pruebas difieren en la forma en que ajustan el valor de para compensar las comparaciones múltiples.

z=(RiRj)k(k+1)6N
αα

En este párrafo estaba hablando de comparar todos los algoritmos con un algoritmo de control, pero la observación "difiere en la forma en que se ajustan ... para compensar las comparaciones múltiples" sugiere que esto también debería ser válido para la prueba de Nemenyi.

Entonces, lo que me parece lógico es calcular el valor p en función del estadístico de prueba , que normalmente se distribuye, y corregirlo dividiendo entre .zk(k1)/2

Sin embargo, eso produce diferencias de rango completamente diferentes para rechazar la hipótesis nula. Y ahora estoy atascado y no sé qué método aplicar. Me inclino fuertemente hacia el que usa la distribución normal , porque es más simple y más lógico para mí. Tampoco necesito buscar valores en tablas y no estoy obligado a ciertos valores de significación.

Por otra parte, nunca he trabajado con la estadística de rango estudiado y no lo entiendo.

Centinela
fuente

Respuestas:

5

También empecé a mirar esta pregunta.

Como se mencionó anteriormente, cuando usamos la distribución normal para calcular los valores de p para cada prueba, estos valores de p no tienen en cuenta múltiples pruebas. Para corregirlo y controlar la tasa de error familiar, necesitamos algunos ajustes. Bonferonni, es decir, dividir el nivel de significancia o multiplicar los valores p brutos por el número de pruebas, es solo una posible corrección. Hay una gran cantidad de otras correcciones de valores p de pruebas múltiples que en muchos casos son menos conservadoras.

Estas correcciones del valor p no tienen en cuenta la estructura específica de las pruebas de hipótesis.

Estoy más familiarizado con la comparación por pares de los datos originales en lugar de los datos transformados por rango como en las pruebas de Kruskal-Wallis o Friedman. En ese caso, que es la prueba Tukey HSD, el estadístico de prueba para la comparación múltiple se distribuye de acuerdo con la distribución del rango estudiado, que es la distribución para todas las comparaciones por pares bajo el supuesto de muestras independientes. Se basa en las probabilidades de distribución normal multivariada que podrían calcularse mediante integración numérica, pero generalmente se utilizan a partir de tablas.

Supongo que, dado que no conozco la teoría, es que la distribución de rango estudiada se puede aplicar al caso de las pruebas de rango de una manera similar a la de las comparaciones por pares Tukey HSD.

Por lo tanto, usar (2) distribución normal más múltiples correcciones de valor p de prueba y usar (1) distribuciones de rango estudiado son dos formas diferentes de obtener una distribución aproximada de las estadísticas de prueba. Sin embargo, si se cumplen los supuestos para el uso de la distribución del rango estudiado, entonces debería proporcionar una mejor aproximación ya que está diseñado para el problema específico de todas las comparaciones por pares.

Josef
fuente
1

Hasta donde sé, cuando se comparan solo 2 algoritmos, Demšar sugiere la prueba de rango con signo de Wilcoxon en lugar de Friedman + posthoc. Lamentablemente, estoy tan confundido como tú cuando se trata de descifrar lo que se supone que significa dividir demšar por k-1.

5xum
fuente
1
Dividir por (k-1) es cuando compara múltiples algoritmos con un método de control. Pero esto es cada uno versus cada uno, entonces NxN. La parte divisoria la puedo entender, pero la relación con la distribución del rango Studentizado está más allá de mi comprensión.
Centinela
@Sentry: debe multiplicar con el factor de ajuste aquí, no multiplicando. Por favor vea mi respuesta arriba.
Chris
0

También me topé con la pregunta de si calcular el valor p de una distribución t normal o estudiada. Desafortunadamente, todavía no puedo responder, porque diferentes documentos comunican diferentes métodos.

Sin embargo, para calcular los valores p ajustados, debe multiplicar el valor p no corregido con el factor de ajuste, p. Ej. P * (k-1) en caso de comparaciones con un método de control o p * ((k * (k-1 )) / 2) para nxn comparaciones.

Lo que debe dividir por el factor de ajuste es el valor alfa, si se compara con los p no ajustados.

Chris
fuente