¿Relación entre prueba de ómnibus y comparación múltiple?

8

Métodos que se basan en una prueba ómnibus antes de proceder a comparaciones múltiples . Típicamente, estos métodos requieren una prueba de rango ANOVA / Tukey significativa antes de proceder a comparaciones múltiples. Estos métodos tienen un control "débil" del error tipo I.

también

La prueba F en ANOVA es un ejemplo de una prueba ómnibus, que prueba la importancia general del modelo. Una prueba F significativa significa que entre las medias probadas, al menos dos de las medias son significativamente diferentes, pero este resultado no especifica exactamente qué medias son diferentes una de la otra. En realidad, la prueba significa que las diferencias han sido hechas por el estadístico F cuadrático racional (F = MSB / MSW). Para determinar qué media difiere de otra media o qué contraste de medias son significativamente diferentes, se deben realizar pruebas post hoc (pruebas de comparación múltiple) o pruebas planificadas después de obtener una prueba F omnibus significativa. Se puede considerar el uso de la corrección de Bonferroni simple u otra corrección adecuada.

Por lo tanto, se utiliza una prueba general para evaluar la importancia general, mientras que la comparación múltiple es para determinar qué diferencias son significativas.

Pero si entiendo correctamente, el objetivo principal de la comparación múltiple es probar la importancia general, y también puede encontrar qué diferencias son significativas. En otras palabras, la comparación múltiple puede hacer lo que puede hacer un ómnibus. Entonces, ¿por qué necesitamos una prueba ómnibus?

hypothesis-testing multiple-comparisons Tim
fuente

7

El propósito de los procedimientos de comparaciones múltiples no es probar la significación general, sino evaluar la significación de los efectos individuales mientras se controla la tasa de error experimental. Es bastante posible, por ejemplo, que una prueba F ómnibus sea significativa en un nivel dado, mientras que ninguna de las pruebas de Tukey en pares lo son, se discute aquí y aquí .

Considere un ejemplo muy simple: probar si dos variables normales independientes con varianza unitaria tienen media cero, de modo que

H_{0 0} : μ_{1} = 0 0 \land μ_{2} = 0 0

$H_0: \mu_1=0 \land \mu_2=0$

H_{1} : μ_{1} \neq 0 0 \lor μ_{2} \neq 0 0

$H_1: \mu_1 \neq 0 \lor \mu_2\neq 0$

Prueba n. ° 1: rechazar cuando

X_{1}^{2} + X_{2}^{2} \geq F_{χ_{2}^{2}}^{- 1} (1 - α)

$X_1^2+X_2^2 \geq F^{-1}_{\chi^2_2}(1-\alpha)$

Prueba # 2: rechazar cuando

El | X_{1} El | \lor El | X_{2} El | \geq F_{norte}^{- 1} (1 - \frac{1 - \sqrt{1 - α}}{2})

$|X_1| \lor |X_2|\geq F^{-1}_{\mathcal{N}} \left(1-\frac{1-\sqrt{1-\alpha}}{2}\right)$

(utilizando la corrección Sidak para mantener el tamaño general). Ambas pruebas tienen el mismo tamaño ( $\alpha$ ) pero diferentes regiones de rechazo:

Parcela de regiones de rechazo

La prueba n. ° 1 es una prueba general típica: más potente que la prueba n. ° 2 cuando ambos efectos son grandes pero ninguno es tan grande. La prueba n. ° 2 es una prueba típica de comparaciones múltiples: más poderosa que la prueba n. ° 1 cuando cualquiera de los efectos es grande y el otro pequeño, y también permite la prueba independiente de los componentes individuales del nulo global.

Entonces, dos procedimientos de prueba válidos que controlan la tasa de error experimental en $\alpha$ son estos:

(1) Realice la Prueba n. ° 1 y (a) no rechace el nulo global, o (b) rechace el nulo global, luego (y solo en este caso) realice la Prueba n. ° 2 y (i) rechace ninguno de los componentes, (ii) rechazar el primer componente, (ii) rechazar el segundo componente, o (iv) rechazar ambos componentes.

(2) Realice solo la Prueba n. ° 2 y (a) rechace ninguno de los componentes (por lo tanto, no rechace el nulo global), (b) rechace el primer componente (rechazando también el nulo global), (c) rechace el segundo componente ( rechazando así el nulo global), o (d) rechazando ambos componentes (rechazando también el nulo global).

No puede tener su pastel y comérselo realizando la Prueba n. ° 1 y no rechazando el valor nulo global, y aún así realizando la Prueba n. ° 2: la tasa de error Tipo I es mayor que $\alpha$ para este procedimiento

Scortchi - Restablece a Monica
fuente

¡Gracias! (1) ¿No se rechaza el nulo global si y solo si se rechaza al menos un nulo individual? Entonces, ¿los procedimientos de comparación múltiple pueden probar el valor nulo global, es decir, la importancia general? (2) "pero solo para comprobar la importancia de los efectos individuales mientras se controla la tasa de error experimental", ¿quiere decir que múltiples procedimientos de comparación pueden identificar qué nulos individuales se rechazan cuando se rechaza el nulo global?

Tim

2

(1) Eso es correcto si tacha 'y solo si'. Poirot puede estar seguro de que hay un asesino a bordo del Orient Express sin estar seguro de quién es. (Pero debería eliminar el ' solo ' de mi respuesta) (2) Sí.

Scortchi - Restablece a Monica

¡Gracias! En (1), "si tacha 'y solo si'", ¿quiere decir que se pueden usar múltiples procedimientos de comparación para probar el valor nulo global, pero produce más errores falsos negativos que una prueba omnibus?

Tim

Las tasas de errores negativos falsos dependen de cómo el nulo está mal. Vea el ejemplo que agregué.

Scortchi - Restablece a Monica

1

Al probar m hipótesis, hay $2^m$ combinaciones de hipótesis que uno puede probar. Una de ellas es la hipótesis "nula global", también conocida como la "hipótesis de intersección": $\cap H_i^0$ .

Una prueba general suele ser un nombre para probar la hipótesis nula global. Un requisito mínimo básico de un procedimiento de prueba múltiple es el control de errores bajo el valor nulo global. Esto se conoce como control "FWER débil". Pero probablemente no se detendrá allí: con el propósito de inferencia en hipótesis particulares, querrá un procedimiento que ofrezca control FWER bajo cualquier combinación de nulos verdaderos. Esto se conoce como control "FWER fuerte".

JohnRos
fuente

¿Puedes decir un poco más sobre eso?

2^{m}

$2^m$ ¿figura? Dado

k

$k$ grupos, uno tiene

k (k - 1) / 2

$k(k-1)/2$ máximas posibles comparaciones múltiples por pares, y ese número + 1 para la prueba general ... ¿Incluye todos los posibles (por ejemplo, pares <triples <

k

$k$ pruebas de tamaño)?

Alexis

Creo que lo que JohnRos quiso decir es que hay 2 ^ m combinaciones posibles de hipótesis nulas verdadero / falso. Por ejemplo, si hay 3 hipótesis nulas y cada una podría ser verdadera (T) o falsa (F), entonces hay 2 ^ 3 = 8 escenarios posibles: TTT, TTF, TFT, TFF, FTT, FTF, FFT, FFF . No estoy seguro de cómo es relevante, ya que para comparaciones múltiples nos interesa la cantidad de pruebas (que es 3), no la cantidad de combinaciones únicas de Ts y Fs.

Bonferroni el

1

Además de los cálculos asociados con las pruebas Pair-Wise, hay algo más por qué se usa ANOVA en lugar de hacer todas las pruebas PAIR-WISE.

A veces, es posible que aunque ANOVA rechace la hipótesis nula de que todas las medias de la población son iguales en algún nivel de confianza, pero si toma todas las pruebas por pares (digamos LSD), es posible que no encuentre ni siquiera al menos un par de medias que excede la diferencia en ese nivel de confianza.

Prueba matemática de la afirmación anterior, teniendo en cuenta las pruebas de FISHER'S LSD por parejas

aquí: $S_p$ es la desviación estándar dentro de los cuadrados.

Toma el caso, cuando tenemos $N$ grupos, entonces, tenemos $N(N-1)/2$ pruebas por pares.

Suma todos esos $N(N-1)/2$ pruebas:

Después de dividir por $(N-1)$ (como es el DoF) y cuadratura en ambos lados:

en el LHS, obtenemos la misma cantidad utilizada en ANOVA; Sin embargo, en el RHS, obtenemos el $N/2$ * Estadística de prueba de ANOVA.

Entonces, incluso si todas las pruebas de LSD por pares juntas no pueden rechazar las hipótesis nulas, todavía hay una buena posibilidad de que ANOVA pueda rechazar las hipótesis nulas.

Por lo tanto, ANOVA contiene más información que en todas las pruebas de pares consideradas juntas.

PD: Disculpas por usar la imagen en lugar de escribir las ecuaciones.

Honeybadger
fuente

¿Relación entre prueba de ómnibus y comparación múltiple?

Respuestas: