¿Cómo interpretar el valor F y p en ANOVA?

40

Soy nuevo en estadísticas y actualmente trato con ANOVA. Realizo una prueba ANOVA en R usando

aov(dependendVar ~ IndependendVar)

Obtengo, entre otros, un valor F y un valor p.

Mi hipótesis nula ( ) es que todas las medias grupales son iguales.H0 0

Hay mucha información disponible sobre cómo se calcula F , pero no sé cómo leer una estadística F y cómo F y p están conectados.

Entonces, mis preguntas son:

  1. ¿Cómo determino el valor F crítico para rechazar ?H0 0
  2. ¿Cada F tiene un valor p correspondiente, por lo que ambos significan básicamente lo mismo? (p. ej., si , entonces se rechaza )pags<0,05H0 0
JanD
fuente
1
¿Has probado los comandos summary(aov(dependendVar ~ IndependendVar)))o summary(lm(dependendVar ~ IndependendVar))? ¿Quiere decir que todas las medias grupales son iguales entre sí e iguales a 0 o solo entre sí?
RyanB
Sí, probé el summary(aov...). Gracias por el lm.*, no sabía sobre esto :-) No entiendo lo que quieres decir con igual a 0. Si eso es la abreviatura de mi hipótesis 0, entonces la hipótesis necesitaría un valor, y no probé en uno específico, así que en este caso: ¡solo el uno para el otro!
JanD
1
Para una explicación intuitiva, mire el blog de Yhat sobre el tema de la regresión.
DataTx

Respuestas:

14

Para responder tu pregunta:

  1. Encuentra el valor F crítico de una distribución F (aquí hay una tabla ). Mira un ejemplo . Debe tener cuidado con los grados de libertad de numerador y denominador de un sentido versus dos.

  2. Sí.

dfrankow
fuente
No tiene sentido hablar de comparaciones de una o dos vías en una prueba general como la prueba F.
Marcus Morrisey
3
Marcus Morrisey: Creo que estás confundiendo uno contra dos colas con uno contra dos. La prueba F no tiene múltiples "colas" para elegir, pero ANOVA unidireccional versus ANOVA bidireccional debe tenerse en cuenta al construir la estadística de prueba.
Emiller
29

El estadístico F es una relación de 2 medidas diferentes de varianza para los datos. Si la hipótesis nula es cierta, ambas son estimaciones de lo mismo y la proporción será de alrededor de 1.

El numerador se calcula midiendo la varianza de las medias y si las medias verdaderas de los grupos son idénticas, entonces esta es una función de la varianza general de los datos. Pero si la hipótesis nula es falsa y las medias no son todas iguales, entonces esta medida de varianza será mayor.

El denominador es un promedio de las variaciones de la muestra para cada grupo, que es una estimación de la variación de la población general (suponiendo que todos los grupos tengan las mismas variaciones).

Entonces, cuando el valor nulo de todos los medios es verdadero, entonces las 2 medidas (con algunos términos adicionales para grados de libertad) serán similares y la relación será cercana a 1. Si el valor nulo es falso, el numerador será grande en relación con el denominador y la razón serán mayores que 1. Buscar esta relación en la tabla F (o calcularla con una función como pf en R) dará el valor p.

Si prefiere usar una región de rechazo que un valor p, puede usar la tabla F o la función qf en R (u otro software). La distribución F tiene 2 tipos de grados de libertad. Los grados de libertad del numerador se basan en el número de grupos que está comparando (para 1 sentido es el número de grupos menos 1) y los grados de libertad del denominador se basan en el número de observaciones dentro de los grupos (para 1- forma es el número de observaciones menos el número de grupos). Para modelos más complicados, los grados de libertad se vuelven más complicados, pero siguen ideas similares.

Greg Snow
fuente
¡Gracias por la explicación! Supongo que si puedo buscar el valor F en una tabla para ver el valor p, entonces p y F son solo dos formas de expresar la probabilidad de que un resultado como el analizado pueda ocurrir si el H0 es correcto.
JanD
2
En todas las estadísticas paramétricas hay un enlace funcional directo entre el estadístico de prueba (F en este caso) y el valor p. Estos se han puesto en la tabla por conveniencia, pero también se pueden calcular directamente. Puede usar alfa para encontrar el límite de una región crítica para comparar el estadístico de prueba (que creo que es más intuitivo) o usar el estadístico de prueba calculado para encontrar el valor p para comparar con alfa. En cualquier caso, comenzamos con un nivel alfa y una fórmula estadística de prueba que sigue una distribución dada cuando el valor nulo es verdadero.
Greg Snow
20

Fpags

ingrese la descripción de la imagen aquí

FFFpagsFFpagsFpags

Debería notar un par de otras cosas sobre la distribución bajo hipótesis nula:

F

F

dodoFdopagspags=0,175

FFreF1=3reF1=2

ingrese la descripción de la imagen aquí

Fχ2χ2Fχ2zFtt

¡Eso es mucho más de lo que pretendía escribir, pero espero que cubra sus preguntas!

(Si se pregunta de dónde provienen los diagramas, mi asistente de estadísticas de escritorio los generó automáticamente ).

Emiller
fuente