Tengo una pregunta sobre cómo un estadístico interpretaría normalmente una salida anova. Digamos que tengo salida anova de R.
> summary(fitted_data)
Call:
lm(formula = V1 ~ V2)
Residuals:
Min 1Q Median 3Q Max
-2.74004 -0.33827 0.04062 0.44064 1.22737
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.11405 0.32089 6.588 1.3e-09 ***
V2 0.03883 0.01277 3.040 0.00292 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.6231 on 118 degrees of freedom
Multiple R-squared: 0.07262, Adjusted R-squared: 0.06476
F-statistic: 9.24 on 1 and 118 DF, p-value: 0.002917
> anova(fit)
Analysis of Variance Table
Response: V1
Df Sum Sq Mean Sq F value Pr(>F)
V2 1 3.588 3.5878 9.2402 0.002917 **
Residuals 118 45.818 0.3883
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
De lo anterior, supongo que el valor más importante es Pr (> F), ¿verdad? Entonces este Pr, es menor a 0.05 (nivel del 95%). ¿Cómo debería mi "explicar" esto? ¿Lo explico en "asociación", es decir, V2 y V1 están asociados (o no)? o en términos de "importancia"? Siempre sentí que no podía entender cuando la gente dice "Este valor es significativo ...". Entonces, ¿qué es "significativo"? ¿Existe una forma de explicación más intuitiva? como "Estoy 95% seguro de que ...".
Además, ¿es el valor Pr la única información importante? ¿O también puedo mirar los residuos y el resto de la salida para "explicar" el resultado? Gracias
fuente
fitted_data
Respuestas:
No para mí. La idea de que el tamaño del valor p es lo más importante en un ANOVA es generalizada, pero creo que está completamente equivocada. Para empezar, el valor p es una cantidad aleatoria (más aún cuando el nulo es verdadero, cuando se distribuye uniformemente entre 0 y 1). Como tal valor p más bajo puede no ser particularmente informativo en ningún caso, pero incluso más allá de la cuestión del tamaño del valor p, cosas como los tamaños del efecto son generalmente mucho más importantes.
Puede que quieras leer un poco
Cohen, J. (1990). Cosas que he aprendido (hasta ahora), American Psychologist 45, 1304-1312.
Cohen, J. (1994). La tierra es redonda (p <.05). Psicólogo estadounidense, 49, 997-1003.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1119478/
http://www.biostat.jhsph.edu/~cfrangak/cominte/goodmanvalues.pdf
http://en.wikipedia.org/wiki/Statistical_hypothesis_testing#Ongoing_Controversy
-
Realmente no abordé la interpretación de la salida cuando un valor p está por debajo de . Sin decir exactamente qué hipótesis se está considerando, mencionar "importancia" parece inútil. En ese sentido, sería preferible mencionar la conclusión que resulta del rechazo de la nula.α
En el caso que presente, es difícil de interpretar sin contexto (ni siquiera sé si V2 es categórico o continuo), pero si V2 fuera continuo, podría decir algo acerca de concluir que hay una asociación entre V1 y V2. Si V2 fuera categórico (0-1), podría decir algo sobre las diferencias en la media V1 para las dos categorías, y así sucesivamente.
Ahora algunas cosas que NO debes decir:
Nunca llame a p <0.05 "significativo al nivel del 95%". Eso está mal. Tampoco debería llamarlo 95% de otra cosa.
Nunca digas eso tampoco. Está incorrecto.
fuente
El fragmento de salida que podría mirar primero es este:
Le dice que el modelo general fue significativo (F (1,118) = 9.24, p = .003) Y V1 representa aproximadamente el 7% de la varianza en V2.
El tamaño del efecto (0.039) le dice que si V2 aumenta en 1, su modelo predice que V1 aumentará (relación positiva) en ~ .04). El error estándar en esa estimación (0.013) indica que (aproximadamente), el intervalo de confianza del 95% del efecto es CI95 = [.0135, .064] (es decir,
.039- 1.96*.013
a.039+ 1.96*.013
)El intervalo de confianza no incluye cero, que coincide (como debe ser) con el valor p.
Si desea una salida anova (como dice), debe solicitarla (no un resumen de regresión, que es lo que
summary()
da).anova
(), o, desde elcar
paquete,Anova
le dará esto. Dependiendo de sus propósitos, puede preferir la salida predeterminada de Anova del automóvil, que da el efecto de cada variable en su ANOVA como si se ingresara en último lugar, las llamadas " sumas de cuadrados de tipo III ".Si cambiamos a un ejemplo incorporado usando el
mtcars
conjunto de datos Rs de millas de automóvil por galón y otros datos como el peso y el tamaño del motor, puede generar un ejemplo de Anova:Esto sugiere que el peso del vehículo y la cantidad de cilindros son factores significativos en el vehículo que alcanza millas por galón. Por supuesto, todas estas variables se confunden en el conjunto de datos de los automóviles, lo que demuestra que realmente necesitamos una teoría del consumo de combustible para avanzar aquí.
fuente