Anova de interpretación de salida R

8

Tengo una pregunta sobre cómo un estadístico interpretaría normalmente una salida anova. Digamos que tengo salida anova de R.

> summary(fitted_data)

Call:
lm(formula = V1 ~ V2)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.74004 -0.33827  0.04062  0.44064  1.22737 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.11405    0.32089   6.588  1.3e-09 ***
V2           0.03883    0.01277   3.040  0.00292 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.6231 on 118 degrees of freedom
Multiple R-squared: 0.07262,    Adjusted R-squared: 0.06476 
F-statistic:  9.24 on 1 and 118 DF,  p-value: 0.002917 

> anova(fit)
Analysis of Variance Table

Response: V1
           Df Sum Sq Mean Sq F value   Pr(>F)   
V2          1  3.588  3.5878  9.2402 0.002917 **
Residuals 118 45.818  0.3883                    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

De lo anterior, supongo que el valor más importante es Pr (> F), ¿verdad? Entonces este Pr, es menor a 0.05 (nivel del 95%). ¿Cómo debería mi "explicar" esto? ¿Lo explico en "asociación", es decir, V2 y V1 están asociados (o no)? o en términos de "importancia"? Siempre sentí que no podía entender cuando la gente dice "Este valor es significativo ...". Entonces, ¿qué es "significativo"? ¿Existe una forma de explicación más intuitiva? como "Estoy 95% seguro de que ...".

Además, ¿es el valor Pr la única información importante? ¿O también puedo mirar los residuos y el resto de la salida para "explicar" el resultado? Gracias

dorothy
fuente
Por favor, muestre más sobre su modelofitted_data
Stéphane Laurent
Las respuestas a esta pregunta son (generosamente) incompletas. Consulte en su lugar stats.stackexchange.com/questions/12398/… ... o cualquier otra pregunta / respuesta relacionada.
michael

Respuestas:

2

De lo anterior, supongo que el valor más importante es Pr (> F), ¿verdad?

No para mí. La idea de que el tamaño del valor p es lo más importante en un ANOVA es generalizada, pero creo que está completamente equivocada. Para empezar, el valor p es una cantidad aleatoria (más aún cuando el nulo es verdadero, cuando se distribuye uniformemente entre 0 y 1). Como tal valor p más bajo puede no ser particularmente informativo en ningún caso, pero incluso más allá de la cuestión del tamaño del valor p, cosas como los tamaños del efecto son generalmente mucho más importantes.

Puede que quieras leer un poco

Cohen, J. (1990). Cosas que he aprendido (hasta ahora), American Psychologist 45, 1304-1312.

Cohen, J. (1994). La tierra es redonda (p <.05). Psicólogo estadounidense, 49, 997-1003.

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1119478/

http://www.biostat.jhsph.edu/~cfrangak/cominte/goodmanvalues.pdf

http://en.wikipedia.org/wiki/Statistical_hypothesis_testing#Ongoing_Controversy

-

Realmente no abordé la interpretación de la salida cuando un valor p está por debajo de . Sin decir exactamente qué hipótesis se está considerando, mencionar "importancia" parece inútil. En ese sentido, sería preferible mencionar la conclusión que resulta del rechazo de la nula.α

En el caso que presente, es difícil de interpretar sin contexto (ni siquiera sé si V2 es categórico o continuo), pero si V2 fuera continuo, podría decir algo acerca de concluir que hay una asociación entre V1 y V2. Si V2 fuera categórico (0-1), podría decir algo sobre las diferencias en la media V1 para las dos categorías, y así sucesivamente.

Ahora algunas cosas que NO debes decir:

es inferior a 0,05 (nivel del 95%)

Nunca llame a p <0.05 "significativo al nivel del 95%". Eso está mal. Tampoco debería llamarlo 95% de otra cosa.

como "Estoy 95% seguro de que ...".

Nunca digas eso tampoco. Está incorrecto.

Glen_b -Reinstate a Monica
fuente
Hola Gracias. Me gustaría ver estos artículos para comprender aún más los valores p. Si los valores p no son "confiables", en su opinión, ¿cuáles de los parámetros deberían decirnos más o menos algo sobre la relación entre V1 y V2? ¿R-cuadrado?
dorothy
> Si los valores p no son "confiables" --- Yo tampoco diría eso automáticamente. Creo que has ido demasiado lejos en la otra dirección. No es que no se pueda confiar en ellos (aunque si los usa incorrectamente, lo desviarán). Es más que ellos, y las pruebas de hipótesis en general, no suelen decirte lo que quieres que hagan. Los tamaños del efecto y los intervalos de confianza son más relevantes. tampoco es necesariamente una medida muy útil. R2
Glen_b -Reinstate Monica
En resumen, los valores p le dicen algo, simplemente no son, en mi opinión, generalmente los "más importantes".
Glen_b -Reinstate Monica
oh ok Miraré más en el intervalo de confianza de línea de línea y los tamaños de efecto para explicar los resultados. Muchas gracias.
dorothy
1
Lo importante depende principalmente de lo que le interesa descubrir. Para mí, generalmente son los coeficientes y sus errores estándar, y a veces s. A veces los valores p también me interesan. Pero otras veces tengo interés en alguna parte particular de la salida.
Glen_b -Reinstalar Monica
1

El fragmento de salida que podría mirar primero es este:

Multiple R-squared: 0.073,    Adjusted R-squared: 0.065
F-statistic:  9.24 on 1 and 118 DF,  p-value: 0.003

Le dice que el modelo general fue significativo (F (1,118) = 9.24, p = .003) Y V1 representa aproximadamente el 7% de la varianza en V2.

El tamaño del efecto (0.039) le dice que si V2 aumenta en 1, su modelo predice que V1 aumentará (relación positiva) en ~ .04). El error estándar en esa estimación (0.013) indica que (aproximadamente), el intervalo de confianza del 95% del efecto es CI95 = [.0135, .064] (es decir, .039- 1.96*.013a .039+ 1.96*.013)

El intervalo de confianza no incluye cero, que coincide (como debe ser) con el valor p.

Si desea una salida anova (como dice), debe solicitarla (no un resumen de regresión, que es lo que summary()da).

anova(), o, desde el carpaquete, Anovale dará esto. Dependiendo de sus propósitos, puede preferir la salida predeterminada de Anova del automóvil, que da el efecto de cada variable en su ANOVA como si se ingresara en último lugar, las llamadas " sumas de cuadrados de tipo III ".

Si cambiamos a un ejemplo incorporado usando el mtcarsconjunto de datos Rs de millas de automóvil por galón y otros datos como el peso y el tamaño del motor, puede generar un ejemplo de Anova:

m1 = lm(mpg ~ wt + disp + cyl+gear+am, data = mtcars);
Anova(m1)
El | El | Suma Sq | Df | Valor F | Pr (> F) |
|: --------- | ------: | -: | -------: | -------: |
| wt | 58.02 | 1 | 8,27 | 0,01 * |
| disp | 1,53 | 1 | 0,22 | 0,64 |
| cyl | 57,59 | 1 | 8,21 | 0,01 * |
| engranaje | 6.02 | 1 | 0,86 | 0,36 |
| am | 3,44 | 1 | 0,49 | 0,49 |
| Residuos | 182,41 | 26 | El | El |

Esto sugiere que el peso del vehículo y la cantidad de cilindros son factores significativos en el vehículo que alcanza millas por galón. Por supuesto, todas estas variables se confunden en el conjunto de datos de los automóviles, lo que demuestra que realmente necesitamos una teoría del consumo de combustible para avanzar aquí.

tim
fuente