Las páginas de ayuda en R suponen que sé lo que significan esos números, pero no lo sé. Estoy tratando de entender intuitivamente cada número aquí. Solo publicaré el resultado y comentaré lo que descubrí. Puede haber (habrá) errores, ya que escribiré lo que supongo. Principalmente me gustaría saber qué significa el valor t en los coeficientes y por qué imprimen el error estándar residual.
Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)
Residuals:
Min 1Q Median 3Q Max
-1.09907 -0.23626 -0.01064 0.23345 1.17532
Este es un resumen de 5 puntos de los residuos (su media es siempre 0, ¿verdad?). Los números se pueden usar (supongo que aquí) para ver rápidamente si hay grandes valores atípicos. También puede verlo aquí si los residuos están lejos de estar normalmente distribuidos (deberían estar normalmente distribuidos).
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.30843 0.06210 53.278 < 2e-16 ***
iris$Petal.Width -0.20936 0.04374 -4.786 4.07e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Estimaciones , calculadas por regresión de mínimos cuadrados. Además, el error estándar es . Me gustaría saber cómo se calcula esto. No tengo idea de dónde provienen el valor t y el valor p correspondiente. Sé que debería estar distribuido normalmente, pero ¿cómo se calcula el valor t?
Residual standard error: 0.407 on 148 degrees of freedom
, supongo. Pero, ¿por qué calculamos eso y qué nos dice?
Multiple R-squared: 0.134, Adjusted R-squared: 0.1282
, que es . La relación es cercana a 1 si los puntos se encuentran en una línea recta, y 0 si son aleatorios. ¿Cuál es el R cuadrado ajustado?
F-statistic: 22.91 on 1 and 148 DF, p-value: 4.073e-06
F y p para todo el modelo, no solo para s como antes. El valor F es . Cuanto más grande crece, más improbable es que los 's no tengan ningún efecto en absoluto.
fuente
Respuestas:
Resumen de cinco puntos
Sí, la idea es dar un resumen rápido de la distribución. Debería ser aproximadamente simétrico respecto a la media, la mediana debería estar cerca de 0, los valores 1Q y 3Q deberían ser valores aproximadamente similares.
Coeficientes yβi^s
Cada coeficiente en el modelo es una variable aleatoria gaussiana (normal). El es la estimación de la media de la distribución de esa variable aleatoria, y el error estándar es la raíz cuadrada de la varianza de esa distribución. Es una medida de la incertidumbre en la estimación de .βi^ βi^
Puede ver cómo se calculan estos (bueno, las fórmulas matemáticas utilizadas) en Wikipedia . Tenga en cuenta que cualquier programa de estadísticas respetuoso no utilizará las ecuaciones matemáticas estándar para calcular el porque hacerlo en una computadora puede conducir a una gran pérdida de precisión en los cálculos.βi^
Las estadísticas son las estimaciones ( ) divididas por sus errores estándar ( ), por ejemplo, . Suponiendo que tiene el mismo modelo en objeto que su Q:t βi^ σi^ ti=βi^σi^
mod
entonces los informes valores R se calculan como:t
Dondeβi^ σi^
coef(mod)
están los , y da las raíces cuadradas de los elementos diagonales de la matriz de covarianza de los parámetros del modelo, que son los errores estándar de los parámetros ( ).sqrt(diag(vcov(mod)))
El valor p es la probabilidad de lograr atan grande o mayor que el valor t absoluto observado si la hipótesis nula ( ) era verdadera, donde es . Se calculan como (usando desde arriba):|t| H0 H0 βi=0
tstats
Entonces calculamos la probabilidad de la cola superior de lograr los valores que hicimos a partir de una distribución con grados de libertad iguales a los grados residuales de libertad del modelo. Esto representa la probabilidad de lograr un valor mayor que los valores absolutos de los s observados . Se multiplica por 2, porque, por supuesto, puede ser grande en la dirección negativa.t t t t t
Error estándar residual
El error estándar residual es una estimación del parámetro . La suposición en mínimos cuadrados ordinarios es que los residuos se describen individualmente por una distribución gaussiana (normal) con media 0 y desviación estándar . La relaciona con el supuesto de varianza constante; cada residual tiene la misma varianza y esa varianza es igual a .σ σ σ σ2
ajustadoR2
ajustado se calcula como:R2
El ajustado es lo mismo que , pero ajustado por la complejidad (es decir, el número de parámetros) del modelo. Dado un modelo con un solo parámetro, con un cierto , si agregamos otro parámetro a este modelo, el del nuevo modelo tiene que aumentar, incluso si el parámetro agregado no tiene poder estadístico. El ajustado explica esto al incluir el número de parámetros en el modelo.R2 R2 R2 R2 R2
LaF SSR/SSE
anova()
summary(mod)
Mean Sq
fuente
Ronen Israel y Adrienne Ross (AQR) escribieron un artículo muy bueno sobre este tema: Medición de exposiciones a factores: usos y abusos .
Para resumir (ver: p. 8),
El
lm()
resumen de R calcula el valor pPr(>|t|)
. Cuanto más pequeño es el valor p, más significativo es el factor. El valor P = 0.05 es un umbral razonable.fuente