¿Cuál es la fórmula exacta utilizada en R lm()
para el R cuadrado ajustado? ¿Cómo puedo interpretarlo?
Fórmulas r-cuadrado ajustadas
Parece que existen varias fórmulas para calcular el R cuadrado ajustado.
- Fórmula de Wherry:
- Fórmula de McNemar:
- Fórmula del Señor:
- Fórmula de Stein:
Descripciones de libros de texto
- Según el libro de texto de Field, Discovering Statistics Using R (2012, p. 273) R usa la ecuación de Wherry que "nos dice cuánta varianza en Y se tendría en cuenta si el modelo se hubiera derivado de la población de la que se tomó la muestra". Él no da la fórmula para Wherry. Recomienda usar la fórmula de Stein (a mano) para verificar qué tan bien el modelo valida de forma cruzada.
- Kleiber / Zeileis, Applied Econometrics with R (2008, p. 59) afirman que es "R-cuadrado ajustado de Theil" y no dicen exactamente cómo varía su interpretación de los múltiples R-cuadrados.
- Dalgaard, Introductory Statistics with R (2008, p. 113) escribe que "si multiplica [R-cuadrado ajustado] por 100%, puede interpretarse como '% de reducción de la varianza'". No dice a qué fórmula corresponde esto.
Previamente pensé, y leí ampliamente, que el R cuadrado penaliza por agregar variables adicionales al modelo. Ahora, el uso de estas fórmulas diferentes parece requerir diferentes interpretaciones. También examiné una pregunta relacionada sobre el desbordamiento de pila ( ¿Cuál es la diferencia entre el R cuadrado múltiple y el R cuadrado ajustado en una regresión de mínimos cuadrados de una sola variable? ) Y el diccionario estadístico de la escuela de Wharton en UPenn .
Preguntas
- ¿Qué fórmula se usa para R-cuadrado ajustado por R
lm()
? - ¿Cómo puedo interpretarlo?
ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)
, donde ans $ r.squared = R ^ 2; n = n, RDF = residual df, df.int = intercepto df (0 o 1).Respuestas:
1. ¿Qué fórmula usa
lm
en R para el cuadrado r ajustado?Como ya se mencionó, escribir
summary.lm
le dará el código que R usa para calcular R cuadrado ajustado. Extrayendo la línea más relevante que obtienes:que corresponde en notación matemática a:
suponiendo que hay una intersección (es decir,norte pags
df.int=1
), es el tamaño de la muestra y es el número de predictores. Por lo tanto, su error grados de libertad (es decir, ) es igual .prdf
n-p-1
La fórmula corresponde a lo que Yin y Fan (2001) denominan Wherry Formula-1 (aparentemente hay otra fórmula de Wherry menos común que usa en el denominador en lugar de ). Sugieren que sus nombres más comunes en orden de aparición son "fórmula de Wherry", "Ezekiel formlua", "fórmula de Wherry / McNemar" y "fórmula de Cohen / Cohen".n - p - 1n - p n - p - 1
2. ¿Por qué hay tantas fórmulas ajustadas de r-cuadrado?
ρ 2 ρ 2R2a dj tiene como objetivo estimar , la proporción de varianza explicada en la población por la ecuación de regresión poblacional. Si bien esto está claramente relacionado con el tamaño de la muestra y el número de predictores, cuál es el mejor estimador es menos claro. Por lo tanto, tiene estudios de simulación como Yin y Fan (2001) que han evaluado diferentes fórmulas r-cuadrado ajustadas en términos de qué tan bien estiman (vea esta pregunta para una discusión más detallada ).ρ2 ρ2
Verá con todas las fórmulas, la diferencia entre y se reduce a medida que aumenta el tamaño de la muestra. La diferencia se aproxima a cero ya que el tamaño de la muestra tiende al infinito. La diferencia también se hace más pequeña con menos predictores.R 2 a d jR2 R2a dj
3. ¿Cómo interpretar ?R2a dj
Referencias
fuente
Con respecto a su primera pregunta: si no sabe cómo se calcula, ¡mire el código! Si escribe
summary.lm
en su consola, obtendrá el código para esta función. Si descremada throught el código que encontrará una línea:ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)
. Si mira algunas líneas arriba de esta línea, notará que:ans$r.squared
: es tun
es el número de residuos = número de observacionesdf.int
es 0 o 1 (dependiendo de si tiene una intercepción)rdf
son tu df residualPregunta 2: De Wikipedia: ' ajustado es una modificación de que se ajusta al número de términos explicativos en un modelo. 'R2 R2
fuente