¿Cuál es la fórmula R-cuadrado ajustada en lm en R y cómo debe interpretarse?

35

¿Cuál es la fórmula exacta utilizada en R lm() para el R cuadrado ajustado? ¿Cómo puedo interpretarlo?

Fórmulas r-cuadrado ajustadas

Parece que existen varias fórmulas para calcular el R cuadrado ajustado.

  • Fórmula de Wherry:1-(1-R2)(norte-1)(norte-v)
  • Fórmula de McNemar:1-(1-R2)(norte-1)(norte-v-1)
  • Fórmula del Señor:1(1R2)(n+v1)(nv1)
  • Fórmula de Stein:1[(n1)(nk1)(n2)(nk2)(n+1)n](1R2)

Descripciones de libros de texto

  • Según el libro de texto de Field, Discovering Statistics Using R (2012, p. 273) R usa la ecuación de Wherry que "nos dice cuánta varianza en Y se tendría en cuenta si el modelo se hubiera derivado de la población de la que se tomó la muestra". Él no da la fórmula para Wherry. Recomienda usar la fórmula de Stein (a mano) para verificar qué tan bien el modelo valida de forma cruzada.
  • Kleiber / Zeileis, Applied Econometrics with R (2008, p. 59) afirman que es "R-cuadrado ajustado de Theil" y no dicen exactamente cómo varía su interpretación de los múltiples R-cuadrados.
  • Dalgaard, Introductory Statistics with R (2008, p. 113) escribe que "si multiplica [R-cuadrado ajustado] por 100%, puede interpretarse como '% de reducción de la varianza'". No dice a qué fórmula corresponde esto.

Previamente pensé, y leí ampliamente, que el R cuadrado penaliza por agregar variables adicionales al modelo. Ahora, el uso de estas fórmulas diferentes parece requerir diferentes interpretaciones. También examiné una pregunta relacionada sobre el desbordamiento de pila ( ¿Cuál es la diferencia entre el R cuadrado múltiple y el R cuadrado ajustado en una regresión de mínimos cuadrados de una sola variable? ) Y el diccionario estadístico de la escuela de Wharton en UPenn .

Preguntas

  • ¿Qué fórmula se usa para R-cuadrado ajustado por R lm() ?
  • ¿Cómo puedo interpretarlo?
gung - Restablece a Monica
fuente
8
de summary.lm (): ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf), donde ans $ r.squared = R ^ 2; n = n, RDF = residual df, df.int = intercepto df (0 o 1).
EDi
Voy a dar una respuesta al problema real aquí, que no es "qué tipo de R ^ 2 ...". La información que le falta a usted (y a muchos otros) es la siguiente: todos los paquetes de R, incluso el núcleo, hacen que el código fuente esté disponible. Incluso las cosas compiladas en las distribuciones están disponibles en {packagenames} .tar.gz en el CRAN u otro repositorio.
Carl Witthoft
OP aquí: Gracias por este gran aporte. ¿Qué tal mi segunda pregunta: ¿Cómo puedo interpretarla? Leí muchas interpretaciones diferentes de Adj. ¿R cuadrado que a veces parece estar basado en una fórmula que podría no ser la de Wherry?

Respuestas:

29

1. ¿Qué fórmula usa lmen R para el cuadrado r ajustado?

Como ya se mencionó, escribir summary.lmle dará el código que R usa para calcular R cuadrado ajustado. Extrayendo la línea más relevante que obtienes:

ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)

que corresponde en notación matemática a:

Radj2=1(1R2)n1np1

suponiendo que hay una intersección (es decir, df.int=1), es el tamaño de la muestra y es el número de predictores. Por lo tanto, su error grados de libertad (es decir, ) es igual .pnprdfn-p-1

La fórmula corresponde a lo que Yin y Fan (2001) denominan Wherry Formula-1 (aparentemente hay otra fórmula de Wherry menos común que usa en el denominador en lugar de ). Sugieren que sus nombres más comunes en orden de aparición son "fórmula de Wherry", "Ezekiel formlua", "fórmula de Wherry / McNemar" y "fórmula de Cohen / Cohen".n - p - 1npnp1

2. ¿Por qué hay tantas fórmulas ajustadas de r-cuadrado?

ρ 2 ρ 2Runarej2 tiene como objetivo estimar , la proporción de varianza explicada en la población por la ecuación de regresión poblacional. Si bien esto está claramente relacionado con el tamaño de la muestra y el número de predictores, cuál es el mejor estimador es menos claro. Por lo tanto, tiene estudios de simulación como Yin y Fan (2001) que han evaluado diferentes fórmulas r-cuadrado ajustadas en términos de qué tan bien estiman (vea esta pregunta para una discusión más detallada ).ρ2ρ2

Verá con todas las fórmulas, la diferencia entre y se reduce a medida que aumenta el tamaño de la muestra. La diferencia se aproxima a cero ya que el tamaño de la muestra tiende al infinito. La diferencia también se hace más pequeña con menos predictores.R 2 a d jR2Runarej2

3. ¿Cómo interpretar ?Runarej2

Runarej2 es una estimación de la proporción de varianza explicada por la ecuación de regresión verdadera en la población . Por lo general, estaría interesado en donde está interesado en la predicción lineal teórica de una variable. Por el contrario, si está más interesado en la predicción utilizando la ecuación de regresión de muestra, como suele ser el caso en las configuraciones aplicadas, alguna forma de validación cruzada sería más relevante.ρ2ρ2R2

Referencias

  • Yin, P. y Fan, X. (2001). Estimación contracción en regresión múltiple: una comparación de diferentes métodos analíticos. The Journal of Experimental Education, 69 (2), 203-224. PDFR2
Jeromy Anglim
fuente
9

Con respecto a su primera pregunta: si no sabe cómo se calcula, ¡mire el código! Si escribe summary.lmen su consola, obtendrá el código para esta función. Si descremada throught el código que encontrará una línea: ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf). Si mira algunas líneas arriba de esta línea, notará que:

  • ans$r.squared: es tuR2
  • n es el número de residuos = número de observaciones
  • df.int es 0 o 1 (dependiendo de si tiene una intercepción)
  • rdf son tu df residual

Pregunta 2: De Wikipedia: ' ajustado es una modificación de que se ajusta al número de términos explicativos en un modelo. 'R2R2

EDi
fuente