¿Qué es una estimación imparcial de la población R-cuadrado?

14

Estoy interesado en obtener una estimación imparcial de R2 en una regresión lineal múltiple.

Al reflexionar, puedo pensar en dos valores diferentes que una estimación imparcial de R2 podría estar tratando de igualar.

  1. Fuera de la muestra :R2 el r-cuadrado que se obtendría si la ecuación de regresión obtenida de la muestra (es decir, ) se aplicara a una cantidad infinita de datos externos a la muestra pero a partir de los mismos datos proceso generadorβ^
  2. Población :R2 El cuadrado r que se obtendría si se obtuviera una muestra infinita y el modelo se ajustara a esa muestra infinita (es decir, ) o, alternativamente, solo el cuadrado R implicado por el proceso de generación de datos conocido.β

Entiendo que ajustadoR2 está diseñado para compensar el sobreajuste observado en la muestra . Sin embargo, no está claro si ajustado es en realidad una estimación imparcial de , y si es una estimación imparcial, ¿cuál de las dos definiciones anteriores de tiene como objetivo estimar?R2R2R2R2

Por lo tanto, mis preguntas:

  • ¿Cuál es una estimación imparcial de lo que llamo arriba de la muestra ?R2
  • ¿Cuál es una estimación imparcial de lo que yo llamo por encima de la población ?R2
  • ¿Hay alguna referencia que proporcione simulación u otra prueba de la imparcialidad?
Jeromy Anglim
fuente
La pregunta qué fórmula para adj. R ^ 2 es menos sesgado se ha planteado, por ejemplo, aquí .
ttnphns
Gracias. Ahora estoy leyendo la referencia que mencionas: Yin, P. y Fan, X. (2001). Estimación de la contracción de en regresión múltiple: una comparación de diferentes métodos analíticos. The Journal of Experimental Education, 69 (2), 203-224. R2
Jeromy Anglim

Respuestas:

14

Evaluación de ajustes analíticos al cuadrado R

@ttnphns me refirió al artículo de Yin y Fan (2001) que compara diferentes métodos analíticos para estimar . Según mi pregunta, discriminan entre dos tipos de estimadores. Usan la siguiente terminología:R2

  • : Estimador del coeficiente de correlación múltiple de la población al cuadradoρ2
  • : Estimador del coeficiente de validez cruzada de la población al cuadradoρc2

Sus resultados se resumen en el resumen:

R2ρ2ρ2ρc2

ρ2

R^2=1(N3)(1R2)(Np1)[1+2(1R2)Np2.3]

donde N es el tamaño de la muestra y p es el número de predictores.

Estimaciones empíricas de ajustes al cuadrado R

R2ρ2ρc2ρ2

Referencias

  • Kromrey, JD y Hines, CV (1995). Uso de estimaciones empíricas de contracción en regresión múltiple: una precaución. Medida educativa y psicológica, 55 (6), 901-925.
  • R2
Jeromy Anglim
fuente