¿Qué es una estimación imparcial de la población R-cuadrado?

Estoy interesado en obtener una estimación imparcial de $R^2$ en una regresión lineal múltiple.

Al reflexionar, puedo pensar en dos valores diferentes que una estimación imparcial de $R^2$ podría estar tratando de igualar.

Fuera de la muestra : $R^2$ el r-cuadrado que se obtendría si la ecuación de regresión obtenida de la muestra (es decir, ) se aplicara a una cantidad infinita de datos externos a la muestra pero a partir de los mismos datos proceso generador $\hat{\beta}$
Población : $R^2$ El cuadrado r que se obtendría si se obtuviera una muestra infinita y el modelo se ajustara a esa muestra infinita (es decir, ) o, alternativamente, solo el cuadrado R implicado por el proceso de generación de datos conocido. $\beta$

Entiendo que ajustado $R^2$ está diseñado para compensar el sobreajuste observado en la muestra . Sin embargo, no está claro si ajustado es en realidad una estimación imparcial de , y si es una estimación imparcial, ¿cuál de las dos definiciones anteriores de tiene como objetivo estimar? $R^2$ $R^2$ $R^2$ $R^2$

Por lo tanto, mis preguntas:

¿Cuál es una estimación imparcial de lo que llamo arriba de la muestra ? $R^2$
¿Cuál es una estimación imparcial de lo que yo llamo por encima de la población ? $R^2$
¿Hay alguna referencia que proporcione simulación u otra prueba de la imparcialidad?

estimation multiple-regression r-squared bias Jeromy Anglim
fuente

La pregunta qué fórmula para adj. R ^ 2 es menos sesgado se ha planteado, por ejemplo, aquí .

ttnphns

Gracias. Ahora estoy leyendo la referencia que mencionas: Yin, P. y Fan, X. (2001). Estimación

contracción de

en regresión múltiple: una comparación de diferentes métodos analíticos. The Journal of Experimental Education, 69 (2), 203-224.

R^{2}

$R^2$

Jeromy Anglim

Respuestas:

Evaluación de ajustes analíticos al cuadrado R

@ttnphns me refirió al artículo de Yin y Fan (2001) que compara diferentes métodos analíticos para estimar . Según mi pregunta, discriminan entre dos tipos de estimadores. Usan la siguiente terminología: $R^2$

: Estimador del coeficiente de correlación múltiple de la población al cuadrado $\rho^2$
: Estimador del coeficiente de validez cruzada de la población al cuadrado $\rho_c^2$

Sus resultados se resumen en el resumen:

$R^2$ $\rho^2$ $\rho^2$ $\rho_c^2$

$\rho^2$

{\hat{R}}^{2} = 1 - \frac{(N - 3) (1 - R^{2})}{(N - p - 1)} [1 + \frac{2 (1 - R^{2})}{N - p - 2.3}]

$\hat{R}^2=1 - \frac{(N-3)(1 - R^2)}{(N-p-1)} \left[ 1 + \frac{2(1-R^2)}{N-p-2.3} \right]$

donde N es el tamaño de la muestra y p es el número de predictores.

Estimaciones empíricas de ajustes al cuadrado R

$R^2$ $\rho^2$ $\rho_c^2$ $\rho^2$

Referencias

Kromrey, JD y Hines, CV (1995). Uso de estimaciones empíricas de contracción en regresión múltiple: una precaución. Medida educativa y psicológica, 55 (6), 901-925.
$R^2$

Jeromy Anglim
fuente