Estoy interesado en obtener una estimación imparcial de en una regresión lineal múltiple.
Al reflexionar, puedo pensar en dos valores diferentes que una estimación imparcial de podría estar tratando de igualar.
- Fuera de la muestra : el r-cuadrado que se obtendría si la ecuación de regresión obtenida de la muestra (es decir, ) se aplicara a una cantidad infinita de datos externos a la muestra pero a partir de los mismos datos proceso generador
- Población : El cuadrado r que se obtendría si se obtuviera una muestra infinita y el modelo se ajustara a esa muestra infinita (es decir, ) o, alternativamente, solo el cuadrado R implicado por el proceso de generación de datos conocido.
Entiendo que ajustado está diseñado para compensar el sobreajuste observado en la muestra . Sin embargo, no está claro si ajustado es en realidad una estimación imparcial de , y si es una estimación imparcial, ¿cuál de las dos definiciones anteriores de tiene como objetivo estimar?
Por lo tanto, mis preguntas:
- ¿Cuál es una estimación imparcial de lo que llamo arriba de la muestra ?
- ¿Cuál es una estimación imparcial de lo que yo llamo por encima de la población ?
- ¿Hay alguna referencia que proporcione simulación u otra prueba de la imparcialidad?
estimation
multiple-regression
r-squared
bias
Jeromy Anglim
fuente
fuente
Respuestas:
Evaluación de ajustes analíticos al cuadrado R
@ttnphns me refirió al artículo de Yin y Fan (2001) que compara diferentes métodos analíticos para estimar . Según mi pregunta, discriminan entre dos tipos de estimadores. Usan la siguiente terminología:R2
Sus resultados se resumen en el resumen:
donde N es el tamaño de la muestra y p es el número de predictores.
Estimaciones empíricas de ajustes al cuadrado R
Referencias
fuente