Ha habido cierta confusión en mi cabeza acerca de dos tipos de estimadores del valor poblacional del coeficiente de correlación de Pearson.
A. Fisher (1915) mostró que para la población normal bivariada, empírico es un estimador de sesgado negativamente , aunque el sesgo puede ser de una cantidad prácticamente considerable solo para muestras pequeñas ( ). La muestra subestima en el sentido de que está más cerca de que . (Excepto cuando este último es o , porque entonces es imparcial). Se han propuesto varios estimadores casi imparciales de , el mejor probablemente sea Olkin y Pratt (1958)ρ n < 30 r ρ 0 ρ 0 ± 1 r corregido :
B. Se dice que en la regresión observada sobreestima la R-cuadrado de la población correspondiente. O, con una regresión simple, es que sobreestima . En base a ese hecho, he visto muchos textos que dicen que está sesgado positivamente en relación con , lo que significa un valor absoluto: está más lejos de que (¿es esa afirmación verdadera?). Los textos dicen que es el mismo problema que la sobreestimación del parámetro de desviación estándar por su valor de muestra. Existen muchas fórmulas para "ajustar" observado más cerca de su parámetro de población, Wherry's (1931)r 2 ρ 2 rr 0 ρ R 2 es el más conocido (pero no el mejor). La raíz de tal ajustada se llama encogida :
Presente hay dos estimadores diferentes de . Muy diferente: el primero infla , el segundo desinfla . ¿Cómo reconciliarlos? ¿Dónde usar / informar uno y dónde - el otro?r r
En particular, ¿ puede ser cierto que el estimador "reducido" también es (casi) imparcial, como el "imparcial", pero solo en el contexto diferente , en el contexto asimétrico de regresión. Porque, en la regresión de MCO consideramos los valores de un lado (el predictor) como fijos, atendiendo sin error aleatorio de una muestra a otra. (Y para agregar aquí, la regresión no necesita normalidad bivariada ).
Respuestas:
Con respecto al sesgo en la correlación: cuando los tamaños de muestra son lo suficientemente pequeños como para que el sesgo tenga algún significado práctico (por ejemplo, el n <30 que sugirió), es probable que el sesgo sea la menor de sus preocupaciones, porque la inexactitud es terrible.
Con respecto al sesgo de R 2 en la regresión múltiple, hay muchos ajustes diferentes que pertenecen a la estimación de población imparcial versus la estimación imparcial en una muestra independiente de igual tamaño. Ver Yin, P. y Fan, X. (2001). Estimación de la contracción de R 2 en regresión múltiple: una comparación de métodos analíticos. The Journal of Experimental Education, 69, 203-224.
Los métodos de regresión de hoy en día también abordan la reducción de los coeficientes de regresión, así como R 2 como consecuencia, por ejemplo, la red elástica con validación cruzada k- fold, ver http://web.stanford.edu/~hastie/Papers/ elasticnet.pdf .
fuente
Creo que la respuesta está en el contexto de la regresión simple y la regresión múltiple. En una regresión simple con un IV y un DV, el R sq no está sesgado positivamente, y de hecho puede estar sesgado negativamente dado que r está sesgado negativamente. Pero en la regresión múltiple con varios IV que pueden estar correlacionados, R ^ {2} puede estar sesgado positivamente debido a cualquier "supresión" que pueda estar ocurriendo. Por lo tanto, mi opinión es que R2 observado sobreestima la población R-cuadrado correspondiente, pero solo en regresión múltiple
fuente
R sq is not positively biased, and in-fact may be negatively biased
Interesante. ¿Puedes mostrarlo o dar una referencia? - En una población normal bivariada, ¿se puede estimar negativamente el estadístico Rsq de la muestra observada?