¿El R-cuadrado ajustado busca estimar la puntuación fija o la población de puntuación aleatoria r-cuadrado?

9

La población r-cuadrado se puede definir suponiendo puntuaciones fijas o puntuaciones aleatorias:ρ2

  • Puntuaciones fijas: el tamaño de la muestra y los valores particulares de los predictores se mantienen fijos. Por lo tanto, es la proporción de varianza explicada en el resultado por la ecuación de regresión de la población cuando los valores predictores se mantienen constantes.ρf2

  • Puntuaciones aleatorias: los valores particulares de los predictores se extraen de una distribución. Por lo tanto, refiere a la proporción de varianza explicada en el resultado en la población donde los valores del predictor corresponden a la distribución de la población de los predictores.ρr2

Anteriormente pregunté si esta distinción hace mucha diferencia en las estimaciones deρ2ρ 2 . También he preguntado en general sobre cómo calcular una estimación imparcial de ρ2 .

Puedo ver que a medida que aumenta el tamaño de la muestra, la distinción entre puntaje fijo y puntaje aleatorio se vuelve menos importante. Sin embargo, estoy tratando de confirmar si ajustado está diseñado para estimar puntaje fijo o puntaje aleatorio .ρ 2R2ρ2

Preguntas

  • ¿ ajustado está diseñado para estimar puntaje fijo o puntaje aleatorio ?ρ 2R2ρ2
  • ¿Existe una explicación basada en principios de cómo la fórmula para el r-cuadrado ajustado se relaciona con una u otra forma de ?ρ2

Antecedentes de mi confusión

Cuando leo Yin y Fan (2001, p.206) escriben:

Una de las suposiciones básicas del modelo de regresión múltiple es que los valores de las variables independientes son constantes conocidas y las fija el investigador antes del experimento. Solo la variable dependiente es libre de variar de muestra a muestra. Ese modelo de regresión se llama modelo de regresión lineal fijo .

Sin embargo, en ciencias sociales y del comportamiento, los valores de las variables independientes rara vez son fijados por los investigadores y también están sujetos a errores aleatorios. Por lo tanto, se ha sugerido un segundo modelo de regresión para aplicaciones, en el que se permite que varíen las variables dependientes e independientes (Binder, 1959; Park y Dudycha, 1974). Ese modelo se llama modelo aleatorio (o modelo de corrección). Aunque las estimaciones de máxima verosimilitud de los coeficientes de regresión obtenidos de los modelos aleatorios y fijos son las mismas bajo supuestos de normalidad, sus distribuciones son muy diferentes. El modelo aleatorio es tan complejo que se necesita más investigación antes de que pueda aceptarse en lugar del modelo de regresión lineal fija comúnmente utilizado. Por lo tanto, el modelo fijo generalmente se aplica, incluso cuando los supuestos no se cumplen por completo (Claudy, 1978). Dichas aplicaciones del modelo de regresión fija con supuestos violados causarían "sobreajuste", porque el error aleatorio introducido a partir de los datos de muestra menos que perfectos tiende a capitalizarse en el proceso. Como resultado, el coeficiente de correlación múltiple de la muestra obtenido de esa manera tiende a sobreestimar la correlación múltiple de la población real (Claudy, 1978; Cohen y Cohen, 1983; Cummings, 1982).

Entonces, no estaba claro si la declaración anterior dice que ajustado compensa el error introducido por el modelo aleatorio o si esto era solo una advertencia en el documento que señalaba la existencia del modelo aleatorio, pero que el documento iba a centrarse en el modelo fijo.R2

Referencias

  • Yin, P. y Fan, X. (2001). Estimación contracción en regresión múltiple: una comparación de diferentes métodos analíticos. The Journal of Experimental Education, 69 (2), 203-224. PDFR2
Jeromy Anglim
fuente

Respuestas:

6

Raju et al (1997) señalan que

Pedhazur (1982) y Mitchell y Klimoski (1986) han argumentado que los resultados no se
ven afectados por el modelo [fijo-x o aleatorio-x] seleccionado cuando los N son al menos de tamaño moderado (aproximadamente 50).

No obstante, Raju et al (1997) clasifican algunas fórmulas ajustadas para estimar como "fórmulas X fijas" y "fórmulas X aleatorias".ρ 2R2ρ2

Fórmulas X fijas: se mencionan varias fórmulas, incluida la fórmula propuesta por Ezekiel (1930), que es estándar en la mayoría de los programas estadísticos:

ρ^(E)2=1N1Np1(1R2)

Por lo tanto, la respuesta corta a la pregunta es que la fórmula ajustada estándar que generalmente se informa y está integrada en el software estadístico estándar es una estimación de fijo-x .ρ 2R2ρ2

Fórmulas X aleatorias:

Olkin y Pratt (1958) propusieron una fórmula

ρ^(OP)2=1[N3Np1](1R2)F[1,1;Np+12;(1R2)]
donde F es la función hipergeométrica .

Raju et al (1997) explican cómo varias otras fórmulas, como las de Pratt y Herzberg "son aproximaciones a la función hipergeométrica esperada". Por ejemplo, la fórmula de Pratt es

ρ^(P)2=1(N3)(1R2)Np1[1+2(1R2)Np2.3]

¿Cómo difieren las estimaciones? El informe de Leach y Hansen (2003) presenta una buena tabla que muestra el efecto de diferentes fórmulas en una muestra de diferentes conjuntos de datos publicados en psicología (ver Tabla 3). La media de Ezequiel fue .2864 en comparación con Olkin y Pratt de .2917 y Pratt de .2910. Según la cita inicial de Raju et al. Sobre la distinción entre las fórmulas x fija y aleatoria que son más relevantes para los tamaños de muestra pequeños, la tabla de Leach y Hansen muestra cómo la diferencia entre la fórmula x fija de Ezekiel y la fórmula x aleatoria de Olkin y Pratt es más prominente en tamaños de muestra pequeños, particularmente aquellos menores de 50. R 2 a d j R 2 a d jRadj2Radj2Radj2

Referencias

  • Leach, LF y Henson, RK (2003). El uso y el impacto de los efectos R2 ajustados en la investigación de regresión publicada. En la reunión anual de la Asociación de Investigación Educativa del Suroeste, San Antonio, TX. PDF
  • Mitchell, TW y Klimoski, RJ (1986). Estimación de la validez de la estimación de validez cruzada. Revista de Psicología Aplicada, 71 , 311-317.
  • Pedhazur, EJ (1982). Regresión múltiple en investigación conductual (2ª ed.) Nueva York: Holt, Rinehart y Winston.
  • Raju, NS, Bilgic, R., Edwards, JE y Fleer, PF (1997). Revisión metodológica: Estimación de la validez de la población y la validez cruzada, y el uso de pesos iguales en la predicción. Medición psicológica aplicada, 21 (4), 291-305.
Jeromy Anglim
fuente