¿Cómo elegir entre las diferentes fórmulas de

15

Tengo en mente las fórmulas R-cuadrado ajustadas propuestas por:

  • Ezekiel (1930), que creo que es el que se usa actualmente en SPSS.

    Radjusted2=1(N1)(Np1)(1R2)
  • Olkin y Pratt (1958)

    Runbiased2=1(N3)(1R2)(Np1)2(N3)(1R2)2(Np1)(Np+1)

¿En qué circunstancias (si existe) debería preferir 'ajustado' a 'imparcial' R2 ?

Referencias

  1. Ezequiel, M. (1930). Métodos de análisis de correlación . John Wiley and Sons, Nueva York.
  2. Olkin I., Pratt JW (1958). Estimación imparcial de ciertos coeficientes de correlación. Anales de Estadística Matemática , 29 (1), 201-211.
user1205901 - Restablecer Monica
fuente

Respuestas:

5

Sin querer tomar el crédito por la respuesta de @ttnphns, quise sacar la respuesta de los comentarios (particularmente considerando que el enlace al artículo había muerto). La respuesta de Matt Krause proporciona una discusión útil sobre la distinción entre y R 2 a d j, pero no discute la decisión de qué fórmula de R 2 a d j usar en un caso dado.R2Radj2Radj2

Como discuto en esta respuesta , Yin y Fan (2001) proporcionan una buena visión general de las muchas fórmulas diferentes para estimar la varianza de la población explicadas , todas las cuales podrían etiquetarse como un tipo de R 2 ajustado .ρ2R2

Realizan una simulación para evaluar cuál de una amplia gama de fórmulas r-cuadrado ajustadas proporciona la mejor estimación imparcial para diferentes tamaños de muestra, e intercorrelaciones de predictores. Sugieren que la fórmula de Pratt puede ser una buena opción, pero no creo que el estudio haya sido definitivo al respecto.ρ2

Actualización: Raju et al (1997) señalan que las fórmulas de ajustadas difieren en función de si están diseñadas para estimar el R 2 ajustado asumiendo los precursores de x fijo o aleatorio. Específicamente, la fórmula de Ezekial está diseñada para estimar ρ 2 en el contexto de x fijo, y las fórmulas de Olkin-Pratt y Pratt están diseñadas para estimar ρ 2 en el contexto de x aleatorio. No hay mucha diferencia entre las fórmulas Olkin-Pratt y Pratt. Los supuestos de x fijo se alinean con los experimentos planificados, los supuestos de x aleatorio se alinean cuando se supone que los valores de las variables predictoras son una muestra de posibles valores, como suele ser el caso en los estudios observacionales. VerR2R2ρ2ρ2esta respuesta para más discusión . Tampoco hay mucha diferencia entre los dos tipos de fórmulas, ya que los tamaños de muestra se hacen moderadamente grandes (vea aquí para una discusión sobre el tamaño de la diferencia ).

Resumen de reglas generales

  • Si supone que sus observaciones para las variables predictoras son una muestra aleatoria de una población, y desea estimar para la población completa de predictores y criterios (es decir, suposición aleatoria x), utilice la fórmula de Olkin-Pratt (o La fórmula de Pratt).ρ2
  • Si asume que sus observaciones son fijas o no desea generalizar más allá de sus niveles observados del predictor, entonces calcule con la fórmula de Ezequiel.ρ2
  • Si desea obtener información sobre la predicción fuera de la muestra utilizando la ecuación de regresión de la muestra, entonces debería considerar alguna forma de procedimiento de validación cruzada.

Referencias

  • Raju, NS, Bilgic, R., Edwards, JE y Fleer, PF (1997). Revisión metodológica: Estimación de la validez de la población y la validez cruzada, y el uso de pesos iguales en la predicción. Medición psicológica aplicada, 21 (4), 291-305.
  • Yin, P. y Fan, X. (2001). Estimación de la contracción de en regresión múltiple: una comparación de diferentes métodos analíticos The Journal of Experimental Education, 69 (2), 203-224. PDFR2
Jeromy Anglim
fuente
13

La elección de o ajustado R 2 depende de lo que estamos tratando de hacer. En un contexto de regresión, R 2 regular se usa como una medida de bondad de ajuste para su modelo. Sin embargo, imagine que está comparando varios modelos que tienen diferentes números de parámetros. En igualdad de condiciones, el modelo con más parámetros se ajustará mejor a su observación. En el límite, podría tener un modelo con parámetros para cada punto de datos pero uno; esto le daría un ajuste perfecto en sus observaciones, pero sería inútil para una nueva predicción ya que capturaría tanto la 'señal' subyacente como cualquier ruido asociado. R 2 ajustado es un intento de resolver este problema ajustando el RR2R2R2R2 valor según el número de parámetros en el modelo.R2

Por lo tanto, tienen propósitos ligeramente diferentes. describe qué tan bien los diferentes conjuntos de datos se ajustan a un modelo. Podría escribir algo como "El modelo descrito anteriormente predice con precisión el rendimiento de la Parte A ( r 2 = 0.9), pero no el Widget B ( r 2 = 0.05) en condiciones de prueba estándar". R 2 ajustado describe qué tan bien los diferentes modelos se ajustan a los mismos datos (o datos similares). Por ejemplo, "Los resultados del cuestionario de formato corto y largo predijeron el gasto anual del cliente igualmente bien ( R 2 ajustado = 0.8 para ambos)".R2r2r2R2R2

Matt Krause
fuente
2
Gracias, descubrí que es una explicación muy clara de la diferencia entre R cuadrado y R cuadrado ajustado. En su opinión, ¿cómo encaja el R cuadrado imparcial en esta imagen?
user1205901 - Restablecer Monica
55
De hecho, hay varias fórmulas para estimar la población R ^ 2. Ver por ejemplo studyforquals.pbworks.com/f/yin.pdf . Se dice que el "R ^ 2" ajustado de Fisher (= Wherry) tiene un sesgo ligeramente negativo (todavía depende del tamaño de la muestra, aunque no depende del número de predictores), por lo que la versión de Olkin-Pratt es probablemente algo mejor.
ttnphns
1
@ttnphns, tal vez debería ser una respuesta en lugar de un comentario. Para mí, parece abordar la pregunta original más que esta respuesta.
gung - Restablecer Monica
1
R2R2
1
@ttnphns, estoy de acuerdo con Gung! Debería escribir una respuesta y tomar algo de crédito. Además, ¿puedes confirmar lo que escribí? JStor está actuando extraño hoy y no me deja leer el artículo original de Olkin y Pratt.
Matt Krause