¿Por qué informar R al cuadrado?

8

Si la R al cuadrado ajustada es superior a la R al cuadrado, entonces, ¿por qué el software estadístico continúa informando esto último? ¿Hay algún tipo de situación en la que un investigador prefiera usar R al cuadrado en lugar de R al cuadrado ajustado?

Mike Senin
fuente
¿Con qué tipo de regresión estás lidiando? Si no me equivoco, para la regresión lineal, no hay diferencia entre el R cuadrado y el R cuadrado ajustado. Entonces, en este caso, es muy apropiado usar el valor R cuadrado simple.
alesc
Una lineal. Pero los paquetes estadísticos proporcionan ambas medidas. Por eso me pregunto por qué.
Mike Senin
Bueno, según Wiki , la ecuación es un poco diferente incluso para la regresión lineal ( p=1). Pero todo el punto de R cuadrado ajustado es " El uso de un R2 ajustado es un intento de tener en cuenta el fenómeno del aumento automático y falso de R2 cuando se agregan variables explicativas adicionales al modelo ". La regresión lineal no tiene ninguna variable explicativa adicional, porque es el tipo de regresión más primitivo.
alesc
@alesc, lo sé. Lo que no sé es por qué informar ambos valores.
Mike Senin
¿Qué estás tratando de demostrar con tu valor R cuadrado? ¿Compara diferentes modelos de regresión? Si compara los modelos de regresión lineal y no lineal, entonces tendría sentido usar R cuadrado ajustado, de lo contrario, el R cuadrado simple será suficiente. Pero, de nuevo, también puede usar el R cuadrado ajustado incluso para la regresión lineal :) Personalmente, no informaría ambos valores. Elija una métrica e informe solo ese valor (R cuadrado o R cuadrado ajustado).
alesc

Respuestas:

5

En las condiciones, por ejemplo, explicadas aquí ,R2mide la proporción de la varianza en la variable dependiente explicada por la regresión, que es una medida natural. EquilibradoR2 no tiene esta interpretación, ya que modifica el R2 valor.

Entonces, mientras está ajustado R2 tiene la ventaja indiscutible de no aumentar automáticamente cuando aumenta el número de regresores, usted paga un precio en términos de cómo puede interpretar la medida.

Tenga en cuenta que no estoy abogando por el uso de uno u otro, solo dando una posible razón por la cual las personas todavía usan el estándar R2.

Christoph Hanck
fuente
Pregunta rápida: ¿quizás sea cierto que Radj.2 es un estimador consistente de la población R2bajo algunas condiciones, por ejemplo, un modelo bien especificado? Entonces tendría sentido informarRadj.2 en lugar de R2.
Richard Hardy
3
Si, pero como podemos escribir Radj.2=1n1nK+n1nKR2 y, obviamente, n1nK1 (al menos cuando, como se supone en su mayoría, K permanece fijo como n), tenemos eso Radj.2R2=op(1), por lo que no parece ser una razón para preferir uno sobre el otro.
Christoph Hanck
Kes, por supuesto, el número de regresores
Christoph Hanck
1
Bueno ... definimos población R2 como 1σ2/Var(y)? Si es así, escribiendoRadj.2=1s2i(yy¯)2/(n1) (s2 la estimación de varianza ajustada por df dividida por nK) muestra que tanto el estimador de la varianza del error en el numerador como el de la varianza de y en el denominador son insesgados para los respectivos parámetros de población, E(s2)=σ2 y E[i(yy¯)2/(n1)]=Var(y). Pero eso no hace que la relación sea un estimador imparcial de las razones de los parámetros, ya que el operador de expectativas no pasa a través de funciones no lineales en general.
Christoph Hanck
1
Gracias. Tal vez debería haber publicado mis comentarios como una pregunta separada, entonces podría haber votado sus respuestas. Como sospechaba que se habían preguntado cosas similares, solo esperaba una breve confirmación / desconfirmación, estilo de comentario. Fuiste más explícito que eso, ¡te lo agradezco!
Richard Hardy
1

El R cuadrado ajustado es útil para comparar diferentes modelos de regresión. Esta tarea no puede lograrse mediante R cuadrado que, como ya han dicho otros, tiene otro objetivo informativo, que es expresar la proporción de varianza de la variable dependiente que se explica por el modelo de regresión bajo investigación.

Carlo Lazzaro
fuente