¿Cuándo es R al cuadrado negativo?

77

Entiendo que no puede ser negativo ya que es el cuadrado de R. Sin embargo, ejecuté una regresión lineal simple en SPSS con una sola variable independiente y una variable dependiente. Mi salida SPSS me da un valor negativo para . Si tuviera que calcular esto a mano desde R, entonces sería positivo. ¿Qué ha hecho SPSS para calcular esto como negativo?R2R2R2

R=-.395
R squared =-.156
B (un-standardized)=-1261.611

Código que he usado:

DATASET ACTIVATE DataSet1. 
REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA 
           /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN 
           /DEPENDENT valueP /METHOD=ENTER ageP

Me sale un valor negativo. ¿Alguien puede explicar lo que esto significa?

RSquared negativo

ingrese la descripción de la imagen aquí

Ana
fuente
3
¿Responde esto a tu pregunta? stats.stackexchange.com/questions/6181/… Si no es así, proporcione más información: esta es la "salida SPSS" de qué procedimiento.
whuber
2
¿Su modelo de regresión lineal tiene una intersección?
NPE
2
@Anne Nuevamente, ¿ qué procedimiento de SPSS está utilizando?
whuber
1
@ Anne, le sugiero que ignore la respuesta de la serie de tiempo, porque sus datos no son series de tiempo y no está utilizando un procedimiento de series de tiempo. ¿Estás realmente seguro de que la R al cuadrado se da como un valor negativo? Su magnitud es correcta: . He revisado la ayuda de SPSS para ver si tal vez, como convención, se niega el valor R cuadrado para las R negativas, pero no veo ninguna evidencia de que este sea el caso. ¿Quizás podría publicar una captura de pantalla de la salida donde está leyendo el R cuadrado? (0.395)2=0.156
whuber
1
La variable dependiente es el precio de las casas, por lo que es factible que el IC del 95% sea de 120,000. Lamentablemente, no puedo publicar los datos aquí, ya que sería contrario a las condiciones de uso de datos.
Anne

Respuestas:

106

R2 compara el ajuste del modelo elegido con el de una línea recta horizontal (la hipótesis nula). Si el modelo elegido se ajusta peor que una línea horizontal, entonces es negativo. Tenga en cuenta que no siempre es el cuadrado de nada, por lo que puede tener un valor negativo sin violar ninguna regla de las matemáticas. es negativo solo cuando el modelo elegido no sigue la tendencia de los datos, por lo que se ajusta peor que una línea horizontal.R2R2R2

Ejemplo: ajustar los datos a un modelo de regresión lineal restringido para que la intersección en igual a .Y1500

ingrese la descripción de la imagen aquí

El modelo no tiene ningún sentido dado estos datos. Es claramente el modelo equivocado, quizás elegido por accidente.

El ajuste del modelo (una línea recta restringida para pasar por el punto (0,1500)) es peor que el ajuste de una línea horizontal. Por lo tanto, la suma de cuadrados del modelo es mayor que la suma de cuadrados de la línea horizontal . se calcula como . Cuando es mayor que , esa ecuación calcula un valor negativo para .(SSreg)(SStot)R21SSregSStotSSregSStotR2

Con una regresión lineal sin restricciones, debe ser positivo (o cero) e igual al cuadrado del coeficiente de correlación, . Un negativo solo es posible con regresión lineal cuando la intersección o la pendiente están restringidas de modo que la línea de "mejor ajuste" (dada la restricción) se ajusta peor que una línea horizontal. Con la regresión no lineal, el puede ser negativo siempre que el modelo de mejor ajuste (dada la ecuación elegida y sus restricciones, si las hay) se ajusta peor a los datos que una línea horizontal.R2rR2R2

En pocas palabras: un negativo no es una imposibilidad matemática o el signo de un error informático. Simplemente significa que el modelo elegido (con sus restricciones) se ajusta muy mal a los datos.R2

Harvey Motulsky
fuente
3
@JMS Eso es lo contrario de lo que indica Google: "/ ORIGIN" fija la intersección en 0; "/ NOORIGIN" "le dice a SPSS que no suprima la constante" ( Guía introductoria de SPSS para Windows )
whuber
10
@whuber Correcto. @ harvey-motulsky Un valor negativo de R ^ 2 es una imposibilidad matemática (y sugiere un error informático) para la regresión regular de OLS (con una intercepción). Esto es lo que hace el comando 'REGRESIÓN' y sobre lo que pregunta el póster original. Además, para la regresión OLS, R ^ 2 es la correlación al cuadrado entre los valores predichos y los observados. Por lo tanto, debe ser no negativo. Para una regresión OLS simple con un predictor, esto es equivalente a la correlación al cuadrado entre el predictor y la variable dependiente; nuevamente, esto debe ser no negativo.
Wolfgang
1
@whuber De hecho. Culpa mía; obviamente no uso SPSS - o leo, aparentemente :)
JMS
1
@whuber. Agregué un párrafo que señala que con la regresión lineal, R2 puede ser negativo solo cuando la intersección (o tal vez la pendiente) está restringida. Sin restricciones, el R2 debe ser positivo e igual al cuadrado de r, el coeficiente de correlación.
Harvey Motulsky
1
@HarveyMotulsky, en este caso, la intersección o la pendiente no estaban restringidas. Parece que está diciendo que Rsquared solo puede ser negativo si están restringidos. ¿Puedes dar más detalles sobre lo que pudo haber ocurrido en este caso particular?
Anne
18

¿Has olvidado incluir una intercepción en tu regresión? No estoy familiarizado con el código SPSS, pero en la página 21 de la Econometría de Hayashi:

Si los regresores no incluyen una constante pero (como lo hacen algunos paquetes de software de regresión), sin embargo, calcula por la fórmulaR2

R2=1i=1nei2i=1n(yiy¯)2

entonces el puede ser negativo. Esto se debe a que, sin el beneficio de una intercepción, la regresión podría ser peor que la media de la muestra en términos de seguimiento de la variable dependiente (es decir, el numerador podría ser mayor que el denominador).R2

Verificaría y me aseguraría de que SPSS incluya una intercepción en su regresión.

jefflovejapan
fuente
44
Noorigin subcomando en su código dice que la intercepción se incluyó en el modelo
ttnphns
2
eso es raro. Habría adivinado que eso NOORIGINsignificaría que la intercepción no estaba incluida en el modelo, simplemente dejando de lado el nombre.
Matt O'Brien el
6

Esto puede suceder si tiene una serie temporal que es Niid y construye un modelo ARIMA inapropiado de la forma (0,1,0), que es un modelo de caminata aleatoria de primera diferencia sin deriva y luego la varianza (suma de cuadrados - SSE) de los residuos será mayor que la varianza (suma de cuadrados SSO) de la serie original. Por lo tanto, la ecuación 1-SSE / SSO arrojará un número negativo ya que SSE supera a SSO. Hemos visto esto cuando los usuarios simplemente se ajustan a un modelo asumido o usan procedimientos inadecuados para identificar / formar una estructura ARIMA apropiada. El mensaje más grande ES que un modelo puede distorsionar (al igual que un par de anteojos malos) su visión. Sin tener acceso a sus datos, de lo contrario tendría un problema para explicar sus resultados defectuosos. ¿Ha traído esto a la atención de IBM?

Harvey Motulsky ha hecho eco de la idea de que un modelo asumido es contraproducente. Gran post Harvey!

IrishStat
fuente
1
stat. Gracias. No, no he hablado con IBM. Los datos no son series de tiempo. Es de un punto en el tiempo de datos.
Anne
55
@ Anne y otros: dado que sus datos no son series de tiempo y no está utilizando un procedimiento de series de tiempo, ignore mi respuesta. Otros que han observado Cuadrados R negativos cuando participan en series de tiempo pueden encontrar mi publicación interesante e informativa tangencialmente. Otros lamentablemente no pueden.
IrishStat
@IrishStat: ¿Podría agregar un enlace a la publicación de Harvey Motulsky?
kjetil b halvorsen
Harvey respondió la pregunta aquí.
IrishStat