¿

234

Estaba hojeando algunas notas de clase de Cosma Shalizi (en particular, la sección 2.1.1 de la segunda clase ), y me recordó que puedes obtener muy bajo incluso cuando tienes un modelo completamente lineal.R2

Parafraseando el ejemplo de Shalizi: suponga que tiene un modelo , donde es conocida. Entonces \ newcommand {\ Var} {\ mathrm {Var}} \ Var [Y] = a ^ 2 \ Var [x] + \ Var [\ epsilon] y la cantidad de varianza explicada es a ^ 2 \ Var [X] , entonces R ^ 2 = \ frac {a ^ 2 \ Var [x]} {a ^ 2 \ Var [X] + \ Var [\ epsilon]} . Esto va a 0 como \ Var [X] \ rightarrow 0 y a 1 como \ Var [X] \ rightarrow \ infty .Y=aX+ϵaVar[Y]=a2Var[x]+Var[ϵ]a2Var[X]R2=a2Var[x]a2Var[X]+Var[ϵ]Var[X]0Var[X]

Por el contrario, puede obtener un alto R2 incluso cuando su modelo es notablemente no lineal. (¿Alguien tiene un buen ejemplo de improviso?)

Entonces, ¿cuándo es R2 una estadística útil y cuándo se debe ignorar?

raegtin
fuente
55
Tenga en cuenta el hilo de comentarios relacionados en otra pregunta reciente
whuber
36
No tengo nada estadístico que agregar a las excelentes respuestas dadas (especialmente la de @whuber) pero creo que la respuesta correcta es "R cuadrado: útil y peligroso". Como casi cualquier estadística.
Peter Flom
32
La respuesta a esta pregunta es: "Sí"
Fomite
Consulte stats.stackexchange.com/a/265924/99274 para obtener otra respuesta.
Carl
El ejemplo del script no es muy útil a menos que pueda decirnos qué es ? Si es una constante también, entonces su argumento es incorrecto, ya que entonces Sin embargo, si no es constante , trace contra para el pequeño y dígame que esto es lineal ........Var(aX+ϵ)ϵϵVar(aX+b)=a2Var(X)ϵYXVar(X)
Dan

Respuestas:

264

Para abordar la primera pregunta , considere el modelo

Y=X+sin(X)+ε

con iid de media cero y varianza finita. A medida que aumenta el rango de (considerado como fijo o aleatorio), va a 1. Sin embargo, si la varianza de es pequeña (alrededor de 1 o menos), los datos son "notablemente no lineales". En las parcelas, .εXR2εvar(ε)=1

Corto alcance de X

Rango más amplio de X

Por cierto, una manera fácil de obtener un pequeño es dividir las variables independientes en rangos estrechos. La regresión (usando exactamente el mismo modelo ) dentro de cada rango tendrá un incluso cuando la regresión completa basada en todos los datos tenga un alto . Contemplar esta situación es un ejercicio informativo y una buena preparación para la segunda pregunta.R2R2R2

Las dos parcelas siguientes usan los mismos datos. El para la regresión completa es 0.86. Los para las rodajas (de ancho 1/2 de -5/2 a 5/2) son .16, .18, .07, .14, .08, .17, .20, .12, .01 , .00, leyendo de izquierda a derecha. En todo caso, los ajustes mejoran en la situación dividida porque las 10 líneas separadas pueden ajustarse más estrechamente a los datos dentro de sus rangos estrechos. Aunque el para todos los cortes está muy por debajo del completo , ni la fuerza de la relación, la linealidad ni ningún aspecto de los datos (excepto el rango de utilizado para la regresión) ha cambiado.R2R2R2R2X

Nube de puntos con regresión completa

Nube de puntos en rodajas con 10 regresiones

(Uno podría objetar que este procedimiento de corte cambia la distribución de Eso es cierto, pero sin embargo corresponde con el uso más común de en el modelado de efectos fijos y revela el grado en que nos está informando sobre el varianza de en la situación de efectos aleatorios. En particular, cuando está obligado a variar dentro de un intervalo menor de su rango natural, generalmente caerá).XR2R2XXR2

El problema básico con es que depende de demasiadas cosas (incluso cuando se ajusta en regresión múltiple), pero más especialmente de la varianza de las variables independientes y la varianza de los residuos. Normalmente no nos dice nada sobre "linealidad" o "fuerza de relación" o incluso "bondad de ajuste" para comparar una secuencia de modelos.R2

La mayoría de las veces puedes encontrar una estadística mejor que . Para la selección del modelo, puede consultar AIC y BIC; Para expresar la adecuación de un modelo, observe la varianza de los residuos. R2

Esto nos lleva finalmente a la segunda pregunta . Una situación en la que podría tener algún uso es cuando las variables independientes se establecen en valores estándar, controlando esencialmente el efecto de su varianza. Entonces es realmente un proxy de la varianza de los residuos, adecuadamente estandarizados.R21R2

whuber
fuente
26
Qué respuesta increíblemente minuciosa y receptiva por @whuber
Peter Flom
¿AIC y BIC no se ajustan explícitamente al número de parámetros estimados? Si es así, hacer una comparación y R ^ 2 sin ajustar parece injusto. Entonces, pregunto, ¿su crítica tiene R ^ 2 ajustado? Parece que si te penalizaran por 'rebanar' que R ^ 2 ajustado podría volver a contarte sobre la bondad de ajuste del modelo.
russellpierce
77
@dr Mi crítica se aplica perfectamente a ajustado . Los únicos casos en los que existe una gran diferencia entre y el ajustado son cuando se utilizan muchos parámetros en comparación con los datos. En el ejemplo de corte hubo casi 1,000 puntos de datos y el corte agregó solo 18 parámetros; las adaptaciones de ni siquiera afectarían a la segunda cifra decimal, salvo posiblemente en los tramos extremos en los que había sólo unas pocas docenas de puntos de datos: y sería bajar ellos, en realidad reforzar el argumento. R2R2R2R2
whuber
55
La respuesta a la pregunta en su primer comentario debe depender de su objetivo y hay varias formas de interpretar "probar una relación lineal". Una es que desea probar si el coeficiente es distinto de cero. Otro es que desea saber si hay evidencia de no linealidad. (por sí mismo) tampoco es terriblemente útil, aunque sabemos que un alto con muchos datos significa que su diagrama de dispersión se ve más o menos lineal, como mi segundo ejemplo o como el ejemplo de @ macro. Para cada objetivo hay una prueba apropiada y su valor p asociado. R2R2
whuber
44
Para su segunda pregunta, debemos preguntarnos qué podría significar "mejor" ajuste lineal. Un candidato sería cualquier ajuste que minimice la suma residual de cuadrados. Podría usar manera segura como proxy para esto, pero ¿por qué no examinar el error cuadrático medio (ajustado) en sí mismo? Es una estadística más útil. R2
whuber
47

Su ejemplo solo se aplica cuando la variable debe estar en el modelo . Ciertamente no se aplica cuando uno usa las estimaciones de mínimos cuadrados habituales. Para ver esto, tenga en cuenta que si estimamos mínimo de cuadrados en su ejemplo, obtenemos:X a

a^=1Ni=1NXiYi1Ni=1NXi2=1Ni=1NXiYisX2+X¯2
Donde es la varianza (muestra) de y es la (muestra) media desX2=1Ni=1N(XiX¯)2XX¯=1Ni=1NXiX

a^2Var[X]=a^2sX2=(1Ni=1NXiYi)2sX2(sX2sX2+X¯2)2

Ahora el segundo término siempre es menor que (igual a en el límite), por lo que obtenemos un límite superior para la contribución a de la variable :11R2X

a^2Var[X](1Ni=1NXiYi)2sX2

Y así, a menos que también, en realidad veremos como (porque el numerador va a cero, pero el denominador va a ). Además, podemos lograr que converja en algo entre y dependiendo de qué tan rápido diverjan los dos términos. Ahora, el término anterior generalmente divergerá más rápido que si debería estar en el modelo, y más lento si no debería estar en el modelo. En ambos casos, va en la dirección correcta.(1Ni=1NXiYi)2R20sX2Var[ϵ]>0R201sX2XXR2

Y también tenga en cuenta que para cualquier conjunto de datos finitos (es decir, uno real) nunca podemos tener menos que todos los errores sean exactamente cero. Esto básicamente indica que es una medida relativa, en lugar de una medida absoluta. Porque a menos que sea ​​realmente igual a , siempre podemos encontrar un mejor modelo de ajuste. Este es probablemente el aspecto "peligroso" de en que, debido a que está escalado para estar entre y , parece que podemos interpretarlo en sentido absoluto.R2=1R2R21R201

Probablemente sea más útil observar qué tan rápido cae medida que agrega variables al modelo. Y por último, pero no menos importante, nunca debe ignorarse en la selección de variables, ya que es efectivamente una estadística suficiente para la selección de variables: contiene toda la información sobre la selección de variables que se encuentra en los datos. Lo único que se necesita es elegir la caída en que corresponde a "ajustar los errores", que generalmente depende del tamaño de la muestra y el número de variables.R2R2R2

probabilidadislogica
fuente
44
+1 Muchos puntos bonitos. Los cálculos agregan información cuantitativa a las respuestas anteriores.
whuber
27

Si puedo agregar un ejemplo de cuándo es peligroso. Hace muchos años, estaba trabajando en algunos datos biométricos y siendo joven y tonto, estaba encantado cuando encontré algunos valores de estadísticamente significativos para mis regresiones elegantes que había construido usando funciones escalonadas. Solo después de mirar hacia atrás después de mi presentación ante una gran audiencia internacional me di cuenta de que, dada la gran variación de los datos, combinada con la posible representación deficiente de la muestra con respecto a la población, un de 0.02 no tenía sentido incluso si fue "estadísticamente significativo" ...R2R2R2

¡Aquellos que trabajan con estadísticas necesitan entender los datos!

Sean
fuente
15
Ninguna estadística es peligrosa si entiendes lo que significa. El ejemplo de Sean no tiene nada que ver con R cuadrado, es el problema general de estar enamorado de la significación estadística. Cuando hacemos pruebas estadísticas en la práctica, solo nos interesan las diferencias significativas. Dos poblaciones nunca tienen distribuciones idénticas. Si están cerca de la igualdad, no nos importa. Con tamaños de muestra muy grandes, podemos detectar pequeñas diferencias sin importancia. Es por eso que en mi consultoría de investigación médica enfatizo la diferencia entre significación clínica y estadística.
Michael Chernick
11
Inicialmente, mis clientes a menudo piensan que la importancia estadística es el objetivo de la investigación. Deben demostrar que no es el caso.
Michael Chernick
Un estadísticamente significativo en 0.02 simplemente significa que tenía datos suficientes para afirmar que no es 0. Pero está cerca de 0. Por lo tanto, hay muy poca relación entre las variables independientes y la variable dependiente. R2R2
Michael Chernick
1
Absolutamente de acuerdo Michael. ¡Un poco de conocimiento de las estadísticas puede ser peligroso! :) Basándome en esa idea hace muchos años, trabajé duro para no repetir ese tonto error al estudiar mucho para comprender mejor lo que realmente significan las estadísticas. ¡Una maestría y un doctorado en estadística y todavía creo que tengo un largo camino por recorrer con mis estudios!
Sean
Gracias Sean Agradezco tus comentarios y humildad.
Michael Chernick
16

Cuando se tiene un solo predictor se interpreta exactamente como la proporción de variación en que puede ser explicado por el lineal relación con . Esta interpretación debe tenerse en cuenta al mirar el valor de .R2YXR2

Puede obtener un grande de una relación no lineal solo cuando la relación es cercana a lineal. Por ejemplo, suponga donde y . Si haces el cálculo deR2Y=eX+εXUniform(2,3)εN(0,1)

R2=cor(X,eX+ε)2

encontrará que es alrededor de (solo lo por simulación) a pesar de que la relación claramente no es lineal. La razón es que parece muchísimo a una función lineal durante el intervalo ..914eX(2,3)

Macro
fuente
1
Para los comentarios a continuación de Erik y Macro, no creo que nadie me lo cuente y probablemente sea mejor tener una respuesta combinada en lugar de tres respuestas separadas, pero ¿por qué es tan importante que tanta discusión se centre en cómo escribe cosas y dónde las escribe en lugar de centrarse en lo que se dice?
Michael Chernick
8
@MichaelChernick, no creo que haya "tanta" discusión sobre cómo se escriben las cosas. Las pautas con las que hemos tratado de ayudarlo son más parecidas a "si todos hicieran eso, este sitio sería muy desorganizado y difícil de seguir". Puede parecer que hay mucha discusión sobre estas cosas, pero probablemente sea solo porque has sido un participante muy activo desde que te uniste, lo cual es genial, ya que claramente traes mucho a la mesa. Si desea hablar más sobre esto, considere comenzar un hilo sobre meta en lugar de una discusión de comentarios bajo mi respuesta no relacionada :)
Macro
¿Qué pasa si uno más amplio soporte de distribución uniforme en su ejemplo?
Qbik
Como he adquirido experiencia en este sitio, tengo que estar de acuerdo con Macro en que es importante ser conciso y consolidado.
Michael Chernick
15

Una situación que desearía evitar es la regresión múltiple, donde agregar variables predictoras irrelevantes al modelo puede en algunos casos aumentar . Esto puede abordarse utilizando el valor ajustado en su lugar, calculado comoR2R2R2

R¯2=1(1R2)n1np1 donde es el número de muestras de datos y es el número de regresores que no cuentan el término constante .np

jedfrancis
fuente
21
Tenga en cuenta que al agregar variables irrelevantes se garantiza un aumento de (no solo en "algunos casos") a menos que esas variables sean completamente colineales con las variables existentes. R2
whuber
6
  1. Un buen ejemplo de alto con una función no lineal es la función cuadrática restringida al intervalo . Con 0 ruido, no tendrá un cuadrado de 1 si tiene 3 o más puntos, ya que no encajarán perfectamente en una línea recta. Pero si los puntos de diseño están dispersos uniformemente en el que obtienes será alto, tal vez sorprendentemente. Este puede no ser el caso si tiene muchos puntos cerca de 0 y muchos cerca de 1 con poco o nada en el medio.R2y=x2[0,1]R2[0,1]R2

  2. R2 será pobre en el caso lineal perfecto si el término de ruido tiene una gran varianza. Por lo tanto, puede tomar el modelo que técnicamente es un modelo lineal perfecto, pero deje que la varianza en e tienda al infinito y tendrá yendo a 0. A pesar de sus deficiencias, R cuadrado mide el porcentaje de varianza explicada por los datos y, por lo tanto, mide la bondad de ajuste. Un alto significa un buen ajuste, pero aún debemos tener cuidado con el buen ajuste causado por demasiados parámetros para el tamaño del conjunto de datos que tenemos.Y=x+ϵR2R2

  3. En la situación de regresión múltiple existe el problema de sobreajuste. Agregue variables y siempre aumentará. El ajustado soluciona esto un poco, ya que tiene en cuenta el número de parámetros.R2R2

Michael Chernick
fuente