Estaba hojeando algunas notas de clase de Cosma Shalizi (en particular, la sección 2.1.1 de la segunda clase ), y me recordó que puedes obtener muy bajo incluso cuando tienes un modelo completamente lineal.
Parafraseando el ejemplo de Shalizi: suponga que tiene un modelo , donde es conocida. Entonces \ newcommand {\ Var} {\ mathrm {Var}} \ Var [Y] = a ^ 2 \ Var [x] + \ Var [\ epsilon] y la cantidad de varianza explicada es a ^ 2 \ Var [X] , entonces R ^ 2 = \ frac {a ^ 2 \ Var [x]} {a ^ 2 \ Var [X] + \ Var [\ epsilon]} . Esto va a 0 como \ Var [X] \ rightarrow 0 y a 1 como \ Var [X] \ rightarrow \ infty .
Por el contrario, puede obtener un alto incluso cuando su modelo es notablemente no lineal. (¿Alguien tiene un buen ejemplo de improviso?)
Entonces, ¿cuándo es una estadística útil y cuándo se debe ignorar?
fuente
Respuestas:
Para abordar la primera pregunta , considere el modelo
con iid de media cero y varianza finita. A medida que aumenta el rango de (considerado como fijo o aleatorio), va a 1. Sin embargo, si la varianza de es pequeña (alrededor de 1 o menos), los datos son "notablemente no lineales". En las parcelas, .ε X R2 ε var(ε)=1
Por cierto, una manera fácil de obtener un pequeño es dividir las variables independientes en rangos estrechos. La regresión (usando exactamente el mismo modelo ) dentro de cada rango tendrá un incluso cuando la regresión completa basada en todos los datos tenga un alto . Contemplar esta situación es un ejercicio informativo y una buena preparación para la segunda pregunta.R2 R2 R2
Las dos parcelas siguientes usan los mismos datos. El para la regresión completa es 0.86. Los para las rodajas (de ancho 1/2 de -5/2 a 5/2) son .16, .18, .07, .14, .08, .17, .20, .12, .01 , .00, leyendo de izquierda a derecha. En todo caso, los ajustes mejoran en la situación dividida porque las 10 líneas separadas pueden ajustarse más estrechamente a los datos dentro de sus rangos estrechos. Aunque el para todos los cortes está muy por debajo del completo , ni la fuerza de la relación, la linealidad ni ningún aspecto de los datos (excepto el rango de utilizado para la regresión) ha cambiado.R2 R2 R2 R2 X
(Uno podría objetar que este procedimiento de corte cambia la distribución de Eso es cierto, pero sin embargo corresponde con el uso más común de en el modelado de efectos fijos y revela el grado en que nos está informando sobre el varianza de en la situación de efectos aleatorios. En particular, cuando está obligado a variar dentro de un intervalo menor de su rango natural, generalmente caerá).X R2 R2 X X R2
El problema básico con es que depende de demasiadas cosas (incluso cuando se ajusta en regresión múltiple), pero más especialmente de la varianza de las variables independientes y la varianza de los residuos. Normalmente no nos dice nada sobre "linealidad" o "fuerza de relación" o incluso "bondad de ajuste" para comparar una secuencia de modelos.R2
La mayoría de las veces puedes encontrar una estadística mejor que . Para la selección del modelo, puede consultar AIC y BIC; Para expresar la adecuación de un modelo, observe la varianza de los residuos.R2
Esto nos lleva finalmente a la segunda pregunta . Una situación en la que podría tener algún uso es cuando las variables independientes se establecen en valores estándar, controlando esencialmente el efecto de su varianza. Entonces es realmente un proxy de la varianza de los residuos, adecuadamente estandarizados.R2 1−R2
fuente
Su ejemplo solo se aplica cuando la variable debe estar en el modelo . Ciertamente no se aplica cuando uno usa las estimaciones de mínimos cuadrados habituales. Para ver esto, tenga en cuenta que si estimamos mínimo de cuadrados en su ejemplo, obtenemos:X a
Ahora el segundo término siempre es menor que (igual a en el límite), por lo que obtenemos un límite superior para la contribución a de la variable :1 1 R2 X
Y así, a menos que también, en realidad veremos como (porque el numerador va a cero, pero el denominador va a ). Además, podemos lograr que converja en algo entre y dependiendo de qué tan rápido diverjan los dos términos. Ahora, el término anterior generalmente divergerá más rápido que si debería estar en el modelo, y más lento si no debería estar en el modelo. En ambos casos, va en la dirección correcta.(1N∑Ni=1XiYi)2→∞ R2→0 s2X→∞ Var[ϵ]>0 R2 0 1 s2X X X R2
Y también tenga en cuenta que para cualquier conjunto de datos finitos (es decir, uno real) nunca podemos tener menos que todos los errores sean exactamente cero. Esto básicamente indica que es una medida relativa, en lugar de una medida absoluta. Porque a menos que sea realmente igual a , siempre podemos encontrar un mejor modelo de ajuste. Este es probablemente el aspecto "peligroso" de en que, debido a que está escalado para estar entre y , parece que podemos interpretarlo en sentido absoluto.R2=1 R2 R2 1 R2 0 1
Probablemente sea más útil observar qué tan rápido cae medida que agrega variables al modelo. Y por último, pero no menos importante, nunca debe ignorarse en la selección de variables, ya que es efectivamente una estadística suficiente para la selección de variables: contiene toda la información sobre la selección de variables que se encuentra en los datos. Lo único que se necesita es elegir la caída en que corresponde a "ajustar los errores", que generalmente depende del tamaño de la muestra y el número de variables.R2 R2 R2
fuente
Si puedo agregar un ejemplo de cuándo es peligroso. Hace muchos años, estaba trabajando en algunos datos biométricos y siendo joven y tonto, estaba encantado cuando encontré algunos valores de estadísticamente significativos para mis regresiones elegantes que había construido usando funciones escalonadas. Solo después de mirar hacia atrás después de mi presentación ante una gran audiencia internacional me di cuenta de que, dada la gran variación de los datos, combinada con la posible representación deficiente de la muestra con respecto a la población, un de 0.02 no tenía sentido incluso si fue "estadísticamente significativo" ...R2 R2 R2
¡Aquellos que trabajan con estadísticas necesitan entender los datos!
fuente
Cuando se tiene un solo predictor se interpreta exactamente como la proporción de variación en que puede ser explicado por el lineal relación con . Esta interpretación debe tenerse en cuenta al mirar el valor de .R2 Y X R2
Puede obtener un grande de una relación no lineal solo cuando la relación es cercana a lineal. Por ejemplo, suponga donde y . Si haces el cálculo deR2 Y=eX+ε X∼Uniform(2,3) ε∼N(0,1)
encontrará que es alrededor de (solo lo por simulación) a pesar de que la relación claramente no es lineal. La razón es que parece muchísimo a una función lineal durante el intervalo ..914 eX (2,3)
fuente
Una situación que desearía evitar es la regresión múltiple, donde agregar variables predictoras irrelevantes al modelo puede en algunos casos aumentar . Esto puede abordarse utilizando el valor ajustado en su lugar, calculado comoR2 R2 R2
fuente
Un buen ejemplo de alto con una función no lineal es la función cuadrática restringida al intervalo . Con 0 ruido, no tendrá un cuadrado de 1 si tiene 3 o más puntos, ya que no encajarán perfectamente en una línea recta. Pero si los puntos de diseño están dispersos uniformemente en el que obtienes será alto, tal vez sorprendentemente. Este puede no ser el caso si tiene muchos puntos cerca de 0 y muchos cerca de 1 con poco o nada en el medio.R2 y=x2 [0,1] R2 [0,1] R2
En la situación de regresión múltiple existe el problema de sobreajuste. Agregue variables y siempre aumentará. El ajustado soluciona esto un poco, ya que tiene en cuenta el número de parámetros.R2 R2
fuente