Imagine que tenemos un modelo de regresión lineal con la variable dependiente . Encontramos su . Ahora, hacemos otra regresión, pero esta vez en , y de manera similar encontramos su . Me han dicho que no puedo comparar ambos para ver qué modelo es más adecuado. ¿Porqué es eso? La razón que se me dio fue que estaríamos comparando la variabilidad de diferentes cantidades (diferentes variables dependientes). No estoy seguro de que esto sea una razón suficiente para esto.R 2 y log ( y ) R 2 log ( y ) R 2
¿También hay una manera de formalizar esto?
Cualquier ayuda sería apreciada.
regression
data-transformation
r-squared
Un anciano en el mar.
fuente
fuente
Respuestas:
Es una buena pregunta, porque "cantidades diferentes" no parecen ser una gran explicación.
Hay dos razones importantes para desconfiar del uso de para comparar estos modelos: es demasiado tosco ( realmente no evalúa la bondad de ajuste ) y será inapropiado para al menos uno de los modelos. Esta respuesta aborda ese segundo problema.R2
Tratamiento teórico
R 2 yR2 compara la varianza de los residuos del modelo con la varianza de las respuestas. La varianza es una desviación aditiva cuadrática media de un ajuste. Como tal, podemos entender que compara dos modelos de la respuesta . R2 y
El modelo "base" es
donde es un parámetro (la respuesta media teórica) y son "errores" aleatorios independientes, cada uno con media cero y una varianza común de .δ i τ 2μ δi τ2
El modelo de regresión lineal introduce los vectores como variables explicativas:xi
El número y el vector son los parámetros (la intersección y las "pendientes"). Los nuevamente son errores aleatorios independientes, cada uno con media cero y varianza común . β ε i σ 2β0 β εi σ2
τ 2 - σ 2 τ 2R2 estima la reducción en la varianza, , en comparación con la varianza original .τ2−σ2 τ2
Cuando tomas logaritmos y usas mínimos cuadrados para ajustar el modelo , implícitamente estás comparando una relación de la forma
a uno de la forma
Estos son como los modelos y pero con respuestas de registro. Sin embargo, no son equivalentes a los dos primeros modelos. Por ejemplo, exponiendo ambos lados de daría(1) (2) (2a)
Los términos de error ahora multiplican la relación subyacente . En consecuencia, las variaciones de las respuestas sonexp(ηi) yi=exp(γ0+xiγ)
Las variaciones dependen de .xi Ese no es el modelo , que supone que las variaciones son todas iguales a una constante .(2) σ2
Por lo general, solo uno de estos conjuntos de modelos puede ser una descripción razonable de los datos. Aplicar el segundo conjunto y cuando el primer conjunto y es un buen modelo, o el primero cuando el segundo es bueno, equivale a trabajar con un conjunto de datos hetero lineales no lineales, que por lo tanto debería ajustarse mal con una regresión lineal. Cuando cualquiera de estas situaciones es el caso, podríamos esperar que el mejor modelo exhiba el más grande . Sin embargo, ¿qué pasa si tampoco es el caso? ¿Podemos esperar que el más grande nos ayude a identificar el mejor modelo?(1a) (2a) (1) (2) R2 R2
Análisis
En cierto sentido, esta no es una buena pregunta, porque si ninguno de los dos modelos es apropiado, deberíamos encontrar un tercer modelo. Sin embargo, el problema que tenemos ante nosotros se refiere a la utilidad de para ayudarnos a tomar esta determinación. Por otra parte, muchas personas piensan acerca de la primera forma de la relación entre e --is es lineal, ¿es logarítmica, es algo más - sin preocuparse de las características de los errores de regresión o . Consideremos por lo tanto una situación en la que nuestro modelo acerta la relación pero está equivocado acerca de su estructura de error, o viceversa .R2 x y εi ηi
Tal modelo (que ocurre comúnmente) es un ajuste de mínimos cuadrados a una relación exponencial,
Ahora el logaritmo de es una función lineal de , como en , pero los términos de error son aditivos , como en . En tales casos, podría inducirnos a error a elegir el modelo con una relación incorrecta entre e .y x (2a) θi (2) R2 x y
Aquí hay una ilustración del modelo . Hay observaciones para (un vector 1 igualmente distribuido entre y ). El panel izquierdo muestra los datos originales mientras que el panel derecho muestra los datos transformados . Las líneas rojas discontinuas trazan la verdadera relación subyacente, mientras que las líneas azules continuas muestran los ajustes de mínimos cuadrados. Los datos y la relación verdadera son los mismos en ambos paneles: solo difieren los modelos y sus ajustes.(3) 300 xi 1.0 1.6 (x,y) (x,log(y))
El ajuste a las respuestas del registro a la derecha claramente es bueno: casi coincide con la relación verdadera y ambas son lineales. El ajuste a las respuestas originales a la izquierda claramente es peor: es lineal, mientras que la verdadera relación es exponencial. Desafortunadamente, tiene un valor notablemente mayor de : comparación con . Es por eso que no debemos confiar en para llevarnos al mejor modelo. Es por eso que no deberíamos estar satisfechos con el ajuste, incluso cuando es "alto" (y en muchas aplicaciones, un valor de se consideraría realmente alto). 0.70 0.56 R 2 R 2 0.70R2 0.70 0.56 R2 R2 0.70
Por cierto, una mejor manera de evaluar estos modelos incluye pruebas de bondad de ajuste (lo que indicaría la superioridad del modelo de registro a la derecha) y gráficos de diagnóstico para la estacionariedad de los residuos (lo que resaltaría los problemas con ambos modelos). Tales evaluaciones conducirían naturalmente a uno a un ajuste de mínimos cuadrados ponderado de o directamente al modelo sí, que tendría que ajustarse utilizando métodos de mínimos cuadrados de máxima probabilidad o no lineales.( 3 )log(y) (3)
fuente