Explicando la varianza de un modelo de regresión

13

Esta puede ser una explicación simple (espero de todos modos).

He hecho un análisis de regresión en Matlab usando la caja de herramientas de regresión. Sin embargo, me he encontrado con un estudio que dice esto:

"Utilizando el análisis de regresión, fue posible configurar un modelo predictivo utilizando solo cuatro características sónicas que explican el 60% de la varianza"

El enlace al artículo está aquí si es necesario: Artículo

No estoy 100% seguro de lo que esto significa, pero espero que sea algo simple. ¿También es 60% algo bueno? He intentado buscar esto, pero debido a que siempre hay un porcentaje antes de la palabra 'varianza', es difícil encontrar una respuesta.

usuario1574598
fuente

Respuestas:

9

Trataré de explicar esto en términos simples.

El modelo de regresión se centra en la relación entre una variable dependiente y un conjunto de variables independientes . La variable dependiente es el resultado, que está tratando de predecir, utilizando una o más variables independientes.

Suponga que tiene un modelo como este:

Peso_i = 3.0 + 35 * Altura_i + ε

Ahora una de las preguntas obvias es: ¿qué tan bien funciona este modelo? En otras palabras, ¿qué tan bien la altura de una persona predice con precisión, o explica , el peso de esa persona?

Antes de responder a esta pregunta, primero debemos entender cuánta fluctuación observamos en los pesos de las personas. Esto es importante, porque lo que estamos tratando de hacer aquí es explicar la fluctuación (variación) en los pesos entre diferentes personas, utilizando sus alturas. Si la altura de las personas puede explicar esta variación en el peso, entonces tenemos un buen modelo.

La varianza es una buena métrica para ser utilizada para este propósito, ya que mide hasta qué punto se extiende un conjunto de números (desde su valor medio).

Esto nos ayuda a reformular nuestra pregunta original: ¿Cuánta variación en el peso de una persona puede explicarse por su altura ?

De aquí proviene el "% de varianza explicada". Por cierto, para el análisis de regresión, es igual al coeficiente de correlación R-cuadrado .

Para el modelo anterior, podríamos hacer una declaración como: Usando el análisis de regresión, fue posible configurar un modelo predictivo usando la altura de una persona que explica el 60% de la varianza en el peso ”.

Ahora, ¿qué tan bueno es el 60%? Es difícil hacer un juicio objetivo sobre esto. Pero si tiene otros modelos competidores, por ejemplo, otro modelo de regresión que usa la edad de una persona para predecir su peso, puede comparar diferentes modelos en función de cuánta varianza explican y decidir qué modelo es mejor. (Hay algunas advertencias sobre esto, consulte 'Interpretación y uso de la regresión' - Christopher H. Achen http://www.sagepub.in/books/Book450/authors )

Vishal
fuente
1
Eso ciertamente ha respondido una gran proporción de mi pregunta. En términos de por qué los autores afirman que esto es de gran importancia, no lo sé. Entonces, si este es el valor de R-cuadrado y volvemos a su ejemplo: digamos que usamos un modelo para 'edad' que tenía una varianza del 80%, y luego y un modelo para 'altura' que tenía una varianza de 85 % para predecir el peso de una persona, ¿supongo que el último modelo sería más significativo? Gracias por el enlace del libro, lo compré anoche ya que usaré bastante la regresión en los próximos meses.
user1574598
1
Sí, puede concluir que el último modelo es mejor en su capacidad de predecir (o explicar) el peso de una persona, ceteris paribus. Por cierto, usted declaró esto como "el modelo tenía una varianza del 80%", pero debería ser "el modelo explica el 80% de la varianza".
Vishal
4

R2

yo=1norte(y^yo-y¯)2yo=1norte(yyo-y¯)2

yyoy^yoyothy¯R2

yo=1norte(yyo-y¯)2=yo=1norte(y^yo-y¯)2+yo=1norte(yyo-y^yo)2,

R2

dsaxton
fuente