¿Diferencia entre análisis de regresión y análisis de varianza?

21

Ahora mismo estoy aprendiendo sobre el análisis de regresión y el análisis de varianza.

En el análisis de regresión, tiene una variable fija y desea saber cómo va la variable con la otra variable.

En el análisis de varianza, desea saber, por ejemplo: si este alimento animal específico influye en el peso de los animales ... SO uno fijó la var y la influencia en los otros ...

¿Está bien o mal? Por favor, ayúdame ...

Le Max
fuente

Respuestas:

25

Suponga que su conjunto de datos consta de un conjunto para i = 1 , ... , ny desea ver la dependencia de y de x .(Xyo,yyo)yo=1,...,norteyX

Supongamos que encontrar los valores de α y β de α y β que minimizar la suma de cuadrados residual n Σ i = 1 ( y i - ( α + β x i ) ) 2 . Luego se toma y = α + β x para ser el predicho y -valor para cualquier (no necesariamente ya se ha observado) x -valor. Eso es regresión lineal.α^β^αβ

yo=1norte(yyo-(α+βXyo))2.
y^=α^+β^XyX

Ahora considere descomponer la suma total de cuadrados conn-1grados de libertad, en partes "inexplicables" "explicado" y: n Σ i = 1 ( ( α + β x i ) - ˉ y ) 2 explicó+ n Σ i = 1 ( y i - (

yo=1norte(yyo-y¯)2dónde y¯=y1++ynortenorte
norte-1 con1
yo=1norte((α^+β^Xyo)-y¯)2explicado + yo=1norte(yyo-(α^+β^Xyo))2inexplicable.
1y grados de libertad, respectivamente. Eso es el análisis de la varianza, y uno a continuación considera cosas como estadísticas F F = Σ n i = 1 ( ( α + β x i ) - ˉ y ) 2 / 1norte-2Estaestadística F prueba la hipótesis nulaβ=0.
F=yo=1norte((α^+β^Xyo)-y¯)2/ /1yo=1norte(yyo-(α^+β^Xyo))2/ /(norte-2).
β=0 0

y=α+βyo
yokk-1nk

Un par de puntos adicionales:

  • Para algunos matemáticos, el relato anterior puede hacer parecer que todo el campo es solo lo que se ve arriba, por lo que puede parecer misterioso que tanto la regresión como el análisis de varianza sean áreas de investigación activas. Hay muchas cosas que no encajan en una respuesta apropiada para publicar aquí.
  • y=α+βx
Michael Hardy
fuente
55
@MichaelHardy Si bien la descomposición de la varianza en componentes en regresión a menudo se denomina tabla de análisis de varianza. Eso no es lo que los estadísticos comúnmente quieren decir con ANOVA. Los métodos 1) regresión lineal, 2) análisis de varianza y 3) análisis de covarianza son categorías bajo el encabezado general del modelo lineal general, la regresión lineal involucra covariables continuas, ANOVA incluye solo grupos discretos y ANCOVA es una combinación de covariables continuas y grupos discretos
Michael R. Chernick
1
Informalmente, a veces se habla de esa manera, y mi respuesta no dijo eso, pero se debe saber que (1) la estimación de coeficientes de mínimos cuadrados se realiza en cualquiera de los dos problemas (predictores continuos o categóricos) y una descomposición de la suma de cuadrados con sus correspondientes grados de libertad --- una tabla anova --- también se hace en cualquiera de los dos problemas.
Michael Hardy
55
Con esa concesión, debes admitir que mi respuesta no tiene nada de malo. Además, los términos ANOVA, ANCOVA y regresión no son términos informales. Son muy claramente formales y es incorrecto decirle al OP que ANOVA es la descomposición de la varianza en la regresión. El hecho de que un procedimiento estadístico en el que alguien llamado anova pueda hacer cualquier modelo lineal no pruebe nada. En SAS proc reg solo se trata de regresión, proc anova solo se ocupa del análisis de varianza tal como lo definí y proc glm es el que hace ambas cosas.
Michael R. Chernick
1
.... y en R, "lm (....)" da coeficientes de regresión en ambas situaciones, y "anova (lm (....))" da la descomposición de la suma de cuadrados y grados de libertad, en ambas situaciones En cuanto a "tengo que conceder", he puesto algunos comentarios debajo de su respuesta. Ciertamente, si va a mencionar la regresión logística, sería más claro si dijera que tan pronto como no esté hablando de regresión lineal, la palabra "regresión" es un término muy amplio que puede incluir muchas cosas.
Michael Hardy
@MichaelHardy Siéntase libre de comentar sobre mi pregunta planteada en el sitio stats.SE. Creo que su respuesta y mi respuesta a esta pregunta son correctas de alguna manera. Ciertamente me opongo a que mi respuesta sea rechazada. Quería obtener las opiniones de otros en la comunidad de estadísticas sobre esto.
Michael R. Chernick
5

La principal diferencia es la variable de respuesta. Mientras que la regresión logística se ocupa de una respuesta binaria en el análisis de regresión lineal y también de la regresión no lineal, la variable de respuesta es continua. Tiene una variable (s) (también conocida como covariable (s)) que tiene una relación funcional con la variable de respuesta continua. En el análisis de varianza, la respuesta es continua pero pertenece a unas pocas categorías diferentes (por ejemplo, grupo de tratamiento y grupo de control). En el análisis de varianza, busca la diferencia en la respuesta media entre grupos. En la regresión lineal, observa cómo cambia la respuesta a medida que cambian las covariables. Otra forma de ver la diferencia es decir que en la regresión las covariables son continuas, mientras que en el análisis de varianza son un conjunto discreto de grupos.

Michael R. Chernick
fuente
66
Hubiera tomado la pregunta como la diferencia entre la regresión lineal y el análisis de varianza; traer regresión logística parece alejarse del tema. Sin embargo, tu última oración es incorrecta. El análisis de varianza se puede hacer independientemente de si los predictores son discretos o continuos.
Michael Hardy
1
De hecho, hay predictores en el análisis de varianza. En su ejemplo, el predictor es categórico, pero no tiene por qué ser así. El análisis de varianza no solo considera problemas que involucran "grupos discretos".
Michael Hardy
3
@MichaelHardy Estoy dando un paso atrás porque cuando reviso mis enciclopedias estadísticas encuentro referencias al análisis de varianza en términos de descomposición de varianza en el modelo lineal general. Pero el término tiene dos significados y, con bastante frecuencia, ANOVA se distingue de ANCOVA y regresión en la forma que describí. Por lo tanto, el OP debe tener en cuenta ambos términos, el que se refiere a la inferencia sobre los componentes de varianza en el modelo lineal general y el que se refiere a la subclase de modelos lineales que involucran solo grupos discretos.
Michael R. Chernick
2
Pienso que el uso que estás usando es informal. Parece raro hablar de regresión logística sin decir que es sólo uno de una variedad de "regresiones", cuando se utiliza este término en el sentido amplio de la estimación de un valor medio o de predicción de una variable dada otra y, a continuación, distinguiendo que a partir del análisis de la varianza . Pero la cuestión de la diferencia entre los modelos de regresión lineal y el análisis de varianza parece una pregunta más sensata. Pero a menudo hay incertidumbres sobre lo que pretendía el póster original.
Michael Hardy
77
Cualesquiera que hayan sido tus intenciones, considero que el comentario " Tengo un doctorado en estadística, ... " es inapropiado. En primer lugar, no hace nada para resolver el problema en cuestión. Apelar a la autoridad es un enfoque muy utilizado, pero muy equivocado, para probar las cosas. Apelar a su propia autoridad es aún más problemático. También se puede interpretar como una muestra (sin darse cuenta o de otra manera) de una falta de respeto por @MichaelHardy (el personal al que se dirige), que también tiene un doctorado en estadísticas de un programa de buena reputación.
cardenal
2

El análisis de varianza (ANOVA) es un cuerpo de método estadístico para analizar observaciones que se supone son de la estructura.

yyo=β1Xyo1+β2Xyo2++βpagsXyopags+miyo, yo=1(1)nortepagsβ1,β2,...,βpagsmi1,mi2,...,minorteXyojmiyo0 0σ2

mi(ynorte×1)=Xβ,re(y)=σ2yonorte Donde D es matriz de dispersión o matriz de varianza-covarianza.

XyojβjXyojβj0 01

Si el {Xyoj} son valores tomados en las observaciones, no por variables de contador sino por variables continuas como t= tiempo,T= temperatura,t2,mi-T, etc., entonces tenemos un caso de análisis de regresión *. En general, en el análisis de regresión todos los factores son cuantitativos y se tratan cuantitativamente.

Principalmente, estos dos son dos tipos de análisis.

Argha
fuente
¿Qué significa la notación? yo=1(1)norte¿media?
1
yo=1(1)norte medio yo=1,2,...,norte
Argha
-1

En el análisis de regresión, tiene una variable fija y desea saber cómo va la variable con la otra variable.

En el análisis de varianza, usted quiere saber, por ejemplo: si este alimento específico para animales influye en el peso de los animales ... SO uno fijó la var y la influencia en los demás.

Aiza
fuente
1
Hola Aiza, bienvenido a SE. Necesita editar esto para dar más contexto y dejar en claro cuál es realmente la pregunta.
Pare las preguntas de cierre rápido el