¿Cómo son la regresión, la prueba t y el ANOVA todas las versiones del modelo lineal general?

49

¿Cómo son todas las versiones del mismo método estadístico básico?

regression self-study anova generalized-linear-model t-test Amahabirsingh
fuente

relacionado: ¿Por qué se enseña / usa ANOVA como si fuera una metodología de investigación diferente en comparación con la regresión lineal?

Haitao Du

relacionado: R: Anova y Regresión Lineal

Haitao Du

relacionado: ¿Por qué ANOVA es equivalente a la regresión lineal?

Haitao Du

47

Considere que todos pueden escribirse como una ecuación de regresión (quizás con interpretaciones ligeramente diferentes a las de sus formas tradicionales).

Regresión:

Y = β_{0} + β_{1} X_{(continuous)} + ε where ε \sim N (0, σ^{2})

$Y=\beta_0 + \beta_1X_{\text{(continuous)}} + \varepsilon \\ \text{where }\varepsilon\sim\mathcal N(0, \sigma^2)$

Prueba t:

Y = β_{0} + β_{1} X_{(dummy code)} + ε where ε \sim N (0, σ^{2})

$Y=\beta_0 + \beta_1X_{\text{(dummy code)}} + \varepsilon \\ \text{where }\varepsilon\sim\mathcal N(0, \sigma^2)$

ANOVA:

Y = β_{0} + β_{1} X_{(dummy code)} + ε where ε \sim N (0, σ^{2})

$Y=\beta_0 + \beta_1X_{\text{(dummy code)}} + \varepsilon \\ \text{where }\varepsilon\sim\mathcal N(0, \sigma^2)$

La regresión prototípica se conceptualiza con como una variable continua. Sin embargo, la única suposición que se hace realmente sobre es que es un vector de constantes conocidas. Podría ser una variable continua, pero también podría ser un código ficticio (es decir, un vector de y que indica si una observación es miembro de un grupo indicado, por ejemplo, un grupo de tratamiento). Por lo tanto, en la segunda ecuación, podría ser un código ficticio y el valor p sería el mismo que el de una prueba t en su forma más tradicional. $X$ $X$ $0$ $1$ $X$

Sin embargo, el significado de las betas sería diferente aquí. En este caso, sería la media del grupo de control (para el cual las entradas en la variable ficticia serían 's), y sería la diferencia entre la media del grupo de tratamiento y la media del control grupo. $\beta_0$ $0$ $\beta_1$

Ahora, recuerde que es perfectamente razonable tener / ejecutar un ANOVA con solo dos grupos (aunque una prueba t sería más común), y tiene los tres conectados. Si prefiere ver cómo funcionaría si tuviera un ANOVA con 3 grupos; sería: Tenga en cuenta que cuando tiene grupos , tiene códigos ficticios para representarlos. El grupo de referencia (típicamente el grupo de control) se indica teniendo para todos

Y = β_{0} + β_{1} X_{(dummy code 1)} + β_{2} X_{(dummy code 2)} + ε where ε \sim N (0, σ^{2})

$Y=\beta_0 + \beta_1X_{\text{(dummy code 1)}} + \beta_2X_{\text{(dummy code 2)}} + \varepsilon \\ \text{where }\varepsilon\sim\mathcal N(0, \sigma^2)$

g

$g$

g - 1

$g-1$

0

$0$ códigos ficticios (en este caso, tanto el código ficticio 1 como el código ficticio 2). En este caso, no querrá interpretar los valores p de las pruebas t para estas versiones beta que vienen con salida estadística estándar; solo indican si el grupo indicado difiere del grupo de control cuando se evalúa de forma aislada . Es decir, estas pruebas no son independientes. En su lugar, desearía evaluar si las medias del grupo varían mediante la construcción de una tabla ANOVA y la realización de una prueba F. Para lo que vale, las versiones beta se interpretan tal como con la versión de prueba t descrita anteriormente: es la media del grupo de control / referencia, indica la diferencia entre las medias del grupo 1 y el grupo de referencia, y

β_{0}

$\beta_0$

β_{1}

$\beta_1$

β_{2}

$\beta_2$ indica la diferencia entre el grupo 2 y el grupo de referencia.

A la luz de los comentarios de @ whuber a continuación, estos también pueden representarse mediante ecuaciones matriciales: Representado de esta manera, & son vectores de longitud , y es un vector de longitud . ahora es una matriz con filas y columnas. En una regresión prototípica tienes variables continuas y la intersección. Por lo tanto, su matriz se compone de una serie de vectores de columna uno al lado del otro, uno para cada

Y = X β + ε

$\bf Y=\bf X\boldsymbol\beta + \boldsymbol\varepsilon$

Y

$\bf Y$

ε

$\boldsymbol\varepsilon$

N

$N$

β

$\boldsymbol\beta$

p + 1

$p+1$

X

$\bf X$

N

$N$

(p + 1)

$(p+1)$

p

$p$

X

$X$

X

$\bf X$

X

$X$ variable, con una columna de 's en el extremo izquierdo para la intersección.

1

$1$

Si está representando un ANOVA con grupos de esta manera, recuerde que tendría variables ficticias que indican los grupos, con el grupo de referencia indicado por una observación que tiene 's en cada variable ficticia. Como arriba, todavía tendrías una intercepción. Por lo tanto, . $g$ $g-1$ $0$ $p=g-1$

gung - Restablece a Monica
fuente

1

La ecuación ANOVA tendría sentido como ANOVA (y no como prueba t) solo si se interpretara como un vector y se multiplicara a la derecha.

β_{1}

$\beta_1$

whuber

Estas no son ecuaciones matriciales; Raramente los uso aquí, ya que muchas personas no los leen. El primer ANOVA representa una situación idéntica a la prueba t precedente. Solo estoy señalando que si puede ejecutar una prueba t independiente de 2 muestras, puede ejecutar los mismos datos que un ANOVA (que muchas personas deberían reconocer / recordar de su clase de estadísticas 101). Agrego otra versión de ANOVA con 3 grupos más abajo para aclarar que una situación de 2 grupos no es el único caso de ANOVA que puede entenderse como una regresión; pero la ecuación de registro ahora se ve diferente: estaba tratando de mantener un paralelo más explícito arriba.

gung - Restablece a Monica

Mi punto es que, a menos que lo conviertas en una ecuación matricial, tu caracterización de ANOVA es demasiado limitada para ser útil: es idéntica a tu caracterización de la prueba t y, por lo tanto, es más confusa que útil. Cuando comienzas a introducir más grupos, de repente cambias la ecuación, que también puede ser menos clara. Por supuesto, si desea utilizar la notación matricial depende de usted, pero en aras de comunicarse bien, debe esforzarse por lograr la coherencia.

whuber

¿Podría explicar un poco más cómo llega de la definición popular de prueba t a la ecuación que ha mostrado? Básicamente, no puedo entender qué es Y aquí (podría ser ingenuidad o menos coeficiente intelectual para las estadísticas). Sin embargo, cómo llegar desde t = (yx-u0) / s a esta ecuación.

Gaurav Singhal

No lo hace, aunque esto puede ser desconocido para usted. es continuo (y se supone condicionalmente normal) en todos los casos enumerados. No hay supuestos de distribución sobre , puede ser continuo, dicotómico o una variable categórica de varios niveles.

Y

$Y$

X

$X$

gung - Restablece a Monica

16

Todos pueden escribirse como casos particulares del modelo lineal general.

La prueba t es un caso de ANOVA de dos muestras. Si cuadras la estadística de la prueba t obtienes la correspondiente en el ANOVA. $F$

Un modelo ANOVA es básicamente solo un modelo de regresión donde los niveles de factores están representados por variables ficticias (o indicadores ) .

Entonces, si el modelo para una prueba t es un subconjunto del modelo ANOVA y ANOVA es un subconjunto del modelo de regresión múltiple, la regresión misma (y otras cosas además de la regresión) es un subconjunto del modelo lineal general , que extiende la regresión a un especificación más general del término de error que el caso de regresión habitual (que es 'independiente' y 'varianza igual'), y para multivariante . $Y$

Aquí está un ejemplo que muestra la equivalencia de lo común (igual-varianza) dos muestra- análisis y una prueba de hipótesis en un modelo de regresión, hecho en R (las miradas reales de datos para ser emparejados, por lo que esto no es realmente un análisis adecuado) : $t$

> t.test(extra ~ group, var.equal=TRUE, data = sleep) 

    Two Sample t-test

data:  extra by group
t = -1.8608, df = 18, p-value = 0.07919   
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.363874  0.203874
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33

Tenga en cuenta el valor p de 0.079 anterior. Aquí está la única forma anova:

> summary(aov(extra~group,sleep))
            Df Sum Sq Mean Sq F value Pr(>F)  
group        1  12.48  12.482   3.463 0.0792 
Residuals   18  64.89   3.605

Ahora para la regresión:

> summary(lm(extra ~ group, data = sleep))

(alguna salida eliminada)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)   0.7500     0.6004   1.249   0.2276  
group2        1.5800     0.8491   1.861   0.0792 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.899 on 18 degrees of freedom
Multiple R-squared:  0.1613,    Adjusted R-squared:  0.1147 
F-statistic: 3.463 on 1 and 18 DF,  p-value: 0.07919

Compare el valor p en la fila 'group2', y también el valor p para la prueba F en la última fila. Para una prueba de dos colas, son las mismas y ambas coinciden con el resultado de la prueba t.

Además, el coeficiente para 'grupo2' representa la diferencia de medias para los dos grupos.

Glen_b
fuente

Tener los mismos valores de p en los 3 escenarios es mágico e impresionante, sin embargo, si pudiera explicar un poco más sobre cómo se calculan estos valores de p, definitivamente haría que esta respuesta sea más interesante . No sé si mostrar cálculos de valor p también lo hará más útil , por lo que es algo que podría decidir.

Gaurav Singhal

@Gaurav Los valores p son los mismos porque está probando la misma hipótesis en el mismo modelo, solo representada de manera ligeramente diferente. Si está interesado en cómo se calcula un valor p específico, sería una nueva pregunta (no sería una respuesta a la pregunta aquí). Puede hacer una pregunta de este tipo aunque primero intente una búsqueda, ya que es posible que ya haya sido respondida.

Glen_b

Gracias @Glen_b, perdón por hacer una pregunta obvia y eso tampoco de la mejor manera. Y aún así respondió mi pregunta: "misma hipótesis sobre el mismo modelo (y / o datos)". No pensé lo suficiente sobre cómo están probando la misma hipótesis. Gracias

Gaurav Singhal

2

Esta respuesta que publiqué anteriormente es algo relevante, pero esta pregunta es algo diferente.

Es posible que desee pensar en las diferencias y similitudes entre los siguientes modelos lineales:

[\begin{matrix} Y_{1} \\ ⋮ \\ Y_{n} \end{matrix}] = [\begin{matrix} 1 & x_{1} \\ 1 & x_{2} \\ 1 & x_{3} \\ ⋮ & ⋮ \\ 1 & x_{n} \end{matrix}] [\begin{matrix} α_{0} \\ α_{1} \end{matrix}] + [\begin{matrix} ε_{1} \\ ⋮ \\ ⋮ \\ ε_{n} \end{matrix}]

$\begin{bmatrix} Y_1 \\ \vdots \\ Y_n \end{bmatrix} = \begin{bmatrix} 1 & x_1 \\ 1 & x_2 \\ 1 & x_3 \\ \vdots & \vdots \\ 1 & x_n \end{bmatrix} \begin{bmatrix} \alpha_0 \\ \alpha_1 \end{bmatrix} + \begin{bmatrix} \varepsilon_1 \\ \vdots \\ \vdots \\ \varepsilon_n \end{bmatrix}$

[\begin{matrix} Y_{1} \\ ⋮ \\ Y_{n} \end{matrix}] = [\begin{matrix} 1 & 0 & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋮ & ⋮ \\ 1 & 0 & 0 & \dots & 0 \\ 0 & 1 & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋮ & ⋮ \\ 0 & 1 & 0 & \dots & 0 \\ 0 & 0 & 1 & \dots & 0 \\ ⋮ & ⋮ \\ ⋮ & ⋮ \end{matrix}] [\begin{matrix} α_{0} \\ ⋮ \\ α_{k} \end{matrix}] + [\begin{matrix} ε_{1} \\ ⋮ \\ ⋮ \\ ε_{n} \end{matrix}]

$\begin{bmatrix} Y_1 \\ \vdots \\ Y_n \end{bmatrix} = \begin{bmatrix} 1 & 0 & 0 & \cdots & 0 \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & 0 & 0 & \cdots & 0 \\ \hline 0 & 1 & 0 & \cdots & 0 \\ \vdots & \vdots & \vdots & & \vdots \\ 0 & 1 & 0 & \cdots & 0 \\ \hline 0 & 0 & 1 & \cdots & 0 \\ \vdots & & & & \vdots \\ \vdots & & & & \vdots \end{bmatrix} \begin{bmatrix} \alpha_0 \\ \vdots \\ \alpha_k \end{bmatrix} + \begin{bmatrix} \varepsilon_1 \\ \vdots \\ \vdots \\ \varepsilon_n \end{bmatrix}$

Michael Hardy
fuente

2

Algunas descripciones y comentarios a las preguntas serían útiles para los lectores ya que ahora tienen que adivinar de dónde vinieron y cómo se relacionan con la pregunta ...

Tim

0

Anova es similar a una prueba t para la igualdad de medias bajo el supuesto de variaciones desconocidas pero iguales entre los tratamientos. Esto se debe a que en ANOVA MSE es idéntico a la varianza agrupada utilizada en la prueba t. Existen otras versiones de la prueba t, como una para varianzas no iguales y la prueba t por pares. Desde esta vista, la prueba t puede ser más flexible.

pemfir
fuente

¿Cómo son la regresión, la prueba t y el ANOVA todas las versiones del modelo lineal general?

Respuestas: