Por qué suposición de normalidad en regresión lineal

15

Mi pregunta es muy simple: ¿por qué elegimos normal como la distribución que sigue el término de error en el supuesto de regresión lineal? ¿Por qué no elegimos a otros como uniforme, t o lo que sea?

regression mathematical-statistics normal-distribution error linear Shi maestro
fuente

55

No elegimos la suposición normal. Simplemente sucede que cuando el error es normal, los coeficientes del modelo siguen exactamente una distribución normal y se puede usar una prueba F exacta para probar hipótesis sobre ellos.

AdamO

10

Porque las matemáticas funcionan con la suficiente facilidad como para que las personas puedan usarlas antes que las computadoras modernas.

Nat

1

@ AdamO no entiendo; Usted acaba de describir las razones por las que lo elegimos.

JiK

2

@JiK si pudiera elegir distribuciones, no habría necesidad de estadísticas en absoluto. El mundo entero sería probabilidad.

AdamO

1

@AdamO Puede elegir suposiciones para su modelo cuando realiza inferencia estadística, por lo que no creo que eso signifique que no haya estadísticas.

JiK

29

Elegimos otras distribuciones de error. En muchos casos, puede hacerlo con bastante facilidad; Si está utilizando la estimación de máxima verosimilitud, esto cambiará la función de pérdida. Esto ciertamente se hace en la práctica.

Laplace (errores exponenciales dobles) corresponden a la regresión de desviaciones menos absolutas / regresión $L_1$ (que discuten numerosas publicaciones en el sitio). Las regresiones con errores t se usan ocasionalmente (en algunos casos porque son más robustas que los errores graves), aunque pueden tener una desventaja: la probabilidad (y, por lo tanto, la negativa de la pérdida) puede tener múltiples modos.

Los errores uniformes corresponden a una pérdida $L_\infty$ (minimizar la desviación máxima); tal regresión a veces se llama aproximación de Chebyshev (aunque tenga cuidado, ya que hay otra cosa con esencialmente el mismo nombre). Nuevamente, esto a veces se hace (de hecho, para regresiones simples y conjuntos de datos pequeños con errores acotados con dispersión constante, el ajuste a menudo es lo suficientemente fácil de encontrar a mano, directamente en un gráfico, aunque en la práctica puede usar métodos de programación lineal u otros algoritmos ; de hecho, los problemas de regresión $L_\infty$ y $L_1$ son duales entre sí, lo que puede conducir a atajos a veces convenientes para algunos problemas).

De hecho, aquí hay un ejemplo de un modelo de "error uniforme" ajustado a los datos a mano:

Es fácil identificar (deslizando una regla hacia los datos) que los cuatro puntos marcados son los únicos candidatos para estar en el conjunto activo; tres de ellos formarán realmente el conjunto activo (y una pequeña verificación pronto identificará cuáles tres conducen a la banda más estrecha que abarca todos los datos). La línea en el centro de esa banda (marcada en rojo) es entonces la estimación de probabilidad máxima de la línea.

Son posibles muchas otras opciones de modelo y se han utilizado bastantes en la práctica.

Tenga en cuenta que si tiene errores aditivos, independientes y de propagación constante con una densidad de la forma $k\,\exp(-c.g(\varepsilon))$ , maximizar la probabilidad corresponderá a minimizar $\sum_i g(e_i)$ , donde $e_i$ es el $i$ ésimo residuo.

Sin embargo, hay una variedad de razones por las cuales los mínimos cuadrados son una opción popular, muchas de las cuales no requieren ningún supuesto de normalidad.

Glen_b -Reinstate a Monica
fuente

2

Gran respuesta. ¿Le importaría agregar algunos enlaces que brinden más detalles sobre cómo se usan estas variaciones en la práctica?

rgk

(+1) Gran respuesta. ¿Le importaría compartir el código R utilizado para ajustar la línea

-Regresión?

L_{\infty}

$L_{\infty}$

COOLSerdash

1

Como expliqué en el texto, lo ajusté a mano, de manera muy similar al enfoque que describí. Si bien se puede hacer con la suficiente facilidad usando el código, literalmente abrí el gráfico en MS Paint e identifiqué los tres puntos en el conjunto activo (unir dos de los cuales dieron la pendiente), y luego moví la línea a mitad de camino hacia el tercer punto (reduciendo a la mitad la distancia vertical en píxeles y moviendo la línea hacia arriba esa cantidad de píxeles), el punto es demostrar cuán simple puede ser esto. A un niño se le podría enseñar a hacerlo.

Glen_b -Reinstalar Monica

@Glen_b De hecho, yo era un adolescente cuando me enseñaron a hacer exactamente eso en el laboratorio de física de primer año.

Peter Leopold

9

El supuesto normal / gaussiano se usa a menudo porque es la opción más conveniente computacionalmente. Calcular la estimación de máxima verosimilitud de los coeficientes de regresión es un problema de minimización cuadrática, que se puede resolver utilizando álgebra lineal pura. Otras opciones de distribución de ruido producen problemas de optimización más complicados que generalmente tienen que resolverse numéricamente. En particular, el problema puede ser no convexo y producir complicaciones adicionales.

La normalidad no es necesariamente una buena suposición en general. La distribución normal tiene colas muy ligeras, y esto hace que la estimación de regresión sea bastante sensible a los valores atípicos. Las alternativas como las distribuciones t de Laplace o de Student son a menudo superiores si los datos de medición contienen valores atípicos.

Consulte el libro seminal de Peter Huber, Robust Statistics, para obtener más información.

Martin L
fuente

2

Al trabajar con esas hipótesis, la regresión basada en el cuadrado al error y la probabilidad máxima le brindan la misma solución. También es capaz de obtener pruebas F simples para la significación del coeficiente, así como intervalos de confianza para sus predicciones.

En conclusión, la razón por la que a menudo elegimos la distribución normal es sus propiedades, que a menudo facilitan las cosas. Tampoco es una suposición muy restrictiva, ya que muchos otros tipos de datos se comportarán "de forma normal"

De todos modos, como se mencionó en una respuesta anterior, hay posibilidades de definir modelos de regresión para otras distribuciones. Lo normal resulta ser el más recurrente.

David
fuente

2

Glen_b ha explicado muy bien que la regresión OLS se puede generalizar (la maximización de probabilidad en lugar de minimizar la suma de cuadrados) y hacer elegir otras distribuciones.

Sin embargo, ¿por qué se elige la distribución normal para frecuencia ?

La razón es que la distribución normal ocurre en muchos lugares de forma natural. Es un poco lo mismo que a menudo vemos la proporción áurea o los números de Fibonacci que ocurren "espontáneamente" en varios lugares de la naturaleza.

La distribución normal es la distribución limitante para una suma de variables con varianza finita (o también son posibles restricciones menos estrictas). Y, sin tomar el límite, también es una buena aproximación para una suma de un número finito de variables. Entonces, debido a que muchos errores observados ocurren como una suma de muchos pequeños errores no observados, la distribución normal es una buena aproximación.

Ver también aquí Importancia de la distribución normal

donde las máquinas de frijoles de Galton muestran el principio intuitivamente

Sexto empírico
fuente

-1

¿Por qué no elegimos otras distribuciones?

$y_i \in \mathbb R$ $x_i \in \mathbb R^n$ $x_i$

{\hat{y}}_{i} = w^{⊺} x_{i} .

$\hat y_i = w^\intercal x_i.$

La pérdida sorpresa suele ser la pérdida más sensata:

L = - \log P (y_{i} ∣ x_{i}) .

$L = -\log P(y_i \mid x_i).$

Puede pensar en la regresión lineal como el uso de una densidad normal con varianza fija en la ecuación anterior:

L = - \log P (y_{i} ∣ x_{i}) \propto (y_{i} - {\hat{y}}_{i})^{2} .

$L = -\log P(y_i \mid x_i) \propto (y_i - \hat y_i)^2.$

Esto lleva a la actualización de peso:

\nabla_{w} L = ({\hat{y}}_{i} - y_{i}) x_{i}

$\nabla_w L = (\hat y_i - y_i)x_i$

En general, si usa otra distribución familiar exponencial, este modelo se llama modelo lineal generalizado . La distribución diferente corresponde a una densidad diferente, pero se puede formalizar más fácilmente cambiando la predicción, el peso y el objetivo.

$W \in \mathbb R^{n\times k}$

{\hat{u}}_{i} ≜ \nabla g (W x_{i})

$\hat u_i \triangleq \nabla g(W x_i)$

$\nabla g: \mathbb R^k \to \mathbb R^k$ $y_i$ $u_i = T(y_i) \in \mathbb R^k$

$\eta$

f (z) = h (z) \exp (η^{⊺} T (z) - g (η)) .

$f(z) = h(z)\exp(\eta^\intercal T(z) - g(\eta)).$

$\eta$ $w^\intercal x_i$ $z = y_i$

\begin{aligned} \nabla_{W} L & = \nabla_{W} - \log f (x) \\ = (\nabla g (W x_{i})) x_{i}^{⊺} - T (y_{i}) x_{i}^{⊺} \\ = ({\hat{u}}_{i} - u_{i}) x_{i}^{⊺} \end{aligned},

$\begin{align} \nabla_W L &= \nabla_W -\log f(x) \\ &= (\nabla g(W x_i)) x_i^\intercal - T(y_i) x_i^\intercal \\ &= (\hat u_i - u_i) x_i^\intercal \end{align},$

Hasta donde yo sé, el log-normalizador de gradiente puede ser cualquier función analítica monotónica, y cualquier función analítica monotónica es el log-normalizador de gradiente de alguna familia exponencial.

Neil G
fuente

Esto es muy corto y demasiado críptico para nuestros estándares, por favor explique también sorpresa .

kjetil b halvorsen

1

"cada función de enlace corresponde a un supuesto de distribución diferente" esto es muy vago. La función de enlace no tiene que ver con generalizar a diferentes supuestos de distribución, sino con generalizar la parte (lineal) que describe la media de la distribución.

Sextus Empiricus

1

$f$ $g$

1

Por lo general, ciertas funciones de enlace se usan con ciertos supuestos de distribución. Pero esto no es una necesidad. Entonces, mis supuestos de distribución son normales en ese ejemplo, y no Poisson (eso fue intencional). Algunos ejemplos mejores (más prácticos y bien conocidos) son las variables binomiales / distribuidas de Bernouilli donde las personas trabajan con un modelo probit o un modelo logit, por lo tanto, diferentes funciones de enlace pero el mismo supuesto de distribución (condicional).

Sextus Empiricus

1

@Neil G: ¿Soy el flojo? Podría haber incluido sorpresa en la publicación original, ¿sí? Además, cuando estoy haciendo tales comentarios, es más para el sitio que para mí. Se supone que este sitio es autónomo. Podría haber / adiviné el significado (incluso si es una terminología no estándar en estadística), como puede ver en mi respuesta aquí, entropía

kjetil b halvorsen

Por qué suposición de normalidad en regresión lineal

Respuestas: