¿Cuál es una lista completa de los supuestos habituales para la regresión lineal?

72

¿Cuáles son los supuestos habituales para la regresión lineal?

¿Incluyen:

  1. Una relación lineal entre la variable independiente y la dependiente
  2. errores independientes
  3. distribución normal de errores
  4. homocedasticidad

¿Hay otros?

Tony
fuente
3
Puede encontrar una lista bastante completa en el pequeño libro de William Berry sobre "Comprensión de los
3
Si bien los encuestados han enumerado algunos buenos recursos, es una pregunta difícil de responder en este formato, y (muchos) libros se han dedicado exclusivamente a este tema. No hay un libro de cocina, ni debería darse la variedad potencial de situaciones que la regresión lineal podría abarcar.
Andy W
3
Técnicamente, la regresión lineal (ordinaria) es un modelo de la forma , Y i iid. Esa simple declaración matemática abarca todos los supuestos. Esto me lleva a pensar, @Andy W, que puede estar interpretando la pregunta de manera más amplia, tal vez en el sentido del arte y la práctica de la regresión. Sus pensamientos adicionales sobre esto podrían ser útiles aquí. E[Yi]=XiβYi
whuber
2
@Andy WI no estaba tratando de sugerir que su interpretación fuera incorrecta. Su comentario sugirió una forma de pensar sobre la pregunta que va más allá de los supuestos técnicos, quizás apuntando hacia lo que puede ser necesario para una interpretación válida de los resultados de la regresión. No sería necesario escribir un tratado en respuesta, pero incluso una lista de algunos de esos temas más amplios podría ser esclarecedora y podría ampliar el alcance y el interés de este hilo.
whuber
1
@whuber, si , esto significa que los medios son diferentes para diferente i , por lo tanto Y i no pueden ser iid :)EYi=XiβiYi
mpiktas

Respuestas:

78

La respuesta depende en gran medida de cómo define completa y habitual. Supongamos que escribimos el modelo de regresión lineal de la siguiente manera:

yi=xiβ+ui

donde es el vector de las variables predictoras, es el parámetro de interés, es la variable de respuesta y es la perturbación. Una de las posibles estimaciones de es la estimación de mínimos cuadrados: xiβyiuiβ

β^=argminβ(yixiβ)2=(xixi)1xiyi.

Ahora, prácticamente todos los libros de texto abordan los supuestos cuando esta estimación tiene propiedades deseables, como imparcialidad, consistencia, eficiencia, algunas propiedades de distribución, etc.β^

Cada una de estas propiedades requiere ciertos supuestos, que no son lo mismo. Entonces, la mejor pregunta sería preguntar qué supuestos son necesarios para las propiedades deseadas de la estimación LS.

Las propiedades que menciono anteriormente requieren algún modelo de probabilidad para la regresión. Y aquí tenemos la situación en la que se utilizan diferentes modelos en diferentes campos aplicados.

El caso simple es tratar como variables aleatorias independientes, con no aleatorio. No me gusta la palabra habitual, pero podemos decir que este es el caso habitual en la mayoría de los campos aplicados (que yo sepa).yixi

Aquí está la lista de algunas de las propiedades deseables de las estimaciones estadísticas:

  1. La estimación existe.
  2. Imparcialidad: .Eβ^=β
  3. Consistencia: como ( aquí es el tamaño de una muestra de datos).β^βnn
  4. Eficiencia: es menor que para estimaciones alternativas of .Var(β^)Var(β~)β~β
  5. La capacidad de aproximar o calcular la función de distribución de .β^

Existencia

La propiedad de existencia puede parecer extraña, pero es muy importante. En la definición de , invertimos la matriz β^xixi.

No se garantiza que exista el inverso de esta matriz para todas las variantes posibles de . Entonces inmediatamente obtenemos nuestra primera suposición:xi

Matrix debe ser de rango completo, es decir, invertible.xixi

Imparcialidad

Tenemos if

Eβ^=(xixi)1(xiEyi)=β,
Eyi=xiβ.

Podemos numerarlo como el segundo supuesto, pero podemos haberlo declarado directamente, ya que esta es una de las formas naturales de definir una relación lineal.

Tenga en cuenta que para obtener imparcialidad solo necesitamos que por todo , y son constantes. No se requiere propiedad de independencia.Eyi=xiβixi

Consistencia

Para obtener los supuestos de consistencia, necesitamos establecer más claramente a qué nos referimos con . Para las secuencias de variables aleatorias tenemos diferentes modos de convergencia: en probabilidad, casi seguramente, en distribución y sentido del momento . Supongamos que queremos obtener la convergencia en la probabilidad. Podemos usar cualquiera de las leyes de números grandes, o directamente usar la desigualdad multivariada de Chebyshev (empleando el hecho de que ):pEβ^=β

Pr(β^β>ε)Tr(Var(β^))ε2.

(Esta variante de la desigualdad proviene directamente de la aplicación de la desigualdad de Markov a , señalando que .)β^β2Eβ^β2=TrVar(β^)

Dado que la convergencia en la probabilidad significa que el término de la izquierda debe desaparecer para cualquier como , necesitamos que como . Esto es perfectamente razonable ya que con más datos la precisión con la que estimamos debería aumentar.ε>0nVar(β^)0nβ

Tenemos que

Var(β^)=(xixi)1(ijxixjCov(yi,yj))(xixi)1.

La independencia asegura que , por lo tanto, la expresión se simplifica a Cov(yi,yj)=0

Var(β^)=(xixi)1(ixixiVar(yi))(xixi)1.

Ahora suponga , luego Var(yi)=const

Var(β^)=(xixi)1Var(yi).

Ahora, si además requerimos que esté acotado para cada , inmediatamente obtenemos 1nxixin

Var(β)0 as n.

Entonces, para obtener la consistencia, asumimos que no hay autocorrelación ( ), la varianza es constante y la no crece demasiado. El primer supuesto se cumple si proviene de muestras independientes.Cov(yi,yj)=0Var(yi)xiyi

Eficiencia

El resultado clásico es el teorema de Gauss-Markov . Las condiciones para ello son exactamente las dos primeras condiciones para la consistencia y la condición para la imparcialidad.

Propiedades de distribución

Si es normal, obtenemos inmediatamente que es normal, ya que es una combinación lineal de variables aleatorias normales. Si asumimos supuestos anteriores de independencia, falta de correlación y varianza constante, obtenemos que donde .yiβ^

β^N(β,σ2(xixi)1)
Var(yi)=σ2

Si no es normal, sino independiente, podemos obtener una distribución aproximada de gracias al teorema del límite central. Para ello tenemos que asumir que para alguna matriz . La varianza constante para la normalidad asintótica no es necesaria si suponemos que yiβ^

limn1nxixiA
A
limn1nxixiVar(yi)B.

Tenga en cuenta que con la constante variación de , se tiene que . El teorema del límite central nos da el siguiente resultado:yB=σ2A

n(β^β)N(0,A1BA1).

Entonces, a partir de esto, vemos que la independencia y la varianza constante para y ciertos supuestos para nos dan muchas propiedades útiles para la estimación de LS .yixiβ^

La cuestión es que estos supuestos pueden ser relajados. Por ejemplo, requerimos que no sean variables aleatorias. Este supuesto no es factible en aplicaciones econométricas. Si dejamos que sea ​​aleatorio, podemos obtener resultados similares si utilizamos expectativas condicionales y tenemos en cuenta la aleatoriedad de . El supuesto de independencia también puede ser relajado. Ya demostramos que a veces solo se necesita una falta de correlación. Incluso esto se puede relajar aún más y aún es posible demostrar que la estimación de LS será consistente y asintóticamente normal. Ver, por ejemplo, el libro de White para más detalles.xixixi

mpiktas
fuente
Un comentario sobre el teorema de Gauss-Markov. Solo establece que OLS es mejor que otros estimadores que son funciones lineales de los datos. Sin embargo, muchos estimadores de uso común, la máxima verosimilitud (ML) en particular, no son funciones lineales de los datos y pueden ser mucho más eficientes que los MCO bajo las condiciones del teorema de Gauss-Markov.
Peter Westfall
@PeterWestfall Para errores normales gaussianos, MLE es el OLS :) Y no puede ser más eficiente que MLE. Traté de ser ligero con detalles matemáticos en esta publicación.
mpiktas
1
Mi punto fue que hay muchos estimadores más eficientes que los OLS en distribuciones no normales cuando se mantienen las condiciones de GM. GM es esencialmente inútil como una afirmación de que OLS es "bueno" en condiciones de no normalidad, porque los mejores estimadores en casos no normales son funciones no lineales de los datos.
Peter Westfall
@mpiktas Entonces, ¿tomamos como no aleatorio y usamos estimator o tomamos como aleatorio y usamos estimator ? xY^xY|x^
Parthiban Rajendran
16

Hay una serie de buenas respuestas aquí. Se me ocurre que hay una suposición que no se ha establecido sin embargo (al menos no explícitamente). Específicamente, un modelo de regresión supone que (los valores de sus variables explicativas / predictoras) es fijo y conocido , y que toda la incertidumbre en la situación existe dentro de la variableAdemás, se supone que esta incertidumbre es solo un error de muestreo . XY

Aquí hay dos maneras de pensar acerca de esto: Si usted está construyendo un modelo explicativo (modelado de los resultados experimentales), usted sabe exactamente lo que los niveles de las variables independientes son, debido a que manipulado / ellas administrada. Además, decidió cuáles serían esos niveles antes de comenzar a recopilar datos. Entonces, está conceptualizando toda la incertidumbre en la relación como existente dentro de la respuesta. Por otro lado, si está construyendo un modelo predictivo, es cierto que la situación difiere, pero aún trata a los predictores como si fueran fijos y conocidos, porque, en el futuro, cuando use el modelo para hacer una predicción sobre el valor probable de , tendrá un vector,yx, y el modelo está diseñado para tratar esos valores como si fueran correctos. Es decir, concebirá la incertidumbre como el valor desconocido de . y

Estos supuestos se pueden ver en la ecuación para un modelo de regresión prototípico: Un modelo con incertidumbre (quizás debido a un error de medición) en también podría tener el mismo proceso de generación de datos, pero el modelo se estima que se vería así: donde representa un error de medición aleatorio. (Situaciones como esta última han llevado a trabajar en errores en modelos de variables ; un resultado básico es que si hay un error de medición en , el ingenuo

yi=β0+β1xi+εi
x
yi=β^0+β^1(xi+ηi)+ε^i,
ηxβ^1se atenuaría, más cerca de 0 que su valor real, y que si hay un error de medición en , las pruebas estadísticas de los 's serían de baja potencia, pero por lo demás no sesgadas.) yβ^

Una consecuencia práctica de la asimetría intrínseca en el supuesto típico es que la regresión de en es diferente de la regresión de en . (Vea mi respuesta aquí: ¿Cuál es la diferencia entre hacer una regresión lineal en y con x versus x con y? Para una discusión más detallada de este hecho).yxxy

gung - Restablece a Monica
fuente
¿Qué significa "fijo" | "al azar" en lenguaje sencillo? ¿Y cómo distinguir entre efectos fijos y aleatorios (= factores)? Creo que en mi diseño hay 1 factor conocido fijo con 5 niveles. ¿Derecho?
Stan
1
@stan, reconozco tu confusión. La terminología en las estadísticas a menudo es confusa e inútil. En este caso, "fijo" no es lo mismo que el fijo en "efectos fijos y efectos aleatorios" (aunque están relacionados). Aquí, no estamos hablando de efectos, estamos hablando de los datos , es decir, sus predictores / variables explicativas. La forma más fácil de comprender la idea de que se corrijan sus datos es pensar en un experimento planificado. Antes de hacer nada, cuando diseñas el experimento, decides cuáles serán los niveles de tu explicación, no los descubres en el camino. XX
gung - Restablece a Monica
Con modelado predictivo, eso no es del todo cierto, pero trataremos nuestros datos de esa manera en el futuro, cuando usemos el modelo para hacer predicciones. X
gung - Restablece a Monica
¿Por qué las βs y las ε tienen un sombrero en la ecuación inferior, pero no en la superior?
user1205901
2
@ user1205901, el modelo superior es del proceso de generación de datos, el inferior es su estimación.
gung - Restablece a Monica
8

Los supuestos del modelo de regresión lineal clásico incluyen:

  1. Parámetro lineal y especificación correcta del modelo
  2. Rango completo de la matriz X
  3. Las variables explicativas deben ser exógenas
  4. Términos de error independientes e idénticamente distribuidos
  5. Términos normales de error distribuido en la población

Aunque las respuestas aquí proporcionan una buena visión general del supuesto OLS clásico, puede encontrar una descripción más completa del supuesto del modelo de regresión lineal clásico aquí:

https://economictheoryblog.com/2015/04/01/ols_assumptions/

Además, el artículo describe las consecuencias en caso de que uno viole ciertas suposiciones.

Tristian Onari
fuente
6

Se pueden usar diferentes supuestos para justificar OLS

  • En algunas situaciones, un autor prueba la normalidad de los residuos.
    • ¡Pero en otras situaciones, los residuos no son normales y el autor usa OLS de todos modos!
  • Verá textos que dicen que la homocedasticidad es una suposición.
    • Pero ves investigadores que usan OLS cuando se viola la homocedasticidad.

¡¿Lo que da?!

Una respuesta es que se pueden usar conjuntos de supuestos algo diferentes para justificar el uso de la estimación de mínimos cuadrados ordinarios (MCO). OLS es una herramienta como un martillo: puede usar un martillo en las uñas, pero también puede usarlo en clavijas, para romper el hielo, etc.

Dos categorías amplias de supuestos son las que se aplican a muestras pequeñas y las que se basan en muestras grandes para que se pueda aplicar el teorema del límite central .

1. Pequeños supuestos de muestra

Pequeños supuestos de muestra como se discute en Hayashi (2000) son:

  1. Linealidad
  2. Estricta exogeneidad
  3. Sin multicolinealidad
  4. Errores esféricos (homocedasticidad)

Bajo (1) - (4), se aplica el teorema de Gauss-Markov , y el estimador de mínimos cuadrados ordinario es el mejor estimador lineal imparcial.

  1. Normalidad de los términos de error

Asumir más términos de error normales permite la prueba de hipótesis . Si los términos de error son condicionalmente normales, la distribución del estimador MCO también es condicionalmente normal.

Otro punto notable es que, con normalidad, el estimador OLS es también el estimador de máxima verosimilitud .

2. Grandes supuestos de muestra

Estos supuestos se pueden modificar / relajar si tenemos una muestra lo suficientemente grande como para que podamos apoyarnos en la ley de los grandes números (para la consistencia del estimador MCO) y el teorema del límite central (de modo que la distribución muestral del estimador MCO converja a la distribución normal y podemos hacer pruebas de hipótesis, hablar de valores p, etc.).

Hayashi es un experto en macroeconomía y sus grandes suposiciones de muestra se formulan teniendo en cuenta el contexto de la serie temporal:

  1. linealidad
  2. estacionariedad ergódica
  3. regresores predeterminados: los términos de error son ortogonales a sus términos de error contemporáneos.
  4. E[xx] es rango completo
  5. xiϵi es una secuencia de diferencia martingala con segundos momentos finitos.
  6. 4tos momentos finitos de regresores

Puede encontrar versiones más fuertes de estos supuestos, por ejemplo, que los términos de error son independientes.

Las suposiciones de muestra grandes adecuadas lo llevan a una distribución de muestreo del estimador OLS que es asintóticamente normal.

Referencias

Hayashi, Fumio, 2000, Econometría

Matthew Gunn
fuente
5

Se trata de lo que quieres hacer con tu modelo. Imagínese si sus errores fueran sesgados positivamente / no normales. Si quisieras hacer un intervalo de predicción, podrías hacerlo mejor que usar la distribución t. Si su varianza es menor a valores pronosticados más pequeños, nuevamente, estaría haciendo un intervalo de predicción que es demasiado grande.

Es mejor entender por qué las suposiciones están ahí.

Adán
fuente
4

Los siguientes diagramas muestran qué supuestos son necesarios para obtener qué implicaciones en los escenarios finitos y asintóticos.

Supuestos finitos de OLS

supuestos asintóticos de MCO

Creo que es importante pensar no solo cuáles son los supuestos, sino cuáles son las implicaciones de esos supuestos. Por ejemplo, si solo le importa tener coeficientes insesgados, entonces no necesita homoscedasticidad.

DVL
fuente
2

Los siguientes son los supuestos del análisis de regresión lineal.

Especificación correcta . La forma funcional lineal está correctamente especificada.

Estricta exogeneidad . Los errores en la regresión deben tener media condicional cero.

Sin multicolinealidad . Los regresores en X deben ser linealmente independientes.

Homocedasticidad, lo que significa que el término de error tiene la misma varianza en cada observación.

Sin autocorrelación : los errores no están correlacionados entre las observaciones.

Normalidad. A veces también se supone que los errores tienen una distribución normal condicional en los regresores.

Observaciones de Iid : es independiente de, y tiene la misma distribución que, para todo .(xi,yi)(xj,yj)ij

Para más información visite esta página .

estadísticas de amor
fuente
44
En lugar de "sin multicolinealidad", diría "sin dependencia lineal". La colinealidad a menudo se usa como una medida continua en lugar de categórica. Solo se prohíbe la colinealidad estricta o exacta.
Peter Flom - Restablece a Monica
2
¿Qué pasa con la regresión de series de tiempo? ¿Qué pasa con los mínimos cuadrados generalizados? Su lista se lee un poco como una lista de mandamientos cuando, de hecho, los últimos 4 supuestos pueden ser demasiado restrictivos si solo nos preocupamos por la consistencia y la normalidad asintótica de la estimación de mínimos cuadrados.
mpiktas
1
La multicolinealidad plantea problemas de interpretación (relacionados con la identificabilidad de algunos parámetros), pero definitivamente no es una suposición estándar de los modelos de regresión lineal. La multicolinealidad cercana es principalmente un problema computacional , pero también plantea problemas similares de interpretación.
whuber
@whuber y Peter Flom: Como leí en el libro de Gujarati en la página no. 65-75. tiny.cc/cwb2g Cuenta la "no multicolinealidad" como un supuesto de análisis de regresión.
love-stats
@mpiktas: si visita la URL dada en la respuesta, encontrará suposiciones sobre la regresión de series temporales.
love-stats
2

No existe una lista única de supuestos, habrá al menos 2: uno para matriz de diseño fijo y otro para matriz aleatoria. Además, es posible que desee ver los supuestos para las regresiones de series temporales (consulte la p.13)

El caso en que la matriz de diseño es fija podría ser la más común, y sus suposiciones a menudo se expresan como un teorema de Gauss-Markov . El diseño fijo significa que realmente controlas los regresores. Por ejemplo, realiza un experimento y puede establecer parámetros como temperatura, presión, etc. Consulte también la p.13 aquí .X

Desafortunadamente, en ciencias sociales como la economía, rara vez se pueden controlar los parámetros del experimento. Por lo general, observa lo que sucede en la economía, registra las métricas del entorno y luego retrocede en ellas. Resulta que es una situación muy diferente y más difícil, llamada diseño aleatorio . En este caso, el teorema de Gauss-Markov se modifica también ver p.12 aquí . Puede ver cómo las condiciones se expresan ahora en términos de probabilidades condicionales , que no es un cambio inocuo.

En econometría los supuestos tienen nombres:

  • linealidad
  • estricta exogeneidad
  • sin multicolinealidad
  • varianza de error esférico (incluye homocedasticidad y sin correlación)

Tenga en cuenta que nunca mencioné la normalidad. No es una suposición estándar. A menudo se usa en cursos de regresión de introducción porque facilita algunas derivaciones, pero no es necesario para que la regresión funcione y tenga buenas propiedades.

Aksakal
fuente
1

La suposición de linealidad es que el modelo es lineal en los parámetros. Está bien tener un modelo de regresión con efectos de orden cuadrático o superior siempre que la función de potencia de la variable independiente sea parte de un modelo aditivo lineal. Si el modelo no contiene términos de orden superior cuando debería, entonces la falta de ajuste será evidente en la gráfica de los residuos. Sin embargo, los modelos de regresión estándar no incorporan modelos en los que la variable independiente se eleva a la potencia de un parámetro (aunque existen otros enfoques que se pueden utilizar para evaluar dichos modelos). Dichos modelos contienen parámetros no lineales.

StatisticsDoc Consulting
fuente
1

El coeficiente de regresión de mínimos cuadrados proporciona una forma de resumir la tendencia de primer orden en cualquier tipo de datos. La respuesta de @mpiktas es un tratamiento exhaustivo de las condiciones bajo las cuales los mínimos cuadrados son cada vez más óptimos. Me gustaría ir a otro lado y mostrar el caso más general cuando funcionan los mínimos cuadrados. Veamos la formulación más general de la ecuación de mínimos cuadrados:

E[Y|X]=α+βX

Es solo un modelo lineal para la media condicional de la respuesta.

Tenga en cuenta que he rechazado el término de error. Si desea resumir la incertidumbre de , debe apelar al teorema del límite central. La clase más general de estimadores de mínimos cuadrados converge a normal cuando se cumple la condición de Lindeberg : resumida, la condición de Lindeberg para mínimos cuadrados requiere que la fracción del mayor residuo cuadrado a la suma de la suma de los residuos cuadrados debe ir a 0 como . Si su diseño seguirá muestreando residuos cada vez más grandes, entonces el experimento está "muerto en el agua".βn

Cuando se cumple la condición de Lindeberg, el parámetro de regresión está bien definido, y el estimador es un estimador imparcial que tiene una distribución aproximada conocida. Pueden existir estimadores más eficientes. En otros casos de heteroscedasticidad, o datos correlacionados, generalmente un estimador ponderado es más eficiente . Es por eso que nunca recomendaría usar los métodos ingenuos cuando hay mejores disponibles. ¡Pero a menudo no lo son!ββ^

AdamO
fuente
1
Para los economometristas: Vale la pena señalar que esta condición implica una exogeneidad estricta, por lo que la exogeneidad estricta no necesita establecerse como una suposición en el modelo de media condicional. Es automáticamente cierto, matemáticamente. (Teoría de la conversación aquí, no estimaciones.)
Peter Westfall