¿Cuál es la necesidad de supuestos en la regresión lineal?

15

En regresión lineal, hacemos los siguientes supuestos

  • La media de la respuesta, E(Yi) , en cada conjunto de valores de los predictores, (x1i,x2i,) , es una función lineal de los predictores.
  • Los errores, , son independientes.εi
  • Los errores, εi , en cada conjunto de valores de los predictores, (x1i,x2i,) , se distribuyen normalmente.
  • Los errores, εi , en cada conjunto de valores de los predictores, (x1i,x2i,) , tienen variaciones iguales (denotado σ2 ).
  • Una de las formas en que podemos resolver la regresión lineal es a través de ecuaciones normales, que podemos escribir como

    θ=(XTX)1XTY

    Desde un punto de vista matemático, la ecuación anterior solo necesita que XTX sea ​​invertible. Entonces, ¿por qué necesitamos estos supuestos? Pregunté a algunos colegas y mencionaron que es para obtener buenos resultados y las ecuaciones normales son un algoritmo para lograrlo. Pero en ese caso, ¿cómo ayudan estos supuestos? ¿Cómo ayuda su defensa para obtener un mejor modelo?

    Reloj esclavo
    fuente
    2
    Se necesita una distribución normal para calcular los intervalos de confianza del coeficiente utilizando fórmulas habituales. Otras fórmulas de cálculo de CI (creo que era blanco) permiten una distribución no normal.
    keiv.fly
    No siempre necesita esas suposiciones para que el modelo funcione. En las redes neuronales, tiene regresiones lineales en el interior y minimizan el rmse al igual que la fórmula que proporcionó, pero lo más probable es que ninguno de los supuestos se cumpla. Sin distribución normal, sin varianza igual, sin función lineal, incluso los errores pueden ser dependientes.
    keiv.fly
    1
    @Alexis Las variables independientes que son iid definitivamente no son una suposición (y la variable dependiente que es iid tampoco es una suposición; imagínense que si asumiéramos que la respuesta era iid, no tendría sentido hacer nada más que estimar la media). Y la "no omitir variables" no es realmente una suposición adicional, aunque es bueno evitar omitir variables: la primera suposición enumerada es realmente lo que se ocupa de eso.
    Dason
    1
    @Dason Creo que mi enlace proporciona un ejemplo bastante sólido de que "no se omiten variables" son requisitos para una interpretación válida. También creo que iid (condicional en los predictores, sí) es necesario, con caminatas aleatorias que proporcionan un excelente ejemplo de dónde puede fallar la estimación no iid (siempre recurriendo a estimar solo la media).
    Alexis

    Respuestas:

    19

    Tienes razón: no es necesario que cumplas estos supuestos para ajustar una línea de mínimos cuadrados a los puntos. Necesita estos supuestos para interpretar los resultados. Por ejemplo, suponiendo que no haya una relación entre una entrada e , ¿cuál es la probabilidad de obtener un coeficiente al menos tan grande como lo que vimos en la regresión?X1Yβ1

    rinspy
    fuente
    17

    Pruebe la imagen del cuarteto de Anscombe de Wikipedia para tener una idea de algunos de los posibles problemas con la interpretación de la regresión lineal cuando algunos de esos supuestos son claramente falsos: la mayoría de las estadísticas descriptivas básicas son las mismas en los cuatro (y los valores individuales son idénticos en todos, pero en la parte inferior derecha) xi

    https://upload.wikimedia.org/wikipedia/commons/thumb/e/ec/Anscombe%27s_quartet_3.svg/1280px-Anscombe%27s_quartet_3.svg.png

    Enrique
    fuente
    Hice una ilustración después de Anscombe que muestra cómo puede verse la violación del supuesto de no omitir variables . Todavía estoy trabajando en una ilustración similar a Anscombe de una violación de la suposición de iid .
    Alexis
    3

    No necesita esos supuestos para adaptarse a un modelo lineal. Sin embargo, sus estimaciones de parámetros podrían estar sesgadas o no tener la varianza mínima. Violar los supuestos te hará más difícil interpretar los resultados de la regresión, por ejemplo, construir un intervalo de confianza.

    Hola Mundo
    fuente
    1

    Ok, las respuestas hasta ahora son así: si violamos los supuestos, entonces pueden suceder cosas malas. Creo que la dirección interesante es: cuando se cumplen todos los supuestos que necesitamos (en realidad un poco diferentes de los anteriores), ¿por qué y cómo podemos estar seguros de que la regresión lineal es el mejor modelo?

    p(yi|xi)E[Yi|Xi=xi]xi

    Fabian Werner
    fuente
    0

    Los dos supuestos clave son

    1. Independencia de observaciones
    2. La media no está relacionada con la varianza

    Ver La discusión en el libro de Julian Faraway .

    Si esto es cierto, OLS es sorprendentemente resistente a las infracciones en los otros supuestos que ha enumerado.

    astaines
    fuente