¿Es el supuesto de linealidad en la regresión lineal simplemente una definición de

10

Estoy revisando la regresión lineal.

El libro de texto de Greene dice:

ingrese la descripción de la imagen aquí ingrese la descripción de la imagen aquí

Ahora, por supuesto, habrá otros supuestos sobre el modelo de regresión lineal, como E(ϵ|X)=0 . Esta suposición combinada con la suposición de linealidad (que en efecto define ϵ ), le da estructura al modelo.

Sin embargo, el supuesto de linealidad en sí mismo no pone ninguna estructura en nuestro modelo, ya que ϵ puede ser completamente arbitrario. Para las variables X,y que sea, no importa lo que la relación entre los dos podríamos definir un ϵ tal que la suposición de linealidad se mantiene. Por lo tanto, la "suposición" de linealidad debería llamarse realmente una definición de ϵ , en lugar de una suposición.

Por eso me pregunto :

  1. ¿Está Greene siendo descuidado? ¿Debería haber escrito realmente: ? Esta es una "suposición de linealidad" que realmente pone estructura en el modelo.E(y|X)=Xβ

  2. ¿O tengo que aceptar que el supuesto de linealidad no pone estructura en el modelo sino que solo define un , donde los otros supuestos usarán esa definición de ϵ para poner estructura en el modelo?ϵϵ


Editar : dado que parece haber cierta confusión en torno a los otros supuestos, permítanme agregar el conjunto completo de supuestos aquí:

ingrese la descripción de la imagen aquí

Esto es de Greene, Econometric Analysis, 7th ed. pag. dieciséis.

usuario56834
fuente
44
Estas son observaciones perceptivas (+1). Sin embargo, para ser justos, creo que la mayoría de los autores (si no todos) están trabajando dentro de un marco en el que el significado mismo de un error aditivo como incluye el supuesto de que su distribución se centra en 0 . ϵ0
whuber
2
@whuber, he agregado todo el conjunto de supuestos. mira A3. A3 hace explícito que está centrado en 0, lo que implicaría que Greene no asume esto en A1, lo que me hace cuestionar si A1 tiene algún contenido lógico, aparte de definir . ϵ
user56834
2
El significado previsto de una lista de supuestos es que se mantienen colectivamente, no por separado. Esto no exhibe ningún "descuido".
whuber
2
@AdamO, la palabra "correcto" parece no tener un significado preciso para mí. Estoy tratando de entender más exactamente esto. Me parece que la formulación más precisa de todo esto es decir que el supuesto 1 debería llamarse "definición de ", y entonces todo tiene sentido. O en realidad me falta algo, por eso hice esta pregunta. Desafortunadamente, hasta ahora no he visto una respuesta directa a esa preguntaϵ
usuario56834
2
@ Programmer2134 está obteniendo respuestas imprecisas porque está haciendo una pregunta imprecisa. Uno no "pone estructura en un modelo" como usted dice. Si se usa el modelo medio incorrecto ( ), la respuesta se caracteriza como Y = f ( x ) + sesgo + error . y los residuos se toman como la suma del sesgo y el error. F(X)Y=f(x)+bias+error
AdamO

Respuestas:

8
  1. ¿Está Greene siendo descuidado? ¿Debería haber escrito realmente: ? Esta es una "suposición de linealidad" que realmente pone estructura en el modelo.mi(yEl |X)=Xβ

En cierto sentido, sí y no. Por un lado, sí, dada la investigación de causalidad moderna actual , es descuidado, pero al igual que la mayoría de los libros de texto de econometría, en el sentido de que no hacen una distinción clara de cantidades causales y de observación, lo que lleva a confusiones comunes como esta misma pregunta. Pero, por otro lado, no, esta suposición no es descuidada en el sentido de que es realmente diferente de simplemente suponer .mi(yEl |X)=Xβ

El quid de la cuestión aquí es la diferencia entre la expectativa condicional, , y la ecuación estructural (causal) de y , así como su expectativa estructural (causal) E [ Y | d o ( X ) ]mi(yEl |X)ymi[YEl |reo(X)] . El supuesto de linealidad en Greene es un supuesto estructural . Veamos un ejemplo simple. Imagine que la ecuación estructural es:

y=βX+γX2+ϵ

Ahora deje . Entonces tendríamos:mi[ϵEl |X]=δX-γX2

mi[yEl |X]=βX

donde . Además, podemos escribir y = β x + ϵ y tendríamos E [ ϵ | x ] = 0 . Esto muestra que podemos tener una expectativa condicional lineal correctamente especificada E [ y | x ] que, por definición, tendrá una perturbación ortogonal, pero la ecuación estructural sería no lineal.β=β+δy=βX+ϵmi[ϵEl |X]=0 0mi[yEl |X]

  1. ¿O tengo que aceptar que el supuesto de linealidad no pone estructura en el modelo sino que solo define un , donde los otros supuestos usarán esa definición de ϵ para poner estructura en el modelo?ϵϵ

El supuesto de linealidad define un , es decir, ϵ : = y - X β = y -ϵ por definición, donde ϵ representa las desviaciones de y de sus expectativas cuandoestablecemosexperimentalmente X (ver la sección 5.4 de Pearl). Los otros supuestos se usan paraidentificarlos parámetros estructurales (por ejemplo, el supuesto de exogeneidad de ϵϵ: =y-Xβ=y-mi[YEl |reo(X)]ϵy Xϵle permite identificar la expectativa estructural con la expectativa condicional E [ Y | X ] ) o para la derivación de propiedades estadísticas de los estimadores (por ejemplo, el supuesto de la homocedasticidad garantiza que OLS es AZUL, el supuesto de normalidad facilita la obtención de resultados de "muestras finitas" para inferencia, etc.).mi[YEl |reo(X)]mi[YEl |X]

Sin embargo, el supuesto de linealidad en sí mismo no pone ninguna estructura en nuestro modelo, ya que puede ser completamente arbitrario. Para las variables X , Y que sea, no importa lo que la relación entre los dos podríamos definir un ε tal que la suposición de linealidad se mantiene.ϵX,yϵ

¡Su afirmación aquí entra en el problema principal de la inferencia causal en general! Como se muestra en el ejemplo simple anterior, podemos cocinar perturbaciones estructurales que podrían hacer que la expectativa condicional de dada x sea lineal. En general, varios modelos estructurales (causales) diferentes pueden tener la misma distribución observacional, incluso puede tener causalidad sin asociación observada. Por lo tanto, en este sentido, tiene razón: necesitamos más suposiciones sobre ϵ para poner "más estructura" en el problema e identificar los parámetros estructurales β con datos de observación.yXϵβ

Nota al margen

Vale la pena mencionar que la mayoría de los libros de texto de econometría son confusos cuando se trata de la distinción entre regresión y ecuaciones estructurales y su significado. Esto ha sido documentado últimamente. Puede consultar un documento de Chen y Pearl aquí , así como una encuesta extendida de Chris Auld . Greene es uno de los libros examinados.

Carlos Cinelli
fuente
Gracias, esta es la respuesta que estaba buscando. Entonces, cuando dice que el supuesto de linealidad es un supuesto estructural, ¿qué implica eso exactamente sobre la relación causal entre y x ? Todavía puede haber una relación causal correcta? Es sólo que la directa relación causal de X a Y es lineal, ¿es eso? Todavía puede haber un efecto causal altamente no lineal de x en y a través de ϵ ? ϵxxyxy ϵ
user56834
1
@ Programmer2134 esa es otra área donde los libros de texto de econometría son descuidados, encontrará poca referencia a efectos directos / indirectos, mediación, etc. Si la ecuación es estructural, entonces podemos tener una definición operativa de la perturbación estructural como la diferencia de con la expectativa efecto causal dey , es decir ϵ : = y - E [ Y | d o ( X )X . Por lo tanto, en este sentido, la estructural ε no es "causada" por X . Sin embargo, esto no nos dice nada sobre elϵ: =y-mi[YEl |reo(X)]=y-XβϵXasociación de y X , ya que podrían tener causas comunes. ϵX
Carlos Cinelli
@ Programmer2134, por cierto, sus preocupaciones están en el camino correcto, ¡creo que el Manual de Pearl sobre inferencia causal podría ser un compañero interesante para Greene's!
Carlos Cinelli
Por cierto, hace un tiempo comencé a leer "Causalidad: modelos, razonamiento e inferencia" de Pearl. Pensé que era muy interesante, pero fue algo abstracto para mí. No fui más allá del capítulo 2. ¿Crees que la "introducción a la inferencia causal" será más adecuada? (es decir, introducir conceptos más intuitivamente).
user56834
1
@ColorStatistics puede usar la regresión para pronosticar, claro, pero entonces el supuesto de exogeneidad no juega ningún papel en absoluto. Eso es lo que el OP comenzó a sospechar por sí mismo, al preguntarse por qué Greene no escribió simplemente la suposición de que es lineal.mi(YEl |X)
Carlos Cinelli
0

editado después de los comentarios de OP y Matthew Drury

Para responder a esta pregunta, supongo que Greene y OP tienen en mente la siguiente definición de linealidad: linealidad significa que por cada unidad de aumento en este predictor, el resultado se incrementa en beta ( ), en cualquier lugar en el rango de posibles valores de predictores. se produce este aumento de una unidad. Es decir, la función y = f ( x ) es y = a + b xβy=f(x)y=a+bx y no, por ejemplo, o y = a + s i n ( x )y=a+bx2y=a+sin(x). Además, esta suposición se centra en las versiones beta y, por lo tanto, se aplica a los predictores (también conocidos como variables independientes).

La expectativa de residuales condicionales en el modelo es otra cosa. Sí, es cierto que la matemática detrás de una regresión lineal define / intenta definir E ( ϵ | X ) = 0 . Sin embargo, esto generalmente se establece en todo el rango de valores ajustados / predichos para y . Si observa partes específicas del predictor lineal y el valor pronosticado de y , puede notar heteroscedasticidad (áreas donde la variación de ϵ es mayor que en cualquier otro lugar), o áreas donde E ( ϵ | X )E(ϵ|X)E(ϵ|X)=0yyϵ . Una asociación no lineal entre la x 's y y | X ) 0E(ϵ|X)0xypodría ser la causa de esto, pero no es la única razón por la heteroscedasticidad o E(ϵ|X)0 pudiera ocurrir (véase, por ejemplo, falta sesgo predictor).

A partir de los comentarios: OP afirma que "el supuesto de linealidad no restringe el modelo de ninguna manera, dado que épsilon es arbitrario y puede ser cualquier función de XX", con lo cual estaría de acuerdo. Creo que esto queda claro por las regresiones lineales que pueden ajustarse a cualquier dato, independientemente de si se viola o no el supuesto de linealidad. Estoy especulando aquí, pero esa podría ser la razón por la cual Greene decidió mantener el error en la fórmula, guardando la E (ϵ para más adelante, para denotar eso al suponer linealidad, y (y no el esperado yE(ϵ|X)=0yy ) se puede definir en base a pero mantiene algún error ϵXϵ, independientemente de los valores que tome . Solo puedo esperar que luego declare la relevancia de E ( ϵ | X ) = 0ϵE(ϵ|X)=0 .

En resumen (es cierto, sin leer completamente el libro de Greene y comprobar su argumentación):

  1. Greene probablemente se refiere a que las betas son constantes para todo el rango del predictor (se debe poner énfasis en la beta en o E ( ϵ | X ) = X βy=Xβ+ϵE(ϵ|X)=Xβ ecuaciones ;
  2. El supuesto de linealidad pone cierta estructura en el modelo. Sin embargo, debe tener en cuenta que las transformaciones o adiciones, como las splines antes del modelado, pueden hacer que las asociaciones no lineales se ajusten al marco de regresión lineal.
IWS
fuente
3
Esto es útil, pero la apelación a la continuidad no es necesaria en ningún sentido. La maquinaria funciona de la misma manera si solo se basa en ( 0 , 1Xpredictores ) . (0,1)
Nick Cox
1
Usted escribió pero creo que quería decir f ( x ) ,.f(y)f(x)
Nick Cox
@ NickCox He editado estos puntos.
IWS
1
¿A qué te refieres con normalidad? Si quiere decir normalidad, entonces es incorrecto porque epsilon no tiene que ser normal para que tenga una expectativa condicional de cero. ¿Pero quieres decir algo más? Además, sí se supone que beta es constante para todas las observaciones. ¿Y qué crees que está mal con mi argumento de que el supuesto de linealidad no restringe el modelo de ninguna manera, dado que épsilon es arbitrario y puede ser cualquier función de ? Tenga en cuenta que sé qué es la heterocedasticidad y que linealidad significa lineal en parámetros, no en variables. X
user56834
3
No estoy de acuerdo con esto. El supuesto de expectativa no está relacionado con la normalidad, pero es absolutamente necesario para dar sentido al supuesto de linealidad estructural. De lo contrario, como lo señala el op, el supuesto de linealidad no tiene sentido. Una suposición de normalidad es una bestia bastante diferente, y a menudo es innecesaria.
Matthew Drury el
-1

Estaba un poco confundido por la respuesta anterior, por lo tanto, le daré otra oportunidad. Creo que la pregunta no es en realidad sobre la regresión lineal 'clásica' sino sobre el estilo de esa fuente en particular. En la parte de regresión clásica:

Sin embargo, el supuesto de linealidad por sí solo no pone ninguna estructura en nuestro modelo

Eso es absolutamente correcto. Como ha dicho, podría eliminar la relación lineal y sumar algo completamente independiente de X para que no podamos calcular ningún modelo en absoluto.ϵX

¿Está Greene siendo descuidado? ¿Debería haber escrito realmente: E(y|X)=Xβ

No quiero responder a la primera pregunta, pero permítanme resumir los supuestos que necesita para la regresión lineal habitual:

Supongamos que usted observa (se le da) puntos de datos e Y iR para i = 1 , . . . , N . Debe suponer que los datos ( x i , y i ) que ha observado provienen de variables aleatorias distribuidas de forma idéntica e independiente ( X i , Y i )xiRdyiRi=1,...,n(xi,yi)(Xi,Yi) manera que ...

  1. Existe un valor fijo (independiente de ) β R d tal que Y i = β X i + ϵ i para todo i y las variables aleatorias ϵ i son tales queiβRdYi=βXi+ϵiiϵi

  2. El son iid, así y ε i se distribuye como N ( 0 , σ ) ( σ debe ser independiente de i también)ϵiϵiN(0,σ)σi

  3. Para y Y = ( Y 1 , . . . , Y n ) las variables X , Y tienen una densidad común, es decir, la variable aleatoria única ( X , Y ) tiene una densidad f X , YX=(X1,...,Xn)Y=(Y1,...,Yn)X,Y(X,Y)fX,Y

Ahora puede correr por la ruta habitual y calcular

fY|X(y|x)=fY,X(y,x)/fX(x)=(12πd)nexp(i=1n(yiβxi)22σ)

de modo que mediante la "dualidad" habitual entre el aprendizaje automático (minimización de las funciones de error) y la teoría de la probabilidad (maximización de las probabilidades) se maximiza en β que, de hecho, te da las cosas habituales de "RMSE".logfY|X(y|x)β

Ahora, como se indicó: si el autor del libro que está citando quiere hacer este punto (lo que debe hacer si alguna vez quiere poder calcular la línea de regresión 'mejor posible' en la configuración básica) entonces sí, debe haga esta suposición sobre la normalidad de en alguna parte del libro.ϵ

Hay diferentes posibilidades ahora:

  • Él no escribe esta suposición en el libro. Entonces es un error en el libro.

  • Lo escribe en forma de una observación 'global' como 'cada vez que escribo entonces el ϵ se distribuye normalmente con media cero a menos que se indique lo contrario'. Entonces, en mi humilde opinión, es un mal estilo porque causa exactamente la confusión que sientes en este momento. Es por eso que tiendo a escribir los supuestos en alguna forma abreviada en cada Teorema. Solo entonces cada bloque de construcción se puede ver limpiamente por derecho propio.+ϵϵ

    • Él lo anota muy de cerca a la parte que está citando y usted / nosotros simplemente no lo notamos (también una posibilidad :-))

Sin embargo, también en un sentido matemático estricto, el error normal es algo canónico (la distribución con la entropía más alta [una vez que se corrige la varianza], por lo tanto, produce los modelos más fuertes) de modo que algunos autores tienden a saltear esta suposición pero la usan de todas maneras. . Formalmente, tiene toda la razón: están usando las matemáticas de la "manera incorrecta". Siempre que quieran encontrar la ecuación para la densidad como se indicó anteriormente, entonces necesitan saber ϵ bastante bien, de lo contrario, solo tienes propiedades de eso volando en cada ecuación sensata que intentas escribir.fY|Xϵ

Fabian Werner
fuente
3
los errores no necesitan ser distribuidos normalmente para usar OLS.
user56834
(-1) Los errores no necesitan ser distribuidos normalmente. De hecho, ni siquiera necesitan ser independientes o estar distribuidos de manera idéntica para que la estimación del parámetro sea imparcial y para que las pruebas sean consistentes. Sus especificaciones mucho más estrictas son necesarias para que OLS sea una prueba exacta.
AdamO
@ Adam: ¿Ah? Entonces, ¿cómo se calcula la probabilidad entonces? O más bien ... si se le pide que implemente una regresión lineal: ¿qué línea de regresión selecciona si el error no se distribuye normalmente y el único no es independiente? ϵi
Fabian Werner
1
@FabianWerner mi elección de modelo depende de la pregunta que se haga. La regresión lineal estima una tendencia de primer orden en un conjunto de datos, una "regla general" que relaciona una diferencia en X con una diferencia en Y. Si los errores no se distribuyen normalmente, el CLT de Lindeberg Feller garantiza que los CI y PI son aproximadamente correctos incluso en muestras muy pequeñas Si los errores no son independientes (y se desconoce la estructura de dependencia), las estimaciones no están sesgadas, aunque los SE pueden ser incorrectos. La estimación del error de emparedado alivia este problema.
AdamO