¿Es más probable que X e Y distribuidos resulten en residuos distribuidos normalmente?

12

Aquí se discute la interpretación errónea del supuesto de normalidad en la regresión lineal (que la "normalidad" se refiere a X y / o Y en lugar de los residuos), y el póster pregunta si es posible tener X e Y no distribuidos normalmente y todavía tienen residuos distribuidos normalmente.

Mi pregunta es: ¿es más probable que X e Y distribuidos resulten en residuos distribuidos normalmente? Ha habido muchas publicaciones relacionadas, pero no creo que nadie haya hecho esta pregunta específicamente.

Me doy cuenta de que este es quizás un punto trivial si solo hay una regresión que hacer, pero menos si hay múltiples pruebas. Digamos que tengo 100 variables X que tienen el mismo sesgo y quiero probarlas todas. Si los transformara a todos a una distribución normal, ¿sería probable que tuviera menos variables X que necesitaran un nuevo examen (con diferente / sin transformación) debido a los residuos no distribuidos normalmente o una transformación previa a la regresión sería totalmente arbitraria?

regression normal-distribution data-transformation residuals assumptions Scott
fuente

1

Para responder "más probable" probablemente tendríamos que plantear algo sobre la distribución conjunta, no solo los márgenes.

Glen_b -Reinstate Monica

15

No. Los residuos son los valores de condicionales a (menos la media pronosticada de en cada punto de ). Puede cambiar modo alguno desea ( , , ) y los los valores que corresponden a la valores en un punto dado en no va a cambiar. Por lo tanto, la distribución condicional de (es decir, $Y$ $X$ $Y$ $X$ $X$ $X + 10$ $X^{-1/5}$ $X/\pi$ $Y$ $X$ $X$ $Y$ $Y | X$ ) será lo mismo. Es decir, será normal o no, como antes. (Para comprender este tema de manera más completa, puede serle útil leer mi respuesta aquí: ¿Qué sucede si los residuos se distribuyen normalmente, pero Y no? )

Lo que cambia puede hacer (dependiendo de la naturaleza de la transformación de datos que usa) es cambiar la relación funcional entre e . Con un cambio no lineal en (por ejemplo, para eliminar el sesgo), un modelo que se especificó correctamente antes se especificará incorrectamente. Las transformaciones no lineales de menudo se utilizan para linealizar la relación entre e , para hacer que la relación sea más interpretable o para abordar una cuestión teórica diferente. $X$ $X$ $Y$ $X$ $X$ $X$ $Y$

Para obtener más información sobre cómo las transformaciones no lineales pueden cambiar el modelo y las preguntas que el modelo responde (con énfasis en la transformación del registro), puede ayudarlo a leer estos excelentes hilos de CV:

$X$ $Y$ $\hat \beta_0$ $0$ $X$ $\hat \beta_{1{\rm\ (m)}} = 100 \times \hat \beta_{1{\rm\ (cm)}}$ $Y$ se elevará 100 veces más de 1 metro que más de 1 cm).

$Y$ $Y$ $Y$ $\lambda$ $Y$ $X$

$X$ $Y$

$Y$ $X$ R

set.seed(9959)              # this makes the example exactly reproducible
x = rnorm(100)              # x is drawn from a normal population
y = 7 + 0.6*x + runif(100)  # the residuals are drawn from a uniform population

mod = lm(y~x)
summary(mod)
# Call:
# lm(formula = y ~ x)
# 
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -0.4908 -0.2250 -0.0292  0.2539  0.5303 
# 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  7.48327    0.02980   251.1   <2e-16 ***
# x            0.62081    0.02971    20.9   <2e-16 ***
# ---
# Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 0.2974 on 98 degrees of freedom
# Multiple R-squared:  0.8167,  Adjusted R-squared:  0.8148 
# F-statistic: 436.7 on 1 and 98 DF,  p-value: < 2.2e-16

ingrese la descripción de la imagen aquí

En las gráficas, vemos que ambos marginales parecen razonablemente normales, y la distribución conjunta parece razonablemente bivariada normal. No obstante, la uniformidad de los residuos se muestra en su parcela qq; ambas colas caen demasiado rápido en relación con una distribución normal (como de hecho deben hacerlo).

gung - Restablece a Monica
fuente

0

La respuesta corta está en la teoría clásica de la regresión simple, X es fija y se supone conocida (ver, por ejemplo, http://www.theanalysisfactor.com/the-distribution-of-independent-variables-in-regression-models-2/ ), incluso sin ningún error de medición, su beta de mínimos cuadrados podría ser sesgada e incluso inconsistente (consulte https://www.google.com/url?sa=t&source=web&rct=j&ei=Bd3sU4_kHfPjsATAm4LADA&url=https://files.nyu .edu / mrg217 / public / measure_handouts.pdf & cd = 2 & ved = 0CCMQFjAB & usg = AFQjCNF_pZvocW1SzInQPYpQTifUsQ36kQ & sig2 = 4lAnOQO23FiZbZ7323jOzA ).

Con respecto a hacer X una variable, Wikipedia sobre el teorema de Gauss-Markov establece muy brevemente, para citar:

"En la mayoría de los tratamientos de OLS, se supone que los datos X son fijos. Este supuesto se considera inapropiado para una ciencia predominantemente no experimental como la econometría. [2] En cambio, los supuestos del teorema de Gauss-Markov se declaran condicionales a X ".

que leí como una gran transformación poco halagadora de la ciencia al arte, o el arte / ciencia.

AJKOER
fuente

¿Es más probable que X e Y distribuidos resulten en residuos distribuidos normalmente?

Respuestas: