Modelo lineal de heterocedasticidad

Tengo el siguiente modelo lineal:

Residuos del modelo lineal. Distribución de observaciones

Para abordar la heteroscedasticidad residual, he tratado de aplicar una transformación logarítmica en la variable dependiente como $\log(Y + 1)$ pero todavía veo el mismo efecto de abanico en los residuos. Los valores de DV son relativamente pequeños, por lo que la adición constante de +1 antes de tomar el registro probablemente no sea apropiada en este caso.

> summary(Y)
Min.   :-0.0005647  
1st Qu.: 0.0001066  
Median : 0.0003060  
Mean   : 0.0004617  
3rd Qu.: 0.0006333  
Max.   : 0.0105730  
NA's   :30.0000000

¿Cómo puedo transformar las variables para mejorar el error de predicción y la varianza, particularmente para los valores ajustados de extrema derecha?

regression data-transformation linear-model heteroscedasticity Robert Kubrick
fuente

Respuestas:

¿Cuál es tu objetivo? Sabemos que la heterocedasticidad no sesga nuestras estimaciones de coeficientes; solo hace que nuestros errores estándar sean incorrectos. Por lo tanto, si solo le importa el ajuste del modelo, entonces la heterocedasticidad no importa.

Puede obtener un modelo más eficiente ( es decir , uno con errores estándar más pequeños) si utiliza mínimos cuadrados ponderados. En este caso, debe estimar la varianza de cada observación y ponderar cada observación por el inverso de esa varianza específica de la observación (en el caso del weightsargumento a lm). Este procedimiento de estimación cambia sus estimaciones.

Alternativamente, para corregir los errores estándar de heterocedasticidad sin cambiar sus estimaciones, puede usar errores estándar robustos. Para una Raplicación, vea el paquete sandwich.

El uso de la transformación logarítmica puede ser un buen enfoque para corregir la heterocedasticidad, pero solo si todos sus valores son positivos y el nuevo modelo proporciona una interpretación razonable en relación con la pregunta que está formulando.

Charlie
fuente

Mi objetivo principal es reducir los errores. Tendré que examinar los mínimos cuadrados ponderados, pero tenía la impresión de que una transformación DV era el paso correcto, dada la frecuencia con la que aumenta la varianza residual para valores ajustados más altos.

Robert Kubrick

¿Qué quiere decir "reducir los errores"? El error promedio es 0. Incluso mirando en su gráfico, en cualquier ventana que elija, el promedio es 0.

Charlie

Me refiero a mejorar la predicción del modelo, es decir, reducir el error absoluto general y la varianza del error, particularmente para los valores ajustados más altos.

Robert Kubrick

y

$y$

y

$y$

y

$y$

y

$y$

y

$y$

y

$y$

y

$y$

Te gustaría probar la transformación de Box-Cox . Es una versión de una transformación de poder:

y \mapsto {\begin{array}{rcl} \frac{y^{λ} - 1}{λ (\dot{y})^{λ - 1}}, & λ \neq 0 0 \\ \dot{y} En y, & λ = 0 0 \end{array}

$y \mapsto \left\{ \begin{eqnarray} \frac{y^\lambda-1}{\lambda (\dot y)^{\lambda-1}}, & \lambda \neq 0 \\ \dot y \ln y, & \lambda = 0 \end{eqnarray} \right.$

\dot{y}

$\dot y$

Algunas discusiones anteriores incluyen ¿Qué otras transformaciones de normalización se usan comúnmente más allá de las comunes como la raíz cuadrada, el registro, etc.? y ¿Cómo debo transformar los datos no negativos, incluidos los ceros? . Puede encontrar el código R siguiente ¿Cómo buscar un procedimiento estadístico en R?

Los econométricos dejaron de preocuparse por la heteroscedasticidad después del trabajo seminal de Halbert White (1980) al establecer procedimientos inferenciales robustos a la heteroscedasticidad (que de hecho acaba de contar la historia anterior de un estadístico F. Eicker (1967)). Vea la página de Wikipedia que acabo de reescribir.

StasK
fuente

Gracias, en este momento estoy debatiendo si aplicar una transformación de potencia o usar una regresión robusta para reducir los errores y mejorar los intervalos de predicción. Me pregunto cómo se comparan las dos técnicas. Además, si uso la transformación, necesitaría volver a transformar los valores pronosticados. No parece una fórmula obvia, ¿verdad?

Robert Kubrick

y

$y$

@ Charlie quiero decir en.wikipedia.org/wiki/Robust_regression . Soy nuevo en esto, pero entiendo que la regresión robusta cambia la técnica de estimación, por lo tanto, los residuos deben ser diferentes.

Robert Kubrick

Correcto, ese es un método diferente y cambia sus estimaciones. Creo que la regresión robusta es más adecuada para casos con valores atípicos. Según la versión de regresión robusta que decida usar y su conjunto de datos en particular, puede obtener intervalos de confianza más amplios en relación con OLS.

Charlie

Hay una solución muy simple para el problema de la heterocedasticidad asociada con variables dependientes dentro de los datos de series temporales. No sé si esto es aplicable a su variable dependiente. Suponiendo que es así, en lugar de usar Y nominal, cámbielo a% de cambio en Y desde el período actual durante el período anterior. Por ejemplo, supongamos que su Y nominal es un PIB de $ 14 billones en el período más actual. En cambio, calcule el cambio en el PIB durante el período más reciente (digamos 2.5%).

Una serie temporal nominal siempre crece y siempre es heteroscedastica (la varianza del error crece con el tiempo porque los valores crecen). Una serie de% de cambio es típicamente homoskedastic porque la variable dependiente es bastante estacionaria.

Sympa
fuente

Y

$Y$

Esto es sorprendente Por lo general, las variables de% de cambio no son heteroscedasticas. Me pregunto si los residuos son menos heteroscedasticos de lo que pensamos. Y, que el problema subyacente es uno de los valores atípicos. Veo 4 o 5 observaciones en el rango de 0,15% que, si se eliminan, harán que todo el gráfico tenga un aspecto menos heteroesdástico. Además, como otros han mencionado, la heterocedasticidad no corromperá sus coeficientes de regresión, sino solo sus intervalos de confianza y el error estándar relacionado. Sin embargo, al observar su gráfico, parece que los IC pueden no verse demasiado afectados. Y, aún podría ser útil.

Sympa