Tengo el siguiente modelo lineal:
Para abordar la heteroscedasticidad residual, he tratado de aplicar una transformación logarítmica en la variable dependiente como pero todavía veo el mismo efecto de abanico en los residuos. Los valores de DV son relativamente pequeños, por lo que la adición constante de +1 antes de tomar el registro probablemente no sea apropiada en este caso.
> summary(Y)
Min. :-0.0005647
1st Qu.: 0.0001066
Median : 0.0003060
Mean : 0.0004617
3rd Qu.: 0.0006333
Max. : 0.0105730
NA's :30.0000000
¿Cómo puedo transformar las variables para mejorar el error de predicción y la varianza, particularmente para los valores ajustados de extrema derecha?
fuente
Te gustaría probar la transformación de Box-Cox . Es una versión de una transformación de poder:
Algunas discusiones anteriores incluyen ¿Qué otras transformaciones de normalización se usan comúnmente más allá de las comunes como la raíz cuadrada, el registro, etc.? y ¿Cómo debo transformar los datos no negativos, incluidos los ceros? . Puede encontrar el código R siguiente ¿Cómo buscar un procedimiento estadístico en R?
Los econométricos dejaron de preocuparse por la heteroscedasticidad después del trabajo seminal de Halbert White (1980) al establecer procedimientos inferenciales robustos a la heteroscedasticidad (que de hecho acaba de contar la historia anterior de un estadístico F. Eicker (1967)). Vea la página de Wikipedia que acabo de reescribir.
fuente
Hay una solución muy simple para el problema de la heterocedasticidad asociada con variables dependientes dentro de los datos de series temporales. No sé si esto es aplicable a su variable dependiente. Suponiendo que es así, en lugar de usar Y nominal, cámbielo a% de cambio en Y desde el período actual durante el período anterior. Por ejemplo, supongamos que su Y nominal es un PIB de $ 14 billones en el período más actual. En cambio, calcule el cambio en el PIB durante el período más reciente (digamos 2.5%).
Una serie temporal nominal siempre crece y siempre es heteroscedastica (la varianza del error crece con el tiempo porque los valores crecen). Una serie de% de cambio es típicamente homoskedastic porque la variable dependiente es bastante estacionaria.
fuente