¿Cómo encuentra pesos para la regresión de mínimos cuadrados ponderados?

23

Estoy un poco perdido en el proceso de regresión de WLS. Me han dado un conjunto de datos y mi tarea es probar si hay heterocedacidad, y si es así, debería ejecutar la regresión WLS.

Llevé a cabo la prueba y encontré evidencia de heterocedacidad, así que necesito ejecutar el WLS. Me han dicho que WLS es básicamente una regresión OLS de un modelo transformado, pero estoy un poco confundido acerca de encontrar la función de transformación. He leído algunos artículos que sugieren que la transformación puede ser función de los residuos cuadrados de la regresión OLS, pero agradecería si alguien me puede ayudar a seguir el camino correcto.

regression heteroscedasticity weighted-regression m3d1v0
fuente

2

Si supone que la matriz de covarianza de los errores es diagonal, puede estimar la matriz de covarianza y luego la regresión WLS con los pesos estimados. Para hacer esto, puede verificar los mínimos cuadrados generalizados factibles en es.wikipedia.org/wiki/Generalized_least_squares

Manuel

26

La regresión de mínimos cuadrados ponderados (WLS) no es un modelo transformado. En lugar de ello, se está tratando simplemente cada observación como más o menos información acerca de la relación subyacente entre e . Los puntos que son más informativos reciben más "peso", y los que son menos informativos reciben menos peso. Tiene razón en que la regresión de mínimos cuadrados ponderados (WLS) es técnicamente válida solo si los pesos se conocen a priori. $X$ $Y$

Sin embargo, la regresión lineal (MCO) es bastante robusta frente a la heterocedasticidad y, por lo tanto, también lo es WLS si sus estimaciones están en el estadio. Una regla general para la regresión OLS es que no se ve muy afectada por la heterocedasticidad siempre que la varianza máxima no sea mayor que 4 veces la varianza mínima. Por ejemplo, si la varianza de los residuos / errores aumenta con , entonces estaría bien si la varianza de los residuales en el extremo superior fuera menos de cuatro veces la varianza de los residuales en el extremo inferior. La implicación de esto es que si sus pesos lo llevan dentro de ese rango, está razonablemente seguro. Es una especie de herraduras y granadas de mano $X$ situación. Como resultado, puede intentar estimar la función que relaciona la varianza de los residuos con los niveles de sus variables predictoras.

Existen varios problemas relacionados con la forma en que se debe realizar dicha estimación:

Recuerde que los pesos deben ser el recíproco de la varianza (o lo que sea que use).
Si sus datos aparecen solo en niveles discretos de , como en un experimento o un ANOVA, puede estimar la varianza directamente en cada nivel de y usarla. Si las estimaciones son niveles discretos de una variable continua (p. Ej., 0 mg., 10 mg., 20 mg., Etc.), es posible que desee suavizarlos, pero probablemente no habrá mucha diferencia. $X$ $X$
Sin embargo, las estimaciones de las variaciones, debido a la cuadratura, son muy susceptibles a valores atípicos y / o altos puntos de apalancamiento. Si sus datos no están distribuidos uniformemente en , o si tiene relativamente pocos datos, no se recomienda estimar la varianza directamente. Es mejor estimar algo que se espera se correlacione con la varianza, pero que sea más robusto. Una opción común sería usar la raíz cuadrada de los valores absolutos de las desviaciones de la media condicional. (Por ejemplo, en R, se mostrará un diagrama de dispersión de estos contra , llamado "diagrama de nivel de dispersión", para ayudarlo a diagnosticar la posible heterocedasticidad; vea mi respuesta aquí .) Incluso más robusto podría ser usar el rango intercuartil condicional, o el condicional $X$ plot(model, which=2) $X$ mediana desviación absoluta de la mediana .
Si es una variable continua, la estrategia típica es utilizar una regresión OLS simples para obtener los residuos, y uno a continuación regresión de las funciones en [ 3 ] (lo más probable la desviación absoluta de la raíz) en . El valor predicho de esta función se usa para el peso asociado con ese punto. $X$ $X$
Obtener sus pesos de los residuos de una regresión de OLS es razonable porque OLS es imparcial, incluso en presencia de heterocedasticidad. No obstante, esos pesos dependen del modelo original y pueden cambiar el ajuste del modelo WLS posterior. Por lo tanto, debe verificar sus resultados comparando las versiones beta estimadas de las dos regresiones. Si son muy similares, estás bien. Si los coeficientes de WLS difieren de los de OLS, debe usar las estimaciones de WLS para calcular los residuos manualmente (los residuos informados del ajuste de WLS tomarán en cuenta los pesos). Habiendo calculado un nuevo conjunto de residuos, determine los pesos nuevamente y use los nuevos pesos en una segunda regresión WLS. Este proceso debe repetirse hasta que dos conjuntos de betas estimadas sean lo suficientemente similares (aunque hacer esto una vez es poco común).

Si este proceso lo incomoda un poco, porque los pesos se estiman y porque dependen del modelo anterior e incorrecto, otra opción es usar el estimador 'sandwich' de Huber-White . Esto es consistente incluso en presencia de heterocedasticidad, no importa cuán grave sea, y no depende del modelo. También es potencialmente menos molesto.

Demuestro una versión simple de los mínimos cuadrados ponderados y el uso de los SE sándwich en mi respuesta aquí: Alternativas al ANOVA de una vía para los datos heterocedásticos .

gung - Restablece a Monica
fuente

10

Al realizar WLS, debe conocer los pesos. Hay algunas formas de encontrarlas como se dice en la página 191 de Introducción al análisis de regresión lineal por Douglas C. Montgomery, Elizabeth A. Peck, G. Geoffrey Vining. Por ejemplo:

Experiencia o información previa utilizando algún modelo teórico.
Usando los residuos del modelo, por ejemplo si entonces podemos decidir usar . ${\rm var}(\varepsilon_i)=\sigma^2x_i$ $w_i=1/x_i$
Si las respuestas son el promedio de observación en cada o algo así como , entonces podemos decidir usar . $n_i$ $x_i$ ${\rm var}(y_i)={\rm var}(\varepsilon_i)=\sigma^2/n_i$ $w_i=n_i$
En algún momento sabemos que diferentes instrumentos han sido medidos por diferentes instrumentos que tienen cierta precisión (conocida o estimada). En este caso, podemos decidir usar pesos como inversamente proporcionales a la varianza de los errores de medición.

Stat
fuente

¿Cómo encuentra pesos para la regresión de mínimos cuadrados ponderados?

Respuestas: