Regresión cuantil que revela diferentes relaciones en diferentes cuantiles: ¿cómo?

8

A veces se dice que la regresión cuantil (QR) revela diferentes relaciones entre variables en diferentes cuantiles de la distribución. Por ejemplo, Le Cook et al. "Pensar más allá de la media: una guía práctica para el uso de métodos de regresión cuantil para la investigación en servicios de salud" implica que QR permite que las relaciones entre los resultados de interés y las variables explicativas no sean constantes en los diferentes valores de las variables.

Sin embargo, hasta donde yo sé, en un modelo de regresión lineal estándar con siendo iid e independiente de , el estimador QR para la pendiente

y=β0 0+βX+ε
εXβes consistente para la pendiente de la población (que es única y no varía de ningún modo entre los cuantiles). Es decir, el objeto que se estima es siempre el mismo, independientemente del cuantil. Es cierto que este no es el caso para la intercepción, ya que el estimador de intercepción QR tiene como objetivo estimar un cuantil particular de la distribución de errores. Tomados en conjunto, no veo cómo se supone que las diferentes relaciones entre las variables se revelen en diferentes cuantiles a través del QR. Supongo que esto es una propiedad del modelo de regresión lineal estándar en lugar de un error en mi comprensión, pero no estoy seguro.

Supongo que la situación es diferente cuando se violan algunos de los supuestos del modelo lineal estándar, por ejemplo, bajo ciertas formas de heterocedasticidad condicional. Entonces, tal vez los estimadores de la pendiente QR convergen en algo más que la pendiente verdadera del modelo lineal y de alguna manera revelan diferentes relaciones en diferentes cuantiles.

¿Qué me estoy equivocando? ¿Cómo debería entender / interpretar adecuadamente la afirmación de que la regresión cuantil revela diferentes relaciones entre variables en diferentes cuantiles?

Richard Hardy
fuente
1
Hay muchas maneras de pensar en QR. Una es que es un tipo de regresión del núcleo donde los núcleos son los cuantiles. De esta manera, es un enfoque no paramétrico y robusto en el que no se pueden asumir soluciones lineales. Hyndman, et al., Propuso una regresión cuantil adaptativa mejorada como un marco global para el modelado basado en QR. Copia no delegada aquí ... robjhyndman.com/papers/sig-alternate.pdf
Mike Hunter
1
@DJohnson, gracias. Supongo que estoy demasiado influenciado por el artículo original Koenker y Bassett (1978) donde la motivación es únicamente para encontrar un estimador de pendiente robusto en el modelo lineal estándar en lugar de generar diferentes relaciones en diferentes cuantiles.
Richard Hardy
No hay duda de que documentos como Koenker y Bassett impactan cómo futuros analistas formulan una pregunta. Otro buen artículo sobre QR es Le Cook and Manning's 2013, * Thinking Beyond the Mean: una guía práctica para el uso de métodos de regresión cuantil "... copia no unida aquí ... dash.harvard.edu/bitstream/handle/1/12406692/ ... FWIW ... pero su enfoque es el cuidado de la salud ...
Mike Hunter

Respuestas:

8

La "pendiente verdadera" en un modelo lineal normal le dice cuánto cambia la respuesta media gracias a un aumento de un punto enX. Al asumir la normalidad y la varianza igual, todos los cuantiles de la distribución condicional de la respuesta se mueven en línea con eso. A veces, estos supuestos son muy poco realistas: la varianza o asimetría de la distribución condicional depende deX y así, sus cuantiles se mueven a su propia velocidad al aumentar X. En QR, verá esto inmediatamente a partir de estimaciones de pendiente muy diferentes. Como OLS solo se preocupa por la media (es decir, el cuantil promedio), no puede modelar cada cuantil por separado. Allí, confía plenamente en el supuesto de la forma fija de la distribución condicional al hacer declaraciones en sus cuantiles.

EDITAR: incrustar comentarios e ilustrar

Si está dispuesto a hacer suposiciones sólidas, no tiene mucho sentido ejecutar QR, ya que siempre puede calcular cuantiles condicionales a través de la media condicional y la varianza fija. Las pendientes "verdaderas" de todos los cuantiles serán iguales a la pendiente verdadera de la media. En una muestra específica, por supuesto, habrá alguna variación aleatoria. O incluso podría detectar que sus suposiciones estrictas estaban equivocadas ...

Permítanme ilustrar con un ejemplo en R. Muestra la línea de mínimos cuadrados (negro) y luego en rojo los cuantiles modelados de datos de 20%, 50% y 80% simulados de acuerdo con la siguiente relación lineal

y=X+Xε,εnorte(0 0,1) iid,
para que no solo la media condicional de y depende de X pero también la varianza. ingrese la descripción de la imagen aquí
  • Las líneas de regresión de la media y la mediana son esencialmente idénticas debido a la distribución condicional simétrica. Su pendiente es 1.
  • La línea de regresión del cuantil del 80% es mucho más pronunciada (pendiente 1.9), mientras que la línea de regresión del cuantil del 20% es casi constante (pendiente 0.3). Esto se adapta bien a la variación extremadamente desigual.
  • Aproximadamente el 60% de todos los valores están dentro de las líneas rojas externas. Forman un intervalo de pronóstico simple y puntual del 60% en cada valor deX.

El código para generar la imagen:

library(quantreg)

set.seed(3249)
n <- 1000
x <- seq(0, 1, length.out = n)
y <- rnorm(n, mean = x, sd = x)

plot(y~x)

(fit_lm <- lm(y~x)) # intercept: 0.02445, slope: 1.04858 
abline(fit_lm, lwd = 3)

# quantile cuts
taus <- c(0.2, 0.5, 0.8)

(fit_rq <- rq(y~x, tau = taus))
#               tau= 0.2      tau= 0.5    tau= 0.8
# (Intercept) 0.00108228 -0.0005110046 0.001089583
# x           0.29960652  1.0954521888 1.918622442

lapply(seq_along(taus), function(i) abline(coef(fit_rq)[, i], lwd = 2, lty = 2, col = "red"))
Michael M
fuente
2
+1. Creo que la parte crucial está en la variación o asimetría del error dependiendo deX, que es lo que intenté descartar diciendo "modelo de regresión lineal estándar". He editado mi publicación en consecuencia para que quede más claro. En cuanto a Suponiendo que la normalidad y la varianza igual, todos los cuantiles de la distribución condicional de la respuesta se mueven en línea con eso , supongo que la suposición de normalidad es redundante.
Richard Hardy
2
Exactamente. Si está dispuesto a hacer suposiciones sólidas, no tiene mucho sentido ejecutar QR, ya que siempre puede calcular cuantiles condicionales a través de la media condicional y la varianza fija. Las pendientes "verdaderas" de todos los cuantiles serán iguales a la pendiente verdadera de la media. En la muestra, habrá alguna variación aleatoria. O incluso podría detectar que sus suposiciones estrictas estaban equivocadas ... ;-)
Michael M
Eso tiene sentido. En la muestra, creo que las estimaciones de la pendiente QR para diferentes cuantiles probablemente se distribuirán de acuerdo con los cuantiles. Esto se debe a que la función de pérdida que se minimiza arrastrará el estimador asimétricamente a un lado (la dirección y la magnitud de la resistencia dependen del cuantil), aunque asintóticamente este efecto será aún más pequeño.
Richard Hardy
1
Es una buena respuesta, y gracias por ello, pero me pregunto si podría ilustrar con un ejemplo simple cómo el QR revela diferentes relaciones en diferentes cuantiles cuando algunos de los supuestos estándar (por ejemplo, la homocedasticidad) no se cumplen.
Richard Hardy
Entonces, el proceso de generación de datos es un modelo lineal pero con la desviación estándar (¿varianza?) De X directamente proporcional a la media de X, ¿derecho? Es deciry=X+Xε dónde εyo.yo.norte(0 0,1)? Explicar explícitamente el modelo en la respuesta sería muy útil, en mi humilde opinión.
Richard Hardy