¿Cuándo es peor la regresión cuantil que MCO?

22

Además de algunas circunstancias únicas en las que debemos comprender absolutamente la relación media condicional, ¿cuáles son las situaciones en las que un investigador debería elegir OLS en lugar de la Regresión Cuantil?

No quiero que la respuesta sea "si no sirve de nada entender las relaciones de cola", ya que podríamos usar la regresión mediana como el sustituto de OLS.

least-squares econometrics regression-strategies quantile-regression semiparametric Frank Harrell
fuente

44

Creo que la mayoría de los investigadores considerarían tanto la OLS como la regresión cuantil; Las diferencias entre los métodos arrojarían luz sobre lo que está tratando de modelar. Con respecto a OLS, si agrega suposiciones de normalidad, obtiene una metodología de prueba bastante bien documentada y exhaustiva que está disponible en la mayoría de los paquetes estadísticos.

Jonathan Lisic 01 de

18

Si está interesado en la media, use MCO, si está en la mediana, use cuantil.

Una gran diferencia es que la media se ve más afectada por los valores atípicos y otros datos extremos. A veces, eso es lo que quieres. Un ejemplo es si su variable dependiente es el capital social en un vecindario. La presencia de una sola persona con mucho capital social puede ser muy importante para todo el vecindario.

Peter Flom - Restablece a Monica
fuente

66

Déjame desafiar tu primera oración. Tanto OLS como la regresión cuantil (QR) estiman

para un proceso generador de datos

. Si la distribución de error tiene colas

es más eficiente que

. Independientemente de qué momento de la distribución condicional

nos interesa, debemos utilizar la una de

y

β

$\beta$

y = X β + ε

$y=X\beta+\varepsilon$

{\hat{β}}^{Q R}

$\hat\beta^{QR}$

{\hat{β}}^{O L S}

$\hat\beta^{OLS}$

P (y | X)

$P(y|X)$

{\hat{β}}^{O L S}

$\hat\beta^{OLS}$

{\hat{β}}^{Q R}

$\hat\beta^{QR}$ Eso es más eficiente.

Richard Hardy

Siguiendo la crítica de @RichardHardy a esta respuesta, la mediana es solo uno de los cuantiles que se pueden estimar. Este artículo de Hyndman presenta un enfoque que él llama aumentar la regresión cuantil aditiva que explora una gama completa de cuantiles, la incertidumbre de pronóstico en los datos del medidor inteligente de electricidad al aumentar la regresión cuantil aditiva ( ieeexplore.ieee.org/document/7423794 ).

Mike Hunter

15

Parece haber una confusión en la premisa de la pregunta. En el segundo párrafo dice: "podríamos usar la regresión mediana como el sustituto de OLS". Tenga en cuenta que la regresión de la mediana condicional en X es (una forma de) regresión cuantil.

Si el error en el proceso de generación de datos subyacente se distribuye normalmente (lo que puede evaluarse verificando si los residuos son normales), entonces la media condicional es igual a la mediana condicional. Además, cualquier cuantil en el que pueda estar interesado (p. Ej., El percentil 95 o el percentil 37) puede determinarse para un punto dado en la dimensión X con los métodos estándar de OLS. El principal atractivo de la regresión cuantil es que es más robusto que OLS. La desventaja es que si se cumplen todos los supuestos, será menos eficiente (es decir, necesitará un tamaño de muestra más grande para lograr la misma potencia / sus estimaciones serán menos precisas).

gung - Restablece a Monica
fuente

12

$\beta$

y = X β + ε

$y = X\beta + \varepsilon$

$\hat\beta_{QR}$ $\hat\beta_{OLS}$ $\hat\beta_{OLS}$ $P_Y(y|X)$ $\hat\beta_{OLS}$ $\hat\beta_{QR}$

$\hat\beta_{OLS}$ $\hat\beta_{QR}$ $\hat\beta_{OLS}$ $\hat\beta_{QR}$

Referencias

Koenker, Roger y Gilbert Bassett Jr. "Cuantiles de regresión". Econometrica: Journal of the Econometric Society (1978): 33-50.

Richard Hardy
fuente

3

Peter Flom tuvo una respuesta excelente y concisa, solo quiero expandirla. La parte más importante de la pregunta es cómo definir "peor".

Para definir peor, necesitamos tener algunas métricas y la función para calcular qué tan buenas o malas son las conexiones llamadas funciones de pérdida.

Podemos tener diferentes definiciones de la función de pérdida, y no hay correcto o incorrecto en cada definición, pero diferentes definiciones satisfacen diferentes necesidades. Dos funciones de pérdida bien conocidas son la pérdida al cuadrado y la pérdida de valor absoluto.

L_{s q} (y, \hat{y}) = \sum_{yo} (y_{yo} - {\hat{y}}_{yo})^{2}

$L_{sq}(y,\hat y)=\sum_i (y_i-\hat y_i)^2$

L_{una si s} (y, \hat{y}) = \sum_{yo} El | y_{yo} - {\hat{y}}_{yo} El |

$L_{abs}(y,\hat y)=\sum_i |y_i-\hat y_i|$

Si utilizamos la pérdida al cuadrado como una medida de éxito, la regresión cuantil será peor que la MCO. Por otro lado, si usamos la pérdida de valor absoluto, la regresión cuantil será mejor.

Cuál es la respuesta de Peter Folm:

Si está interesado en la media, use MCO, si está en la mediana, use cuantil.

Haitao Du
fuente

Creo que su ejemplo puede ser engañoso ya que aborda el ajuste dentro de la muestra (que es de poco interés ya que ya conocemos nuestra muestra perfectamente) en lugar de la pérdida esperada para nuevas observaciones (cuando el objetivo es la predicción) o la pérdida de estimar el vector de parámetros ( cuando el objetivo es la explicación). Ver puede comentar bajo la respuesta de Peter Flom y mi respuesta para más detalles.

Richard Hardy

3

$Y$ $\frac{2}{\pi}$

Si desea estimar la media, no puede obtenerla de la regresión cuantil.

Si desea estimar la media y los cuantiles con suposiciones mínimas (pero más suposiciones que la regresión cuantil) pero tiene más eficiencia, use la regresión ordinal semiparamétrica. Esto también le brinda probabilidades de excedencia. Un estudio de caso detallado se encuentra en mis notas del curso de RMS, donde se muestra en un conjunto de datos que el error medio de estimación absoluta promedio sobre varios parámetros (cuantiles y media) se logra mediante regresión ordinal. Pero solo para estimar la media, OLS es mejor y para estimar cuantiles, la regresión cuantil fue la mejor.

$Y$

Frank Harrell
fuente

¿Cuándo es peor la regresión cuantil que MCO?

Respuestas: