El modelo de regresión lineal hace un montón de suposiciones que la regresión cuantil no cumple y, si se cumplen las suposiciones de la regresión lineal, mi intuición (y alguna experiencia muy limitada) es que la regresión mediana daría resultados casi idénticos a la regresión lineal.
Entonces, ¿qué ventajas tiene la regresión lineal? Ciertamente es más familiar, pero aparte de eso?
regression
multiple-regression
quantile-regression
Peter Flom - Restablece a Monica
fuente
fuente
Respuestas:
Muy a menudo se afirma que se prefiere minimizar los residuos de mínimos cuadrados antes que minimizar los residuos absolutos debido a que es computacionalmente más simple . Sin embargo, puede también ser mejor por otras razones. Es decir, si las suposiciones son ciertas (y esto no es tan raro), entonces proporciona una solución que es (en promedio) más precisa.
Máxima verosimilitud
La regresión de mínimos cuadrados y la regresión cuantil (cuando se realiza minimizando los residuos absolutos) puede verse como la maximización de la función de probabilidad para los errores distribuidos de Gauss / Laplace, y en este sentido están muy relacionados.
Distribución gaussiana:
con la log-verosimilitud maximizada al minimizar la suma de los residuos al cuadrado
Distribución de Laplace:
con la log-verosimilitud maximizada al minimizar la suma de residuos absolutos
Nota: la distribución de Laplace y la suma de los residuos absolutos se relaciona con la mediana, pero se puede generalizar a otros cuantiles al dar diferentes pesos a los residuos negativos y positivos.
Distribución de error conocida
Cuando conocemos la distribución de errores (cuando las suposiciones son verdaderas) tiene sentido elegir la función de probabilidad asociada. Minimizar esa función es más óptimo.
Entonces, cuando los errores están distribuidos normalmente, entonces la media de la muestra es un mejor estimador de la mediana de distribución que la mediana de la muestra . La regresión de mínimos cuadrados es un estimador más óptimo de los cuantiles. Es mejor que usar la menor suma de residuos absolutos.
Debido a que muchos problemas tratan con errores distribuidos normales, el uso del método de mínimos cuadrados es muy popular. Para trabajar con otro tipo de distribuciones, se puede usar el modelo lineal generalizado . Y, el método de mínimos cuadrados iterativos, que puede usarse para resolver GLM, también funciona para la distribución de Laplace (es decir, para desviaciones absolutas ), que es equivalente a encontrar la mediana (o en la versión generalizada otros cuantiles).
Distribución de error desconocida
Robustez
La mediana u otros cuantiles tienen la ventaja de que son muy robustos con respecto al tipo de distribución. Los valores reales no importan mucho y los cuantiles solo se preocupan por el orden. Entonces, sin importar cuál sea la distribución, minimizar los residuos absolutos (que es equivalente a encontrar los cuantiles) está funcionando muy bien.
La pregunta se vuelve compleja y amplia aquí y depende de qué tipo de conocimiento tenemos o no tenemos sobre la función de distribución. Por ejemplo, una distribución puede ser aproximadamente normal, pero solo con algunos valores atípicos adicionales. Esto se puede solucionar eliminando los valores externos. Esta eliminación de los valores extremos incluso funciona para estimar el parámetro de ubicación de la distribución de Cauchy donde la media truncada puede ser un mejor estimador que la mediana. Por lo tanto, no solo para la situación ideal cuando se cumplen los supuestos, sino también para algunas aplicaciones menos ideales (por ejemplo, valores atípicos adicionales), podría haber buenos métodos robustos que todavía usan alguna forma de suma de residuos cuadrados en lugar de la suma de residuos absolutos.
Me imagino que la regresión con residuos truncados podría ser computacionalmente mucho más compleja. Entonces, en realidad puede ser una regresión cuantil, que es el tipo de regresión que se realiza debido a la razón de que es computacionalmente más simple (no más simple que los mínimos cuadrados ordinarios, pero más simple que los mínimos cuadrados truncados ).
Sesgado / imparcial
Otra cuestión es sesgada frente a estimadores imparciales. En lo anterior describí la estimación de máxima verosimilitud para la media, es decir, la solución de mínimos cuadrados, como un estimador bueno o preferible porque a menudo tiene la varianza más baja de todos los estimadores insesgados (cuando los errores están distribuidos normalmente). Pero, los estimadores sesgados pueden ser mejores (menor suma esperada de error al cuadrado).
Esto vuelve a hacer la pregunta amplia y compleja. Hay muchos estimadores diferentes y muchas situaciones diferentes para aplicarlos. El uso de una suma adaptada de la función de pérdida de residuos al cuadrado a menudo funciona bien para reducir el error (por ejemplo, todo tipo de métodos de regularización), pero es posible que no tenga que funcionar bien en todos los casos. Intuitivamente, no es extraño imaginar que, dado que la función de suma de la pérdida de residuos al cuadrado a menudo funciona bien para todos los estimadores imparciales, los estimadores sesgados óptimos probablemente sean algo cercano a la función de la suma de la pérdida de residuos al cuadrado.
fuente
La regresión lineal (LR) se reduce a la optimización de mínimos cuadrados al calcular sus coeficientes. Esto implica una simetría en las desviaciones del modelo de regresión. Una buena explicación de la regresión cuantil (QR) se encuentra en https://data.library.virginia.edu/getting-started-with-quantile-regression/ .
Si se cumplen los supuestos de LR (necesarios para la inferencia: valores p, intervalos de confianza, etc.), las predicciones de QR y LR serán similares. Pero si se violan los supuestos, su inferencia estándar de LR será incorrecta. Entonces, una regresión de 0.5 cuantil (mediana) presenta una ventaja sobre LR. También brinda más flexibilidad para proporcionar regresión para otros cuantiles. El equivalente para los modelos lineales sería un límite de confianza calculado a partir de un LR (aunque esto sería incorrecto si se violara fuertemente iid).
Entonces, ¿cuál es la ventaja de LR? Por supuesto, es más fácil de calcular, pero si su conjunto de datos tiene un tamaño razonable, puede que no sea muy notable. Pero lo que es más importante, los supuestos de inferencia LR proporcionan información que reduce la incertidumbre. Como resultado, los intervalos de confianza LR en las predicciones generalmente serán más estrechos. Entonces, si existe un fuerte respaldo teórico para los supuestos, los intervalos de confianza más estrechos pueden ser una ventaja.
fuente
La regresión cuantil puede usarse para estimar CUALQUIER cuantil de la distribución condicional, incluida la mediana. Esto proporciona potencialmente mucha más información que la media sobre la distribución condicional. Si la distribución condicional no es simétrica o las colas son posiblemente gruesas (p. Ej., Análisis de riesgo), la regresión cuantil es útil INCLUSO si se cumplen todos los supuestos de la regresión lineal.
Por supuesto, es numéricamente más intensivo llevar a cabo una estimación cuantil en relación con la regresión lineal, pero generalmente es mucho más robusto (por ejemplo, al igual que la mediana es más robusta que la media para los valores atípicos). Además, es apropiado cuando la regresión lineal no lo es, por ejemplo, para datos censurados. La inferencia puede ser más complicada ya que la estimación directa de la matriz de varianza-covarianza puede ser difícil o computacionalmente costosa. En esos casos, uno puede arrancar.
fuente