¿Cuáles son las ventajas de la regresión lineal sobre la regresión cuantil?

15

El modelo de regresión lineal hace un montón de suposiciones que la regresión cuantil no cumple y, si se cumplen las suposiciones de la regresión lineal, mi intuición (y alguna experiencia muy limitada) es que la regresión mediana daría resultados casi idénticos a la regresión lineal.

Entonces, ¿qué ventajas tiene la regresión lineal? Ciertamente es más familiar, pero aparte de eso?

Peter Flom - Restablece a Monica
fuente
3
Para 'más familiar' agregaría 'interpretabilidad' y 'estabilidad', pero para mí una de las ventajas de la regresión lineal es lo que le dice sobre la media y qué tan bien representa esa media la población de la muestra (los residuos son muy informativos) . La regresión lineal tiene un gran valor cuando se cumplen sus supuestos y un buen valor cuando no se cumplen.
JustGettinStarted
55
Yo diría que se ha discutido un tema importante en estos dos hilos: stats.stackexchange.com/questions/153348/… y stats.stackexchange.com/questions/146077/… - eficiencia y, posiblemente, incluso la óptima bajo ciertas supuestos
Christoph Hanck
1
Como un punto adicional, pero menor, uno podría agregar la disponibilidad de soluciones explícitas de forma cerrada que no están disponibles para, por ejemplo, LAD, lo que puede hacer que tales técnicas sean menos atractivas para los profesionales.
Christoph Hanck
1
Una respuesta podría ser como comparar el caso simple de estimar un único parámetro de población, y luego mostrar que los errores de menor cuadrado funcionan mejor con los errores de Gauss y que los residuales menos absolutos (también utilizando supuestos) funcionan mejor para diferentes tipos de errores. Pero entonces, esta pregunta trata sobre modelos lineales más complejos y el problema comienza a ser más complejo y amplio. La intuición del problema simple (estimar una sola media / mediana) funciona para un modelo más grande, pero ¿cuánto debería resolverse? ¿Y cómo comparar, robustez frente a valores atípicos, distribuciones, computación?
Sextus Empiricus
2
En mi caso, he encontrado que la regresión cuantil es mucho más fácil de explicar a personas no técnicas cuando la variable de respuesta está sesgada (por ejemplo, gasto del cliente) y la introducción de un paso de transformación / función de enlace oscurece todo el análisis. En ese sentido, cuestionaría la afirmación de que "la regresión mediana daría resultados casi idénticos a la regresión lineal ", ya que es un poco demasiado simplificador; no lo hace, especialmente cuando se trata de variables de respuesta potencialmente sesgadas.
usεr11852 dice Reinstate Monic

Respuestas:

10

Muy a menudo se afirma que se prefiere minimizar los residuos de mínimos cuadrados antes que minimizar los residuos absolutos debido a que es computacionalmente más simple . Sin embargo, puede también ser mejor por otras razones. Es decir, si las suposiciones son ciertas (y esto no es tan raro), entonces proporciona una solución que es (en promedio) más precisa.

Máxima verosimilitud

La regresión de mínimos cuadrados y la regresión cuantil (cuando se realiza minimizando los residuos absolutos) puede verse como la maximización de la función de probabilidad para los errores distribuidos de Gauss / Laplace, y en este sentido están muy relacionados.

  • Distribución gaussiana:

    f(x)=12πσ2e(xμ)22σ2

    con la log-verosimilitud maximizada al minimizar la suma de los residuos al cuadrado

    logL(x)=n2log(2π)nlog(σ)12σ2i=1n(xiμ)2sum of squared residuals

  • Distribución de Laplace:

    f(x)=12be|xμ|b

    con la log-verosimilitud maximizada al minimizar la suma de residuos absolutos

    logL(x)=nlog(2)nlog(b)1bi=1n|xiμ|sum of absolute residuals

Nota: la distribución de Laplace y la suma de los residuos absolutos se relaciona con la mediana, pero se puede generalizar a otros cuantiles al dar diferentes pesos a los residuos negativos y positivos.

Distribución de error conocida

Cuando conocemos la distribución de errores (cuando las suposiciones son verdaderas) tiene sentido elegir la función de probabilidad asociada. Minimizar esa función es más óptimo.

μ

Entonces, cuando los errores están distribuidos normalmente, entonces la media de la muestra es un mejor estimador de la mediana de distribución que la mediana de la muestra . La regresión de mínimos cuadrados es un estimador más óptimo de los cuantiles. Es mejor que usar la menor suma de residuos absolutos.

Debido a que muchos problemas tratan con errores distribuidos normales, el uso del método de mínimos cuadrados es muy popular. Para trabajar con otro tipo de distribuciones, se puede usar el modelo lineal generalizado . Y, el método de mínimos cuadrados iterativos, que puede usarse para resolver GLM, también funciona para la distribución de Laplace (es decir, para desviaciones absolutas ), que es equivalente a encontrar la mediana (o en la versión generalizada otros cuantiles).

Distribución de error desconocida

Robustez

La mediana u otros cuantiles tienen la ventaja de que son muy robustos con respecto al tipo de distribución. Los valores reales no importan mucho y los cuantiles solo se preocupan por el orden. Entonces, sin importar cuál sea la distribución, minimizar los residuos absolutos (que es equivalente a encontrar los cuantiles) está funcionando muy bien.

La pregunta se vuelve compleja y amplia aquí y depende de qué tipo de conocimiento tenemos o no tenemos sobre la función de distribución. Por ejemplo, una distribución puede ser aproximadamente normal, pero solo con algunos valores atípicos adicionales. Esto se puede solucionar eliminando los valores externos. Esta eliminación de los valores extremos incluso funciona para estimar el parámetro de ubicación de la distribución de Cauchy donde la media truncada puede ser un mejor estimador que la mediana. Por lo tanto, no solo para la situación ideal cuando se cumplen los supuestos, sino también para algunas aplicaciones menos ideales (por ejemplo, valores atípicos adicionales), podría haber buenos métodos robustos que todavía usan alguna forma de suma de residuos cuadrados en lugar de la suma de residuos absolutos.

Me imagino que la regresión con residuos truncados podría ser computacionalmente mucho más compleja. Entonces, en realidad puede ser una regresión cuantil, que es el tipo de regresión que se realiza debido a la razón de que es computacionalmente más simple (no más simple que los mínimos cuadrados ordinarios, pero más simple que los mínimos cuadrados truncados ).

Sesgado / imparcial

Otra cuestión es sesgada frente a estimadores imparciales. En lo anterior describí la estimación de máxima verosimilitud para la media, es decir, la solución de mínimos cuadrados, como un estimador bueno o preferible porque a menudo tiene la varianza más baja de todos los estimadores insesgados (cuando los errores están distribuidos normalmente). Pero, los estimadores sesgados pueden ser mejores (menor suma esperada de error al cuadrado).

Esto vuelve a hacer la pregunta amplia y compleja. Hay muchos estimadores diferentes y muchas situaciones diferentes para aplicarlos. El uso de una suma adaptada de la función de pérdida de residuos al cuadrado a menudo funciona bien para reducir el error (por ejemplo, todo tipo de métodos de regularización), pero es posible que no tenga que funcionar bien en todos los casos. Intuitivamente, no es extraño imaginar que, dado que la función de suma de la pérdida de residuos al cuadrado a menudo funciona bien para todos los estimadores imparciales, los estimadores sesgados óptimos probablemente sean algo cercano a la función de la suma de la pérdida de residuos al cuadrado.

Sexto Empírico
fuente
Cuando conocemos la distribución de errores, tiene sentido elegir la función de probabilidad asociada. Minimizar esa función es más óptimo. No quiere decir que esto esté mal, pero probablemente debería estar calificado. Por supuesto, esto se relaciona una vez más con mi pregunta (que usted respondió) sobre estimadores óptimos bajo diferentes funciones de pérdida.
Richard Hardy
Es la mejor manera porque tiene la varianza muestral más baja. La variación generalmente no es una función de pérdida sensible porque descuida el sesgo; se esperaría un error al cuadrado razonable (también conocido como error cuadrático medio) que tenga en cuenta tanto la varianza como el sesgo. La regresión de mínimos cuadrados es un estimador más óptimo de los cuantiles. Mediana: sí, pero ¿otras? Y si es así, ¿por qué? En cualquier caso, ¡la suya es una muy buena respuesta!
Richard Hardy
1
@RichardHardy este tema es muy amplio. De hecho, el error = varianza + sesgo. Supuse que el sesgo de la media de la muestra es igual a la mediana de la muestra (o más general: la menor suma de residuos al cuadrado y la menor suma de residuos absolutos tienen el mismo sesgo). Esto es cierto dadas varias distribuciones de error (por ejemplo, distribuciones de error simétricas), pero de hecho las preguntas se vuelven más complejas para otros casos. (el punto era principalmente que los errores a menudo se distribuyen normalmente y esto hace que la regresión de mínimos cuadrados sea favorable)
Sextus Empiricus
1
Lo mismo (la complejidad de la pregunta) es cierto cuando no consideramos la mediana, sino algún otro cuantil. En el caso de errores distribuidos normales, creo que el MLE da el mejor resultado para cualquier cuantil, pero estoy de acuerdo en que es intuición. Una vez más, el problema es muy amplio (dependencia del número de muestras, tipo de distribución de errores y certeza al respecto, etc.).
Sextus Empiricus
1
un reloj roto es exactamente correcto dos veces al día, no llamaría al MLE un reloj roto. Claro, cuando conozca bien el problema, puede introducir alguna variación que reduzca el sesgo para mejorar el error general. Esto no se está moviendo necesariamente a un tipo de regresión diferente (cuantil), también puede simplemente poner un poco de mermelada o miel en el pan y la mantequilla de los cuadrados mínimos. Si desea comparar MLE con un reloj roto, entonces es un reloj que está parado alrededor de la hora que más utilizamos.
Sextus Empiricus
2

La regresión lineal (LR) se reduce a la optimización de mínimos cuadrados al calcular sus coeficientes. Esto implica una simetría en las desviaciones del modelo de regresión. Una buena explicación de la regresión cuantil (QR) se encuentra en https://data.library.virginia.edu/getting-started-with-quantile-regression/ .

Si se cumplen los supuestos de LR (necesarios para la inferencia: valores p, intervalos de confianza, etc.), las predicciones de QR y LR serán similares. Pero si se violan los supuestos, su inferencia estándar de LR será incorrecta. Entonces, una regresión de 0.5 cuantil (mediana) presenta una ventaja sobre LR. También brinda más flexibilidad para proporcionar regresión para otros cuantiles. El equivalente para los modelos lineales sería un límite de confianza calculado a partir de un LR (aunque esto sería incorrecto si se violara fuertemente iid).

Entonces, ¿cuál es la ventaja de LR? Por supuesto, es más fácil de calcular, pero si su conjunto de datos tiene un tamaño razonable, puede que no sea muy notable. Pero lo que es más importante, los supuestos de inferencia LR proporcionan información que reduce la incertidumbre. Como resultado, los intervalos de confianza LR en las predicciones generalmente serán más estrechos. Entonces, si existe un fuerte respaldo teórico para los supuestos, los intervalos de confianza más estrechos pueden ser una ventaja.

George Ostrouchov
fuente
2

E(Y|X)YXE(Y|X)=Xββ

La regresión cuantil puede usarse para estimar CUALQUIER cuantil de la distribución condicional, incluida la mediana. Esto proporciona potencialmente mucha más información que la media sobre la distribución condicional. Si la distribución condicional no es simétrica o las colas son posiblemente gruesas (p. Ej., Análisis de riesgo), la regresión cuantil es útil INCLUSO si se cumplen todos los supuestos de la regresión lineal.

Por supuesto, es numéricamente más intensivo llevar a cabo una estimación cuantil en relación con la regresión lineal, pero generalmente es mucho más robusto (por ejemplo, al igual que la mediana es más robusta que la media para los valores atípicos). Además, es apropiado cuando la regresión lineal no lo es, por ejemplo, para datos censurados. La inferencia puede ser más complicada ya que la estimación directa de la matriz de varianza-covarianza puede ser difícil o computacionalmente costosa. En esos casos, uno puede arrancar.

Kruggles
fuente