Regresión cuantil: función de pérdida

24

Estoy tratando de entender la regresión cuantil, pero una cosa que me hace sufrir es la elección de la función de pérdida.

ρτ(u)=u(τ1{u<0})

Sé que el mínimo de la expectativa de es igual al -quantile, pero ¿cuál es la razón intuitiva para comenzar con esta función? No veo la relación entre minimizar esta función y el cuantil. ¿Alguien me lo puede explicar?τ %ρτ(yu)τ%

CDO
fuente

Respuestas:

28

Entiendo esta pregunta como pedir una idea de cómo se podría llegar a una función de pérdida que produzca un cuantil dado como un minimizador de pérdidas, sin importar cuál sea la distribución subyacente. No sería satisfactorio, entonces, simplemente repetir el análisis en Wikipedia o en otro lugar que muestre que esta función de pérdida en particular funciona.

Comencemos con algo familiar y simple.

Lo que estamos hablando es la búsqueda de una "localización" respecto a una distribución o conjunto de datos . Es bien sabido, por ejemplo, que la media minimiza el residual al cuadrado esperado; es decir, es un valor para el cual F ˉ xXFX¯

LF(X¯)=R(X-X¯)2reF(X)

Es lo más pequeño posible. He usado esta notación para recordarnos que se deriva de una pérdida , que está determinada por , pero lo más importante depende del número .Lˉ xFX¯

La forma estándar de mostrar que minimiza cualquier función comienza demostrando que el valor de la función no disminuye cuando cambia un poco. Tal valor se llama un punto crítico de la función. x XX

¿Qué tipo de función de pérdida daría como resultado un punto crítico ? La pérdida por ese valor seríaF - 1 ( α )ΛF-1(α)

LF(F-1(α))=RΛ(X-F-1(α))reF(X)=0 01Λ(F-1(tu)-F-1(α))retu.

Para que este sea un punto crítico, su derivada debe ser cero. Como solo estamos tratando de encontrar alguna solución, no haremos una pausa para ver si las manipulaciones son legítimas: planearemos verificar los detalles técnicos (como si realmente podemos diferenciar , etc. ) al final. AsíΛ

(1)0 0=LF(X)=LF(F-1(α))=-0 01Λ(F-1(tu)-F-1(α))retu=-0 0αΛ(F-1(tu)-F-1(α))retu-α1Λ(F-1(tu)-F-1(α))retu.

En el lado izquierdo, el argumento de es negativo, mientras que en el lado derecho es positivo. Aparte de eso, tenemos poco control sobre los valores de estas integrales porque podría ser cualquier función de distribución. En consecuencia, nuestra única esperanza es hacer que dependa solo del signo de su argumento, y de lo contrario debe ser constante.F Λ ΛFΛ

Esto implica que será lineal por partes, potencialmente con diferentes pendientes a la izquierda y derecha de cero. Claramente, debería estar disminuyendo a medida que se acerca a cero; después de todo, es una pérdida y no una ganancia . Además, reescalar por una constante no cambiará sus propiedades, por lo que podemos sentirnos libres de establecer la pendiente de la izquierda a . Sea la pendiente de la derecha. Entonces simplifica aΛ - 1 τ > 0 ( 1 )ΛΛ-1τ>0 0(1)

0=ατ(1α),

de donde es la solución única , hasta un múltiplo positivo,

Λ(x)={x, x0α1αx, x0.

Multiplicar esta solución (natural) por , para borrar el denominador, produce la función de pérdida presentada en la pregunta.1α

Claramente, todas nuestras manipulaciones son matemáticamente legítimas cuando tiene esta forma. Λ

whuber
fuente
19

La forma en que se expresa esta función de pérdida es agradable y compacta, pero creo que es más fácil de entender reescribiéndola como

ρτ(X-metro)=(X-metro)(τ-1(X-metro<0 0))={τEl |X-metroEl |yoFX-metro0 0(1-τ)El |X-metroEl |yoFX-metro<0 0)

Si desea tener una idea intuitiva de por qué minimizar esta función de pérdida produce el th cuantil, es útil considerar un ejemplo simple. Sea una variable aleatoria uniforme entre 0 y 1. Elija también un valor concreto para , digamos, .τXτ0.25

Entonces, la pregunta es ¿por qué esta función de pérdida se minimizaría en ? Obviamente, hay una masa tres veces mayor en la distribución uniforme a la derecha de que a la izquierda. Y la función de pérdida pondera los valores mayores que este número en solo un tercio del peso dado a valores menores que él. Por lo tanto, es algo intuitivo que las escalas estén equilibradas cuando el th cuantil se usa como punto de inflexión para la función de pérdida.metro=0.25metroτ

jjet
fuente
1
¿No debería ser a la inversa? ¿Sub-adivinar costará tres veces más?
Edi Bice
Gracias por atrapar eso. La fórmula es correcta pero inicialmente la redacté incorrectamente en mi explicación.
jjet