Intervalo de confianza para el pronóstico xgb

8

expertos! Tal vez, ¿sabes cómo calcular el intervalo de confianza para xgboost? La fórmula clásica con distribución t no puede ayudar, porque mis datos no se distribuyen normalmente. O no importa?

Si sugiere algo de literatura, será muy útil, pero los enfoques en R y Python (en el contexto de la biblioteca xgb) también son buenos.

Tal vez, parece que esta , sino cómo se calculan? Y encontré esto , ¿es correcto o no?

PD: No puedo agregar algunas imágenes relacionadas con mis datos (límite de enlaces), lo siento.

Lu Wao
fuente
¿Es este un problema de clasificación? Cuando dice que los datos no son normales, ¿quiere decir normal multivariante?
Michael R. Chernick
@MichaelChernick No, problema de regresión. Creo que los datos pueden denominarse multivariados normales, porque tengo información sobre diferentes ciudades y sus subsidiarias. Por lo tanto, mi intervalo de confianza se relacionó con la distribución de cada ciudad.
Lu Wao
El problema no se establece claramente. No hay forma de decir que esto fue un problema de regresión. Me dio la impresión de que era una clasificación basada en mirar sus enlaces. Si se trata de regresión, ¿hay solo una variable predictiva y una variable dependiente? Si ese es el caso, ¿está utilizando la distribución t para los parámetros de regresión de los que está hablando? También podría ser para un valor ajustado particular de y (variable dependiente) dada x (variable predictora) o un intervalo de predicción para un nuevo valor de y.
Michael R. Chernick el
@MichaelChernick En el modelo una var dependiente y más de 30 vars independientes. Sí, xgb funciona en árboles (que inicialmente resuelven el problema de clasificación), pero lo usé para la regresión.
Lu Wao
1
@ ab90hi Pero gracias por tu respuesta, ahora sé que automáticamente R calcula el intervalo incorrecto :)
Lu Wao

Respuestas:

4

Entonces, esta es la respuesta! ( espejo )

Para construir límites de confianza para datos distribuidos anormalmente, primero necesita construir una regresión cuantil, en lugar de una regresión lineal, como lo hace por defecto. Para esto es necesario, utilizando los derivados derivados del artículo o simplemente copiando el código en el pitón, para personalizar la variable 'objetivo'. También es necesario cambiar la función de gradiente y la función gaussiana. Después de que todo esté programado, cree una regresión cuantil para el quincuagésimo cuantil (esta será la regresión inicial), y luego dos regresiones cuantil para los dos límites del intervalo (por ejemplo, 95 y 5). Como resultado, obtiene no solo un modelo más preciso para la regresión inicial, sino también los intervalos deseados.

Lu Wao
fuente
44
Estamos tratando de construir un repositorio permanente de información estadística de alta calidad en forma de preguntas y respuestas. Por lo tanto, desconfiamos de las respuestas de solo enlace, debido a linkrot. ¿Puede publicar una cita completa y un resumen de la información en el enlace, en caso de que falle?
TEG