Uso de herramientas estándar de aprendizaje automático en datos censurados a la izquierda

Estoy desarrollando una aplicación de pronóstico cuyo propósito es permitir que un importador pronostique la demanda de sus productos de su red de distribuidores de clientes. Las cifras de ventas son un buen proxy de la demanda, siempre que haya un inventario adecuado para satisfacer la demanda. Sin embargo, cuando el inventario se reduce a cero (la situación que estamos buscando para ayudar a nuestros clientes a evitar), no sabemos mucho por lo que hemos perdido el objetivo. ¿Cuántas ventas habría realizado el cliente si hubiera tenido un suministro suficiente? Los enfoques de LD basados en la regresión estándar que usan ventas como una variable objetivo simple producirán estimaciones inconsistentes de la relación entre el tiempo, mis variables descriptivas y la demanda.

El modelado de Tobit es la forma más obvia de abordar el problema: http://en.wikipedia.org/wiki/Tobit_model . Me pregunto acerca de las adaptaciones de ML de bosques aleatorios, GBMS, SVM y redes neuronales que también representan una estructura censurada de datos zurda.

En resumen, ¿cómo aplico las herramientas de aprendizaje automático a los datos de regresión censurados a la izquierda para obtener estimaciones consistentes de las relaciones entre mis variables dependientes e independientes? La primera preferencia sería para las soluciones disponibles en R, seguido de Python.

Salud,

Aaron

r regression machine-learning censoring Aaron
fuente

Me encantaría ver una respuesta wrt scikit-learn.

tobip

En R puede usar cran.r-project.org/web/packages/censReg/censReg.pdf . Yo segundo @tobip sobre scikit-learn en Python

Adrian

Respuestas:

En resumen, ¿cómo aplico las herramientas de aprendizaje automático a los datos de regresión censurados a la izquierda para obtener estimaciones consistentes de las relaciones entre mis variables dependientes e independientes?

Si puede escribir una probabilidad y cambiar el signo a menos, entonces tiene una función de pérdida que puede usarse para muchos modelos de aprendizaje automático. En el aumento de gradiente, esto se conoce comúnmente como aumento de modelo . Véase, por ejemplo, Algoritmos de refuerzo: regularización, predicción y ajuste del modelo .

Como ejemplo con el modelo Tobit, vea Modelos Tobit impulsados por el árbol de degradado para el papel de predicción predeterminado . El método debe estar disponible con la rama scikit-learn mencionada en el documento.

La misma idea se usa para datos censurados correctos en, por ejemplo, los paquetes gbmy mboosten R para datos censurados correctos.

$L2$

Benjamin Christoffersen
fuente