Predicción de datos de conteo con bosque aleatorio

¿Se puede entrenar un bosque aleatorio para predecir adecuadamente los datos de conteo? ¿Cómo procedería esto? Tengo una amplia gama de valores, por lo que la clasificación realmente no tiene sentido. Si usara la regresión, ¿simplemente truncaría los resultados? Estoy bastante perdido aquí. ¿Algunas ideas?

r regression random-forest prediction count-data JEquihua
fuente

¿No puedes usar la regresión de Poisson?

RJ-

Quería usar algo no paramétrico. Realmente no recuerdo los supuestos de regresiones de Poisson, pero estoy bastante seguro de que uno de ellos es que las observaciones son independientes y eso no se cumple aquí. ¿Podría esto afectarme mucho?

JEquihua

¿Simplemente ha intentado hacer una regresión de RF (posiblemente también en el registro)? Puede que funcione lo suficientemente bien.

No tengo. Pero ese fue mi primer instinto. Log o transformación de raíz cuadrada. Pero quería ver si alguien tenía alguna experiencia en esto.

JEquihua

Intenté simplemente hacer una regresión en la respuesta, el log (respuesta) y sqrt (respuesta) y no obtuve nada bueno. Creo que el problema es más que mis variables independientes explican la respuesta. Oh bien.

JEquihua

Respuestas:

Hay un paquete R llamado mobForestque puede adaptarse a un bosque aleatorio real para los datos de conteo. Se basa en mod()(partición recursiva basada en modelos) en el partypaquete. Realiza la regresión de Poisson si el familyargumento se especifica como poisson(). El paquete ya no está en el repositorio de CRAN, pero las versiones disponibles anteriormente se pueden obtener del archivo.

Si no está restringido a bosque / embolsado aleatorio, también está disponible una versión de refuerzo para los datos de conteo. Es decir, gbm(modelos de regresión potenciados generalizados). También puede adaptarse a un modelo de Poisson.

Randel
fuente

Veo algunas posibilidades.

Puede agrupar la respuesta en algunas categorías arbitrarias y usar un árbol de clasificación
Si los recuentos son típicamente muy bajos, 0, 0, 0, 1, 0, 3, 0, 2, podría tratar cada recuento de enteros como una clase y nuevamente usar un árbol de clasificación (probablemente no sea su caso). En estos casos, será más difícil obtener una métrica de tipo explicada de alta varianza en lugar de una regresión continua.
Si los recuentos no suelen ser bajos y hay mucha variación, lo haría con un árbol de regresión. El uso de la regresión de Poisson sobre la regresión lineal, por ejemplo, solo es gravy cuando se trata de obtener un buen predictor lineal. Si no está viendo un buen poder predictivo con el bosque aleatorio, entonces dudo que un modelo más elegante que se adapte específicamente a los datos de recuento vaya a hacer mucho por usted.

Ben Ogorek
fuente

Bueno, no es un bosque aleatorio, pero CatBoost admite una función de pérdida de Poisson que podría usarse para la regresión de conteo con árboles potenciados:

https://tech.yandex.com/catboost/doc/dg/concepts/loss-functions-docpage/

Udi
fuente