Predicción de datos de conteo con bosque aleatorio

12

¿Se puede entrenar un bosque aleatorio para predecir adecuadamente los datos de conteo? ¿Cómo procedería esto? Tengo una amplia gama de valores, por lo que la clasificación realmente no tiene sentido. Si usara la regresión, ¿simplemente truncaría los resultados? Estoy bastante perdido aquí. ¿Algunas ideas?

JEquihua
fuente
1
¿No puedes usar la regresión de Poisson?
RJ-
Quería usar algo no paramétrico. Realmente no recuerdo los supuestos de regresiones de Poisson, pero estoy bastante seguro de que uno de ellos es que las observaciones son independientes y eso no se cumple aquí. ¿Podría esto afectarme mucho?
JEquihua
2
¿Simplemente ha intentado hacer una regresión de RF (posiblemente también en el registro)? Puede que funcione lo suficientemente bien.
1
No tengo. Pero ese fue mi primer instinto. Log o transformación de raíz cuadrada. Pero quería ver si alguien tenía alguna experiencia en esto.
JEquihua
Intenté simplemente hacer una regresión en la respuesta, el log (respuesta) y sqrt (respuesta) y no obtuve nada bueno. Creo que el problema es más que mis variables independientes explican la respuesta. Oh bien.
JEquihua

Respuestas:

8

Hay un paquete R llamado mobForestque puede adaptarse a un bosque aleatorio real para los datos de conteo. Se basa en mod()(partición recursiva basada en modelos) en el partypaquete. Realiza la regresión de Poisson si el familyargumento se especifica como poisson(). El paquete ya no está en el repositorio de CRAN, pero las versiones disponibles anteriormente se pueden obtener del archivo.

Si no está restringido a bosque / embolsado aleatorio, también está disponible una versión de refuerzo para los datos de conteo. Es decir, gbm(modelos de regresión potenciados generalizados). También puede adaptarse a un modelo de Poisson.

Randel
fuente
5

Veo algunas posibilidades.

  • Puede agrupar la respuesta en algunas categorías arbitrarias y usar un árbol de clasificación
  • Si los recuentos son típicamente muy bajos, 0, 0, 0, 1, 0, 3, 0, 2, podría tratar cada recuento de enteros como una clase y nuevamente usar un árbol de clasificación (probablemente no sea su caso). En estos casos, será más difícil obtener una métrica de tipo explicada de alta varianza en lugar de una regresión continua.
  • Si los recuentos no suelen ser bajos y hay mucha variación, lo haría con un árbol de regresión. El uso de la regresión de Poisson sobre la regresión lineal, por ejemplo, solo es gravy cuando se trata de obtener un buen predictor lineal. Si no está viendo un buen poder predictivo con el bosque aleatorio, entonces dudo que un modelo más elegante que se adapte específicamente a los datos de recuento vaya a hacer mucho por usted.
Ben Ogorek
fuente