Tengo un conjunto de datos que comprende 24 filas de datos mensuales. Las características son PIB, llegadas al aeropuerto, mes y algunos otros. La variable dependiente es el número de visitantes a un destino turístico popular. ¿Random Forest sería adecuado para tal problema?
Los datos no son públicos, por lo que no puedo publicar una muestra.
random-forest
small-sample
hughesdan
fuente
fuente
Respuestas:
El bosque aleatorio es básicamente árboles de decisión de muestreo y entrenamiento de arranque en las muestras, por lo que la respuesta a su pregunta debe abordar esos dos.
El muestreo de Bootstrap no es una cura para muestras pequeñas . Si tiene solo veinticuatro observaciones en su conjunto de datos, entonces cada una de las muestras tomadas con reemplazo de estos datos consistirá en no más de los veinticuatro valores distintos. Mezclar los casos y no dibujar algunos de ellos no cambiaría mucho su capacidad de aprender algo nuevo sobre la distribución subyacente. Por lo tanto, una pequeña muestra es un problema para bootstrap.
Los árboles de decisión se entrenan dividiendo los datos condicionalmente en las variables predictoras, una variable a la vez, para encontrar submuestras que tengan el mayor poder discriminatorio. Si solo tiene veinticuatro casos, entonces diga que si tuvo suerte y todas las divisiones eran de tamaño uniforme, entonces con dos divisiones terminaría con cuatro grupos de seis casos, con divisiones de árboles, con ocho grupos de tres. Si calculó medias condicionales en las muestras (para predecir valores continuos en árboles de regresión o probabilidades condicionales en árboles de decisión), ¡basaría su conclusión solo en esos pocos casos! Por lo tanto, las submuestras que usaría para tomar las decisiones serían incluso más pequeñas que sus datos originales.
Con muestras pequeñas, generalmente es aconsejable utilizar métodos simples . Además, puede ponerse al día con la pequeña muestra utilizando antecedentes informativos en el entorno bayesiano (si tiene algún conocimiento razonable sobre el problema), por lo que podría considerar utilizar un modelo bayesiano a medida.
fuente
Por un lado, este es un pequeño conjunto de datos, y el bosque aleatorio está hambriento de datos.
Por otro lado, tal vez algo es mejor que nada. No hay nada más que decir que "Pruébelo y vea". Puedes decidir si un modelo en particular es o no "bueno"; Además, no podemos decirle si algún modelo es apto para un propósito en particular (ni querría que lo hagamos, ¡no hay costo para nosotros si nos equivocamos!).
fuente