¿Límites a los métodos de conjunto basados ​​en árboles en pequeños n, grandes p problemas?

10

Los métodos de conjunto basados ​​en árboles como el Bosque aleatorio y las derivadas posteriores (por ejemplo, bosque condicional), todos pretenden ser útiles en los llamados problemas " n pequeña , p grande ", para identificar la importancia variable relativa. De hecho, este parece ser el caso, pero mi pregunta es ¿hasta dónde puede llevarse esta habilidad? ¿Se pueden tener, por ejemplo, 30 observaciones y 100 variables? ¿Cuál es el punto de ruptura de este enfoque? ¿Existen reglas generales decentes que existan? Prefiero y aceptaré respuestas respaldadas por enlaces a evidencia real (no conjetura), utilizando conjuntos de datos simulados o reales. No he encontrado mucho en este último ( aquí y aquí), por lo que sus ideas / consejos / (sobre el tema) sugerencias de referencia son bienvenidas.

Profeta 60091
fuente

Respuestas:

3

Sospecho que no habrá una respuesta definitiva a esta pregunta hasta que se realicen algunos estudios de simulación. Mientras tanto, encontré los bosques aleatorios de Genuer et al . : algunas ideas metodológicas ayudaron a poner cierta perspectiva sobre esta cuestión, al menos en términos de probar RF contra una variedad de conjuntos de datos "bajo n, alto p". ¡Varios de estos conjuntos de datos tienen> 5000 predictores y <100 observaciones!

Profeta 60091
fuente
3

El modo de falla que encontrará es que, con suficientes características aleatorias, existirán características que se relacionan con el objetivo dentro de las muestras en bolsas utilizadas para cada árbol pero no dentro del conjunto de datos más grande. Un problema similar al que se ve en las pruebas múltiples.

Las reglas generales para esto son difíciles de desarrollar ya que el punto exacto en el que esto sucede depende de la cantidad de ruido y la intensidad de la señal en los datos. También existen métodos que abordan esto mediante el uso de múltiples valores p corregidos de prueba como criterio de división, haciendo un paso de selección de características basado en la importancia variable y / o la comparación de las características de las características con las características de contraste artificial producidas al permutar aleatoriamente la característica real, el uso de out de bolsas para validar la selección dividida y otros métodos. Estos pueden ser extremadamente efectivos.

He usado bosques aleatorios (incluidos algunos de los ajustes metodológicos anteriores) en conjuntos de datos con ~ 1000 casos y 30,000-1,000,000 características. (Conjuntos de datos en genética humana con un nivel variable de selección de características o ingeniería). Ciertamente, pueden ser efectivos para recuperar una señal fuerte (o efecto por lotes) en dichos datos, pero no funcionan bien juntando algo como una enfermedad con causas heterogéneas, ya que la cantidad de variación aleatoria supera cada señal

Ryan Bressler
fuente
0

También dependerá de la señal y el ruido en sus datos. Si su variable dependiente se explica bastante bien por una combinación de las variables en su modelo, creo que puede salirse con una relación n / p más baja.

Sospecho que también se requerirá un número mínimo absoluto de n para obtener un modelo decente aparte de solo la relación.

Una forma de verlo es que cada árbol se construye utilizando variables SQRT (p) y si ese número es grande y el número de puntos son árboles pequeños se pueden ajustar sin tener realmente un modelo real allí. Por lo tanto, muchos de estos árboles sobreajustados darán una importancia variable falsa.

Por lo general, si en el gráfico de importancia variable, veo muchas variables principales con casi el mismo nivel de importancia, concluyo que me está dando solo ruido.

DeepakML
fuente
¿De dónde viene el SQRT (p)?
LauriK
En RandomForest cada árbol se construye usando una muestra de las variables. Por defecto (al menos en el paquete R randomForest) el valor que toma es el número más cercano menor o igual que SQRT (p) donde p es el número de columnas.
DeepakML