Mis preguntas son sobre bosques al azar. El concepto de este hermoso clasificador es claro para mí, pero aún hay muchas preguntas prácticas de uso. Desafortunadamente, no pude encontrar ninguna guía práctica para RF (¡He estado buscando algo como "Una guía práctica para entrenar máquinas de Boltzman restringidas" por Geoffrey Hinton, pero para bosques aleatorios!
¿Cómo se puede sintonizar RF en la práctica?
¿Es cierto que un mayor número de árboles siempre es mejor? ¿Existe un límite razonable (excepto la capacidad de comp., Por supuesto) para aumentar el número de árboles y cómo estimarlo para un conjunto de datos dado?
¿Qué pasa con la profundidad de los árboles? ¿Cómo elegir el razonable? ¿Tiene sentido experimentar con árboles de diferente longitud en un bosque y cuál es la guía para eso?
¿Hay otros parámetros que valga la pena observar al entrenar RF? Algos para la construcción de árboles individuales pueden ser?
Cuando dicen que los RF son resistentes al sobreajuste, ¿qué tan cierto es eso?
Agradecería cualquier respuesta y / o enlace a guías o artículos que podría haber perdido durante mi búsqueda.
fuente
Respuestas:
No soy una figura autorizada, así que considera estas breves notas para profesionales:
Más árboles siempre es mejor con rendimientos decrecientes. Los árboles más profundos casi siempre están mejor sujetos a requerir más árboles para un rendimiento similar.
Los dos puntos anteriores son directamente el resultado de la compensación de sesgo-varianza. Los árboles más profundos reducen el sesgo; Más árboles reduce la varianza.
El hiperparámetro más importante es cuántas funciones probar para cada división. Cuantas más funciones inútiles haya, más funciones deberías probar. Esto necesita sintonizar. Puede ajustarlo mediante estimaciones OOB si solo desea conocer su rendimiento en sus datos de entrenamiento y no hay hermanamiento (~ medidas repetidas). A pesar de que este es el parámetro más importante, su valor óptimo suele estar bastante cerca de los valores predeterminados de sugerencia originales (sqrt (p) o (p / 3) para clasificación / regresión).
Una investigación bastante reciente muestra que ni siquiera necesita hacer búsquedas divididas exhaustivas dentro de una función para obtener un buen rendimiento. Simplemente pruebe algunos puntos de corte para cada característica seleccionada y continúe. Esto hace que el entrenamiento sea aún más rápido. (~ Bosques / árboles extremadamente aleatorios).
fuente
mtry
son mejores, no se necesitan pruebas o pruebas empíricas para ver esto.Número de árboles : cuanto más grande, mejor: sí. Una forma de evaluar y saber cuándo detenerse es monitorear su tasa de error mientras construye su bosque (o cualquier otro criterio de evaluación que pueda usar) y detectar cuándo converge. Puede hacerlo en el propio conjunto de aprendizaje o, si está disponible, en un conjunto de prueba independiente. Además, debe tenerse en cuenta que la cantidad de nodos de prueba en sus árboles está limitada por la cantidad de objetos, por lo que si tiene muchas variables y no tantos objetos de entrenamiento, se recomienda un bosque más grande para aumentar el posibilidades de evaluar todos los descriptores al menos una vez en su bosque.
Profundidad del árbol : hay varias formas de controlar la profundidad de sus árboles (limite la profundidad máxima, limite la cantidad de nodos, limite la cantidad de objetos necesarios para dividir, deje de dividir si la división no mejora lo suficiente el ajuste, ... ) La mayoría de las veces, se recomienda podar (limitar la profundidad de) los árboles si se trata de datos ruidosos. Finalmente, puede usar sus árboles completamente desarrollados para calcular el rendimiento de los árboles más cortos, ya que estos son un "subconjunto" de los árboles completamente desarrollados.
Cuántas características probar en cada nodo : valide de forma cruzada sus experiencias con una amplia gama de valores (incluidos los recomendados), debe obtener una curva de rendimiento y poder identificar un máximo que indique cuál es el mejor valor para este parámetro + Shea Parkes responde.
Shea Parkes mencionó los árboles extra, aquí está el documento original que describe en detalle el método: http://orbi.ulg.ac.be/bitstream/2268/9357/1/geurts-mlj-advance.pdf
fuente