Estoy usando el algoritmo de bosque aleatorio como un clasificador robusto de dos grupos en un estudio de microarrays con miles de características.
- ¿Cuál es la mejor manera de presentar el bosque aleatorio para que haya suficiente información para que sea reproducible en un documento?
- ¿Existe un método de trazado en R para trazar realmente el árbol, si hay una pequeña cantidad de características?
- ¿Es la estimación OOB de la tasa de error la mejor estadística para citar?
r
machine-learning
classification
random-forest
microarray
danielsbrewer
fuente
fuente
Respuestas:
Con respecto a hacerlo reproducible, la mejor manera es proporcionar una investigación reproducible (es decir, código y datos) junto con el documento. Póngalo a disposición en su sitio web o en un sitio de alojamiento (como github).
Con respecto a la visualización, Leo Breiman ha hecho un trabajo interesante al respecto (consulte su página de inicio , en particular la sección de gráficos ).
Pero si está utilizando R, entonces el
randomForest
paquete tiene algunas funciones útiles:Y
No conozco una forma simple de trazar un árbol, pero puede usar la
getTree
función para recuperar el árbol y trazarlo por separado.La presentación de Strobl / Zeileis sobre "Por qué y cómo usar medidas aleatorias de importancia variable del bosque (y cómo no debería)" tiene ejemplos de árboles que deben haberse producido de esta manera. Esta publicación de blog sobre modelos de árbol tiene algunos buenos ejemplos de diagramas de árbol CART que puede usar, por ejemplo.
Como comentó @chl, un solo árbol no es especialmente significativo en este contexto, por lo que, a menos que lo use para explicar qué es un bosque aleatorio, no lo incluiría en un documento.
fuente
plot.randomForest
muestra cómo el error OOB y el error OOB en clase evolucionaron con un número creciente de árboles;varImpPlot
muestra las medidas de importancia de los atributos principales yMDSplot
todos los objetos trazados en la proyección 2D de la medida de proximidad de objetos RF.MDSplot()
función. Debo admitir que a menudo uso RF como una forma de resaltar grupos de individuos (en función de la medida de proximidad de RF) en lugar de seleccionar las mejores características. Los médicos a menudo leen mucho más fácilmente tales diagramas que el diagrama de puntos de la var. importancia ...fuente
Tenga en cuenta las advertencias en las otras respuestas sobre que la trama necesariamente tiene sentido. Pero si desea una trama con fines ilustrativos / pedagógicos, el siguiente fragmento de R podría ser útil. No es difícil agregar "punto de división" al texto del borde si lo necesita.
fuente