Estoy usando el paquete randomForest en R para desarrollar un modelo de bosque aleatorio para tratar de explicar un resultado continuo en un conjunto de datos "amplio" con más predictores que muestras.
Específicamente, estoy ajustando un modelo de RF que permite que el procedimiento seleccione de un conjunto de ~ 75 variables predictoras que considero importantes.
Estoy probando qué tan bien ese modelo predice el resultado real para un conjunto de pruebas reservado, usando el enfoque publicado aquí anteriormente , a saber,
... o en R:
1 - sum((y-predicted)^2)/sum((y-mean(y))^2)
Pero ahora tengo ~ 25 variables predictoras adicionales que puedo agregar. Cuando se usa el conjunto de ~ 100 predictores, el R² es más alto. Quiero probar esto estadísticamente, en otras palabras, cuando se usa el conjunto de ~ 100 predictores, ¿el modelo prueba significativamente mejor en los datos de prueba que el ajuste del modelo usando ~ 75 predictores? Es decir, es el R² de probar el ajuste del modelo de RF en el conjunto de datos completo significativamente más alto que el R² de probar el modelo de RF en el conjunto de datos reducido.
Esto es importante para mí, ya que estos son datos piloto, y obtener esos 25 predictores adicionales fue costoso, y necesito saber si debo pagar para medir esos predictores en un estudio de seguimiento más amplio.
Estoy tratando de pensar en algún tipo de enfoque de remuestreo / permutación, pero no se me ocurre nada.
fuente
La opción secundaria es usar toda la selección de características relevantes, lo que le indicaría qué atributos tienen una posibilidad de ser significativamente útiles para la clasificación, por lo tanto, esos atributos caros valen su precio. Se puede hacer, por ejemplo, con un contenedor RF, Boruta .
fuente
Es posible que desee pensar en términos de significación práctica en lugar de significación estadística (o ambas). Con suficientes datos puede encontrar cosas significativas estadísticamente que no tendrán un impacto real en su uso. Recuerdo haber analizado un modelo una vez donde las interacciones de 5 vías fueron estadísticamente significativas, pero cuando las predicciones del modelo que incluían todo hasta las interacciones de 5 vías se compararon con las predicciones de un modelo que incluía solo interacciones de 2 vías y efectos principales. , la mayor diferencia fue inferior a 1 persona (la respuesta fue el número de personas y todos los valores interesantes estaban lejos de 0). Entonces la complejidad añadida no valió la pena. Observe las diferencias en sus predicciones para ver si las diferencias son suficientes para justificar el costo adicional, si no, ¿por qué molestarse incluso en buscar la significación estadística? Si las diferencias son lo suficientemente grandes como para justificar el costo si son reales, entonces secundo las otras sugerencias de usar la validación cruzada.
fuente
El método también se puede extender para que funcione dentro de la validación cruzada (no solo para dividir muestras como se muestra arriba).
fuente
Como ya está usando
randomForest
después de la validación cruzada, puede emitir el cálculo del ajuste elegido de los valores de importancia del predictor.fuente
Veo que esta pregunta se hizo hace mucho tiempo; sin embargo, ninguna respuesta señala las deficiencias y malentendidos significativos en la pregunta todavía.
Tenga en cuenta:
Usted declara que R ^ 2 = ESS / TSS = 1 - RSS / TSS. Esto solo es cierto en un contexto lineal. La igualdad TSS = RSS + ESS es válida solo en regresión lineal con intercepción. Por lo tanto, no puede usar esas definiciones para bosques aleatorios indistintamente. Es por eso que RMSE y similares son funciones de pérdida más típicas.
Más importante para fines estadísticos: R ^ 2 sigue una distribución desconocida (también en la configuración lineal). Eso significa que probar una hipótesis con significación estadística usando R ^ 2 no es tan sencillo. La validación cruzada, como mencionó Zach , es una buena opción.
En cuanto a la respuesta del usuario88 : la validación cruzada con la prueba de Wilcoxon es un enfoque válido. Un artículo reciente utiliza la prueba de rangos firmados de Wilcoxon y las pruebas de Friedman para comparar diferentes métodos y algoritmos.
fuente