Descargo de responsabilidad: ¡Ciertamente está lejos de ser una respuesta completa a la pregunta!
Creo que hay al menos dos niveles a considerar antes de establecer una distinción entre todos estos métodos:
- si se ajusta o no un solo modelo : esto ayuda a métodos opuestos como la regresión logística frente a RF o el refuerzo de gradiente (o, en general, los métodos Ensemble ), y también pone énfasis en la estimación de parámetros (con intervalos de confianza asintóticos o de arranque asociados) versus clasificación o cálculo de precisión de predicción;
- si se consideran o no todas las variables : esta es la base de la selección de características, en el sentido de que la penalización o regularización permite hacer frente a conjuntos de datos "irregulares" (por ejemplo, grande y / o pequeña ) y mejorar la generalización de los resultados.pn
Aquí hay algunos otros puntos que creo que son relevantes para la pregunta.
En el caso de que consideremos varios modelos (el mismo modelo se ajusta en diferentes subconjuntos (individuos y / o variables) de los datos disponibles, o se ajustan diferentes modelos competitivos en el mismo conjunto de datos), se puede usar la validación cruzada para evitar sobreajustar y realizar la selección de modelos o características, aunque el CV no se limita a estos casos particulares (se puede usar con GAM o GLM penalizados, por ejemplo). Además, está el problema de la interpretación tradicional: los modelos más complejos a menudo implican una interpretación más compleja (más parámetros, supuestos más estrictos, etc.).
El refuerzo de gradiente y los RF superan las limitaciones de un solo árbol de decisión, gracias a Boosting, cuya idea principal es combinar la salida de varios algoritmos de aprendizaje débiles para construir una regla de decisión más precisa y estable, y Bagging donde "promediamos" los resultados. conjuntos de datos remuestreados. En conjunto, a menudo se los ve como una especie de recuadros negros en comparación con modelos más "clásicos" donde se proporcionan especificaciones claras para el modelo (puedo pensar en tres clases de modelos: paramétricos , semiparamétricos , no paramétricos ), pero Creo que la discusión mantenida bajo este otro hilo Las dos culturas: ¿estadísticas vs. aprendizaje automático? Proporcionar puntos de vista interesantes.
Aquí hay un par de artículos sobre la selección de características y algunas técnicas de ML:
- Saeys, Y, Inza, I y Larrañaga, P. Una revisión de las técnicas de selección de características en bioinformática , Bioinformática (2007) 23 (19): 2507-2517.
- Dougherty, ER, Hua J y Sima, C. Rendimiento de los métodos de selección de características , Current Genomics (2009) 10 (6): 365–374.
- Boulesteix, AL y Strobl, C. Selección óptima del clasificador y sesgo negativo en la estimación de la tasa de error: un estudio empírico sobre predicción de alta dimensión , BMC Medical Research Methodology (2009) 9:85.
- Caruana, R y Niculescu-Mizil, A. Una comparación empírica de algoritmos de aprendizaje supervisados . Actas de la 23ª Conferencia Internacional sobre Machine Learning (2006).
- Friedman, J, Hastie, T y Tibshirani, R. Regresión logística aditiva: una visión estadística del impulso , Ann. Estadístico. (2000) 28 (2): 337-407. (Con discusión)
- Olden, JD, Lawler, JJ y Poff, NL. Métodos de aprendizaje automático sin lágrimas: un manual para ecologistas , Q Rev Biol. (2008) 83 (2): 171-93.
Y, por supuesto, The Elements of Statistical Learning , de Hastie y col., Está lleno de ilustraciones y referencias. También asegúrese de consultar los Tutoriales de minería de datos estadísticos , de Andrew Moore.