Al leer el excelente modelo estadístico: Las dos culturas (Breiman 2001) , podemos aprovechar toda la diferencia entre los modelos estadísticos tradicionales (p. Ej., Regresión lineal) y los algoritmos de aprendizaje automático (p. Ej., Ensacado, bosque aleatorio, árboles potenciados ...).
Breiman critica los modelos de datos (paramétricos) porque se basan en el supuesto de que las observaciones son generadas por un modelo conocido y formal prescrito por el estadístico, que puede emular mal la naturaleza. Por otro lado, los algos de ML no asumen ningún modelo formal y aprenden directamente las asociaciones entre las variables de entrada y salida a partir de los datos.
Me di cuenta de que Bagging / RF y Boosting también son paramétricos: por ejemplo, ntree , mtry en RF, tasa de aprendizaje , fracción de bolsa , complejidad de árboles en árboles Stochastic Gradient Boosted están afinando parámetros de . También estamos estimando estos parámetros a partir de los datos, ya que estamos utilizando los datos para encontrar valores óptimos de estos parámetros.
Entonces, ¿cuál es la diferencia? ¿Son los modelos paramétricos RF y Boosted Trees?
Creo que el criterio para paramétrico y no paramétrico es este: si el número de parámetros crece con el número de muestras de entrenamiento. Para la regresión logística y svm, cuando selecciona las características, no obtendrá más parámetros al agregar más datos de entrenamiento. Pero para RF, etc., los detalles del modelo cambiarán (como la profundidad del árbol) aunque la cantidad de árboles no cambie.
fuente
tree.complexity
parámetro, solo cambia su valor. Además, en RF y Boosting, el número de árboles en el bosque / secuencia cambia según el tamaño de la muestraEn sentido estadístico, el modelo es paramétrico, si los parámetros se aprenden o se infieren en función de los datos. Un árbol en este sentido no es paramétrico. Por supuesto, la profundidad del árbol es un parámetro del algoritmo, pero no se deriva inherentemente de los datos, sino que es un parámetro de entrada que debe proporcionar el usuario.
fuente