¿El bosque aleatorio y el refuerzo son paramétricos o no paramétricos?

13

Al leer el excelente modelo estadístico: Las dos culturas (Breiman 2001) , podemos aprovechar toda la diferencia entre los modelos estadísticos tradicionales (p. Ej., Regresión lineal) y los algoritmos de aprendizaje automático (p. Ej., Ensacado, bosque aleatorio, árboles potenciados ...).

Breiman critica los modelos de datos (paramétricos) porque se basan en el supuesto de que las observaciones son generadas por un modelo conocido y formal prescrito por el estadístico, que puede emular mal la naturaleza. Por otro lado, los algos de ML no asumen ningún modelo formal y aprenden directamente las asociaciones entre las variables de entrada y salida a partir de los datos.

Me di cuenta de que Bagging / RF y Boosting también son paramétricos: por ejemplo, ntree , mtry en RF, tasa de aprendizaje , fracción de bolsa , complejidad de árboles en árboles Stochastic Gradient Boosted están afinando parámetros de . También estamos estimando estos parámetros a partir de los datos, ya que estamos utilizando los datos para encontrar valores óptimos de estos parámetros.

Entonces, ¿cuál es la diferencia? ¿Son los modelos paramétricos RF y Boosted Trees?

Antoine
fuente

Respuestas:

12

Los modelos paramétricos tienen parámetros (inferirlos) o suposiciones con respecto a la distribución de datos, mientras que RF, redes neuronales o árboles de refuerzo tienen parámetros relacionados con el algoritmo en sí, pero no necesitan suposiciones sobre su distribución de datos o clasificar sus datos en una distribución teórica . De hecho, casi todos los algoritmos tienen parámetros como iteraciones o valores de margen relacionados con la optimización.

D.Castro
fuente
55
Entonces, para resumir: 1) los parámetros de los modelos ML y paramétricos se ajustan / estiman con base en los datos, PERO 2) en ML, los parámetros controlan cómo los algoritmos aprenden de los datos (sin hacer ninguna suposición sobre los datos, y corriente abajo) la generación de datos), mientras que los parámetros de los modelos paramétricos (modelos que se suponen a priori) controlan el mecanismo que se supone que produjo los datos (con una gran cantidad de supuestos poco realistas que rara vez se cumplen en la práctica). ¿Crees que este es un resumen adecuado? ¿Agregarías / cambiarías algo?
Antoine
44
Creo que una oración del artículo de Breiman que resume todo es "el modelado algorítmico cambia el enfoque de los modelos de datos a las propiedades de los algoritmos".
Antoine
1
Puede resumirlo así, pero ... no subestime los modelos paramétricos. Hay situaciones en las que son necesarios y óptimos para resolver muchos problemas. Además, sus suposiciones no son tan poco realistas. Muchas distribuciones teóricas son válidas para explicar muchas cosas, desde normal a binomial a lognormal, geométrica, etc. No se trata de una u otra, se trata de elegir la forma correcta de resolver un problema.
D.Castro
44
Estoy de acuerdo. Cuando el proceso físico subyacente es bien conocido, los modelos paramétricos son apropiados. Breiman critica el uso de modelos paramétricos para el descubrimiento y la predicción del conocimiento cuando se desconocen los procesos subyacentes
Antoine
1

Creo que el criterio para paramétrico y no paramétrico es este: si el número de parámetros crece con el número de muestras de entrenamiento. Para la regresión logística y svm, cuando selecciona las características, no obtendrá más parámetros al agregar más datos de entrenamiento. Pero para RF, etc., los detalles del modelo cambiarán (como la profundidad del árbol) aunque la cantidad de árboles no cambie.

Yu Zhang
fuente
pero en RF o Boosting, aumentar la profundidad del árbol no agrega parámetros. Todavía tiene su tree.complexityparámetro, solo cambia su valor. Además, en RF y Boosting, el número de árboles en el bosque / secuencia cambia según el tamaño de la muestra
Antoine
en mis opciones, cuando cambia la profundidad del árbol, hay algunas divisiones más en el árbol, por lo que tiene más parámetros. Cuando el número de árbol cambia en RF y Boosting a medida que cambian los datos, pero esto no sucederá cuando el modelo sea lineal.
Yu Zhang el
1

En sentido estadístico, el modelo es paramétrico, si los parámetros se aprenden o se infieren en función de los datos. Un árbol en este sentido no es paramétrico. Por supuesto, la profundidad del árbol es un parámetro del algoritmo, pero no se deriva inherentemente de los datos, sino que es un parámetro de entrada que debe proporcionar el usuario.

PeterPancake
fuente
Entonces, digamos que tiene que presentar OLS y modelos basados ​​en árboles a una audiencia no técnica, ¿podría decir que los primeros son paramétricos mientras que los últimos no son paramétricos?
Tanguy