¿Es esta la metodología de regresión más moderna?

33

He estado siguiendo competiciones de Kaggle durante mucho tiempo y me doy cuenta de que muchas estrategias ganadoras implican utilizar al menos uno de los "tres grandes": embolsar, impulsar y apilar.

Para las regresiones, en lugar de centrarse en la construcción de un mejor modelo de regresión posible, la construcción de modelos de regresión múltiple como la regresión lineal (generalizada), bosque aleatorio, KNN, NN y modelos de regresión SVM y mezclar los resultados en uno de una manera razonable parece ser -Realice cada método individual muchas veces.

Por supuesto, una comprensión sólida de cada método es la clave y se puede contar una historia intuitiva basada en un modelo de regresión lineal, pero me pregunto si se ha convertido en la metodología más avanzada para lograr los mejores resultados posibles.

Maxareo
fuente
En algunos casos, Neural Network define bien la forma "clásica" de hacer regresión. Por ejemplo, en Cuánto llovió II . Pero definitivamente es una caja negra.
YCR
@YCR Estoy de acuerdo en que es una caja negra. Mientras trabajaba, construí un modelo de aprendizaje automático increíble e intenté explicar a las personas de negocios o alguien que no está familiarizado con el modelo, la conversación generalmente termina siendo así: construí un modelo de aprendizaje automático increíble, funciona como magia, pero No puedo contarte una historia interesante.
Maxareo

Respuestas:

41

Es bien sabido, al menos desde finales de 1960 ', que si toma varios pronósticos y los promedia , entonces el pronóstico agregado resultante en muchos casos superará a los pronósticos individuales. El embolsado, el refuerzo y el apilamiento se basan exactamente en esta idea. Entonces, sí, si su objetivo es puramente predicción, en la mayoría de los casos esto es lo mejor que puede hacer. Lo problemático de este método es que es un enfoque de recuadro negro que devuelve el resultado pero no lo ayuda a comprenderlo e interpretarlo. Obviamente, también es más computacionalmente intensivo que cualquier otro método, ya que debe calcular pocos pronósticos en lugar de uno solo.

† Esto se refiere a cualquier predicción en general, pero a menudo se describe en la literatura de pronósticos.


Winkler, RL. y Makridakis, S. (1983). La combinación de pronósticos. JR Statis. Soc. A. 146 (2), 150-157.

Makridakis, S. y Winkler, RL (1983). Promedios de pronósticos: algunos resultados empíricos. Management Science, 29 (9) 987-996.

Clemen, RT (1989). Combinando pronósticos: una revisión y bibliografía comentada. Revista Internacional de Pronósticos, 5, 559-583.

Bates, JM y Granger, CW (1969). La combinación de pronósticos. O, 451-468.

Makridakis, S. y Hibon, M. (2000). La competencia M3: resultados, conclusiones e implicaciones. Revista internacional de pronósticos, 16 (4), 451-476.

Reid, DJ (1968). Combinando tres estimaciones del producto interno bruto. Economica, 431-444.

Makridakis, S., Spiliotis, E. y Assimakopoulos, V. (2018). La competencia M4: resultados, resultados, conclusión y camino a seguir. Revista Internacional de Pronósticos.

Tim
fuente
1
¿El enlace en la nota al pie de página no parece funcionar para mí?
Silverfish
@Silverfish gracias, arreglado. El enlace era de menor importancia pero aún así, si no funciona, es inútil.
Tim
0

Arthur (1994) tiene un bonito experimento breve en papel / pensamiento que es bien conocido en la literatura de complejidad.

Una de las conclusiones es que los agentes no pueden seleccionar mejores modelos predictivos (incluso si tienen un "bosque" de estos) en condiciones de no equilibrio. Por ejemplo, si la pregunta se aplica al desempeño del mercado de valores, la configuración de Arthur (1994) podría ser aplicable.

Glenn Magerman
fuente