Esta es una pregunta bastante general:
Por lo general, he descubierto que el uso de múltiples modelos diferentes supera a un modelo al intentar predecir una serie de tiempo fuera de la muestra. ¿Hay buenos documentos que demuestren que la combinación de modelos superará a un modelo único? ¿Existe alguna práctica recomendada para combinar varios modelos?
Algunas referencias:
- Hui Zoua, Yuhong Yang "Combinando modelos de series de tiempo para pronosticar" International Journal of Forecasting 20 (2004) 69– 84
Respuestas:
A veces, este tipo de modelos se llama conjunto. Por ejemplo, esta página ofrece una buena descripción general de cómo funciona. También las referencias mencionadas allí son muy útiles.
fuente
El año final de la competencia del Premio NetFlix (2009) me pareció haber cambiado drásticamente la presunción general de toda la comunidad contra la combinación de múltiples algoritmos de aprendizaje.
Por ejemplo, mi capacitación formal (cursos universitarios) y luego la supervisión / tutoría en el trabajo nos enseñaron a evitar la combinación de algoritmos a menos que tuviéramos una razón explícita para hacerlo, y "no mejorar la resolución de mi algoritmo actual", no era Realmente consideró una buena razón. (Otros podrían tener una experiencia diferente; por supuesto, infiero una visión de toda la comunidad basada únicamente en mi propia experiencia, aunque mi experiencia en la codificación de algoritmos de ML de bajo rendimiento es sustancial).
Aún así, hubo algunos "patrones" en los que se aceptaba la combinación de algoritmos de una forma u otra, y en realidad mejoraba el rendimiento. Para mí, el ejemplo más frecuente involucraba un algoritmo de ML configurado en modo máquina (asignando una etiqueta de clase a cada punto de datos) y en el que había más de dos clases (generalmente muchas más). Cuando, por ejemplo, usamos un algoritmo de aprendizaje supervisado para resolver cuatro clases, y veríamos una separación excelente, excepto para la Clase III versus la Clase IV. Entonces, de esos seis límites de decisión, solo uno se resolvió por debajo del umbral requerido. Particularmente cuando las clases III y IV juntas representaron un pequeño porcentaje de los datos, agregando un algoritmo adicional optimizado solo en la resolución de esas dos clases, fue una solución bastante común para este tipo de problema analítico. (Por lo general, ese "punto ciego" era una limitación inherente del algoritmo primario; por ejemplo, era un clasificador lineal y el límite de decisión III / IV no era lineal.
En otras palabras, cuando teníamos un algoritmo confiable adecuado para el entorno de procesamiento (que generalmente era la transmisión de datos) y que funcionaba dentro de las especificaciones, excepto por un solo punto ciego que causaba que no resolviera dos (o más) clases que explicaban una pequeña fracción de los datos, entonces siempre era mejor 'atornillar' otro algoritmo especializado para detectar lo que el algoritmo principal faltaba sistemáticamente.
Por último, sobre este tema, me gustaría recomendar altamente el Capítulo 17, Combinación de múltiples estudiantes , en Introducción al aprendizaje automático , 2d, por Ethem Alpaydin, MIT Press, 2010. Tenga en cuenta que esta es la segunda edición publicada hace unos meses; La primera edición se publicó en 2004 y dudo que tenga la misma cobertura de este tema. (En realidad, recomiendo el texto completo, pero ese capítulo en particular ya que se relaciona con la Pregunta de Shane).
En 25 páginas, el autor resume probablemente todos los esquemas de combinación de algoritmos de ML cuya utilidad se ha demostrado en la literatura o práctica académica, por ejemplo, embolsado, refuerzo, mezcla de expertos, generalización apilada, conexión en cascada, votación, corrección de errores, etc. ..
fuente
Seguimiento de la respuesta de Peter sobre métodos de conjunto:
fuente
El ejemplo más espectacular es el desafío de Netflix , que hizo que la popularidad de la mezcla realmente aumentara.
fuente
Aquí hay una respuesta ligeramente fuera del campo izquierdo, que solo toca la parte de su pregunta "mejores prácticas para combinar múltiples modelos" . Esto es básicamente mi tesis de honor, excepto que estoy tratando con modelos complejos y altamente no lineales que exhiben caos y ruido: modelos climáticos. Es probable que esto no sea ampliamente aplicable a muchos campos, pero podría ser útil en ecología o econometría.
Hasta hace relativamente poco en la comunidad de modelos climáticos, los modelos se mezclaron en gran medida en un promedio no ponderado (generalmente después de la corrección del sesgo que implica eliminar la media del modelo para parte o la totalidad del período de la muestra). Esto es básicamente lo que hizo el IPCC para el cuarto informe de evaluación (4AR) e informes anteriores.
Este es más o menos un ejemplo de la combinación de la escuela de " verdad más error ", donde se asume tácita o explícitamente que las series de observación (por ejemplo, temperatura global, precipitación local, etc.) son verdaderas, y eso si toma suficientes muestras (por ejemplo, ejecuciones del modelo), el ruido en las ejecuciones del modelo se cancelará (ver (1)).
Más recientemente, se han utilizado métodos para combinar modelos basados en la ponderación del rendimiento . Debido a que los modelos climáticos son muy ruidosos y tienen tantas variables y parámetros, las únicas formas de evaluar el rendimiento (que yo sepa) son tomando la covarianza o tomando el MSE entre la salida del modelo y la serie temporal observada. Los modelos se pueden combinar ponderando la media en función de esa medida. Hay una buena descripción de esto en (2).
Una suposición detrás de este método de combinación de simulaciones es la suposición de que todos los modelos son razonablemente independientes : si algunos fueran altamente dependientes, sesgarían la media. Esta suposición era razonablemente justa para el conjunto de datos utilizado para 4AR ( CMIP3 , ya que este conjunto de datos estaba compuesto por pocas ejecuciones de modelos de muchos grupos de modelado (por otro lado, el código se comparte en la comunidad de modelado, por lo que todavía puede haber alguna interdependencia Para una mirada interesante sobre esto, ver (3)). El conjunto de datos para el próximo informe de evaluación, CMIP5, no tiene este atributo algo fortuito: algunos equipos de modelado enviarán algunas carreras, mientras que otros enviarán cientos. Los conjuntos provenientes de diferentes equipos pueden ser producidos por la perturbación de la condición inicial, o por cambios en la física del modelo y la parametrización. Además, este súper conjunto no se muestrea de manera sistemática: solo se acepta quién trae datos (dentro de lo razonable). Esto se conoce en el campo como un " conjunto de oportunidades ". Existe una buena posibilidad de que el uso de una media no ponderada en un conjunto de este tipo le dé un sesgo importante hacia los modelos con más carreras (ya que a pesar de que hay cientos de carreras, es probable que haya un número mucho menor de carreras realmente independientes).
Mi supervisor tiene un documento en revisión en el momento que describe un proceso de combinación de modelos que involucra el desempeño Y la ponderación de la independencia . Hay un resumen de la conferencia disponible (4), publicaré el enlace al documento cuando se publique (proceso lento, no contenga la respiración). Básicamente, este artículo describe un proceso que implica tomar la covarianza de los errores del modelo (model-obs) y ponderar los modelos que tienen una alta covarianza con todos los demás modelos (es decir, modelos con errores altamente dependientes). La varianza del error del modelo también se calcula y se usa como componente de ponderación del rendimiento.
También vale la pena señalar que el modelado climático obviamente se ve enormemente afectado por los caprichos del modelado numérico en general. Hay una cosa llamada "prueba de risa" : si termina con una ejecución de modelo que implica que las temperaturas medias globales serán de + 20 ° C para 2050, simplemente la descarta, porque claramente no es físicamente relevante. Obviamente este tipo de prueba es bastante subjetiva. Todavía no lo he requerido, pero espero hacerlo en el futuro cercano.
Esa es mi comprensión de la combinación del modelo de estado en mi campo en este momento. Obviamente todavía estoy aprendiendo, así que si encuentro algo especial, volveré y actualizaré esta respuesta.
(1) Tebaldi, C. y Knutti, R., 2007. El uso del conjunto de modelos múltiples en proyecciones climáticas probabilísticas. Transacciones filosóficas de la Royal Society A: Ciencias Matemáticas, Físicas e Ingeniería, 365 (1857), pp.2053–2075.
(2) Knutti, R. et al., 2010. Reunión de expertos del IPCC sobre evaluación y combinación de proyecciones climáticas de modelos múltiples.
(3) Masson, D. y Knutti, R., 2011. Genealogía del modelo climático. Geophys Res. Lett, 38 (8), p. L08703.
(4) Abramowitz, G. y Bishop, C., 2010. Definición y ponderación de la dependencia del modelo en la predicción por conjuntos. En AGU Fall Meeting Abstracts. pag. 07.
fuente