¿Qué es la combinación de datos?

Respuestas:

10

http://www.cs.cornell.edu/~caruana/ctp/ct.papers/caruana.icml04.icdm06long.pdf Algunos documentos para ayudarlo a comprender mejor qué es la mezcla. Creo que también puedes buscar en Google para la selección / aprendizaje de conjuntos, y también para apilar.

Sin embargo, su comprensión general de "mezclar los resultados de muchos modelos y obtener un mejor resultado" es correcta.

Rey
fuente
Ese enlace también fue tomado de algún lugar del foro de kaggle. Solo guardé el enlace del pdf, pero no la discusión ...
Rey
12

Impulsar (como se menciona en la discusión vinculada) es un método que combina un conjunto de algoritmos para obtener un resultado mejor que el que puede obtener de cualquier algoritmo individual. Por ejemplo, los bosques aleatorios son un método para combinar varios árboles de clasificación para un algoritmo de clasificación. Este enfoque se denomina formalmente promedio de conjunto (aunque el algoritmo generalmente aplica la regla de la mayoría). Mezclar parece ser una palabra que algunas personas usan para describir un enfoque impulsor de la clasificación.

Michael R. Chernick
fuente
Entonces, ¿se puede llamar mezcla, si reemplazo los árboles de clasificación en un modelo adaboost normal con otro conjunto de algoritmos?
TomHall
Hola, Michael. Tu respuesta es realmente útil, pero, lástima, soy nuevo en las estadísticas y todavía no tengo suficiente reputación para votar tu respuesta.
TomHall
1
Bueno, entonces recuerda hacerlo después de obtener algunos puntos de repetición.
Michael R. Chernick
0

En la industria, la combinación de datos no se trata de modelos, sino de preprocesamiento : es cuando se fusionan los datos que provienen de diferentes fuentes, como uno de una base de datos y otros datos de archivos CSV.

Make42
fuente