He estado analizando un conjunto de datos de ~ 400k registros y 9 variables. La variable dependiente es binaria. He ajustado una regresión logística, un árbol de regresión, un bosque aleatorio y un árbol impulsado por gradiente. Todos ellos dan virtualmente idénticos números de bondad de ajuste cuando los valido en otro conjunto de datos.
¿Por qué esto es tan? Supongo que es porque mis observaciones a la relación variable son muy altas. Si esto es correcto, ¿con qué relación de observación a variable los diferentes modelos comenzarán a dar resultados diferentes?
fuente
También vale la pena mirar los errores de entrenamiento.
Básicamente no estoy de acuerdo con su análisis. si la regresión logística, etc., están dando los mismos resultados, sugeriría que el "mejor modelo" es muy simple (que todos los modelos pueden ajustarse igualmente bien, por ejemplo, básicamente lineal).
Entonces, la pregunta podría ser ¿por qué el mejor modelo es un modelo simple ?: Podría sugerir que sus variables no son muy predictivas. Por supuesto, es difícil de analizar sin conocer los datos.
fuente
Como sugirió @ seanv507, el rendimiento similar puede deberse simplemente a que los datos están mejor separados por un modelo lineal. Pero en general, la afirmación de que se debe a que "la relación de observaciones a variables es muy alta" es incorrecta. A pesar de que su relación entre el tamaño de la muestra y el número de variables llega al infinito, no debe esperar que los diferentes modelos tengan un rendimiento casi idéntico, a menos que todos proporcionen el mismo sesgo predictivo.
fuente
Creo que esta explicación tiene mucho sentido.
Esto probablemente dependerá mucho de sus datos específicos (por ejemplo, incluso si sus nueve variables son continuas, factores, ordinarios o binarios), así como de cualquier decisión de ajuste que haya tomado al ajustar su modelo.
Pero puede jugar con la relación observación-variable, no aumentando el número de variables, sino disminuyendo el número de observaciones. Dibuje al azar 100 observaciones, ajuste modelos y vea si diferentes modelos producen resultados diferentes. (Supongo que lo harán). Haga esto varias veces con diferentes muestras extraídas de su número total de observaciones. Luego mire submuestras de 1,000 observaciones ... 10,000 observaciones ... y así sucesivamente.
fuente