¿Por qué podrían varios tipos de modelos dar resultados casi idénticos?

10

He estado analizando un conjunto de datos de ~ 400k registros y 9 variables. La variable dependiente es binaria. He ajustado una regresión logística, un árbol de regresión, un bosque aleatorio y un árbol impulsado por gradiente. Todos ellos dan virtualmente idénticos números de bondad de ajuste cuando los valido en otro conjunto de datos.

¿Por qué esto es tan? Supongo que es porque mis observaciones a la relación variable son muy altas. Si esto es correcto, ¿con qué relación de observación a variable los diferentes modelos comenzarán a dar resultados diferentes?

JenSCDC
fuente

Respuestas:

7

Este resultado significa que, sea cual sea el método que utilice, podrá acercarse razonablemente a la regla de decisión óptima (también conocida como la regla de Bayes ). Las razones subyacentes se han explicado en "Elementos de aprendizaje estadístico" de Hastie, Tibshirani y Friedman . Demostraron cómo funcionan los diferentes métodos comparando las Figs. 2.1, 2.2, 2.3, 5.11 (en mi primera edición, en la sección sobre splines multidimensionales), 12.2, 12.3 (máquinas de vectores de soporte), y probablemente algunas otras. Si no ha leído ese libro, debe dejarlo todo AHORA MISMO y leerlo. (Quiero decir, no vale la pena perder su trabajo, pero vale la pena perder una o dos tareas si es estudiante).

No creo que las observaciones a la relación variable sean la explicación. A la luz de mi justificación ofrecida anteriormente, es la forma relativamente simple del límite que separa sus clases en el espacio multidimensional que todos los métodos que probó han podido identificar.

StasK
fuente
Le preguntaré a mi jefe si puedo hacer que la compañía pague por ello.
JenSCDC
1
ESL es 'gratis' como un pdf desde su página de inicio ... también vale la pena descargar ISL (por muchos de los mismos autores) - más práctico www-bcf.usc.edu/~gareth/ISL
seanv507
4

También vale la pena mirar los errores de entrenamiento.

Básicamente no estoy de acuerdo con su análisis. si la regresión logística, etc., están dando los mismos resultados, sugeriría que el "mejor modelo" es muy simple (que todos los modelos pueden ajustarse igualmente bien, por ejemplo, básicamente lineal).

Entonces, la pregunta podría ser ¿por qué el mejor modelo es un modelo simple ?: Podría sugerir que sus variables no son muy predictivas. Por supuesto, es difícil de analizar sin conocer los datos.

seanv507
fuente
1

Como sugirió @ seanv507, el rendimiento similar puede deberse simplemente a que los datos están mejor separados por un modelo lineal. Pero en general, la afirmación de que se debe a que "la relación de observaciones a variables es muy alta" es incorrecta. A pesar de que su relación entre el tamaño de la muestra y el número de variables llega al infinito, no debe esperar que los diferentes modelos tengan un rendimiento casi idéntico, a menos que todos proporcionen el mismo sesgo predictivo.

bogatron
fuente
Acabo de editar mi pregunta para agregar que la variable dependiente es binaria. Por lo tanto, un modelo lineal no es adecuado.
JenSCDC
"No debe esperar que diferentes modelos funcionen de manera casi idéntica, a menos que todos proporcionen el mismo sesgo predictivo". Usé MAE y la proporción de resultados reales a pronosticados como medidas de validación y las proporciones fueron muy cercanas.
JenSCDC
1
Andy, incluiría la regresión logística (y SVM lineal) como modelo 'lineal'. Todos están separando los datos por una suma ponderada de las entradas.
seanv507
1
@ seanv507 Exactamente: el límite de decisión sigue siendo lineal. El hecho de que se realice una clasificación binaria no cambia eso.
bogatron
¿Qué hay de los árboles? Realmente no me parecen lineales.
JenSCDC
0

Supongo que es porque mis observaciones a la relación variable son muy altas.

Creo que esta explicación tiene mucho sentido.

Si esto es correcto, ¿con qué relación de observación a variable los diferentes modelos comenzarán a dar resultados diferentes?

Esto probablemente dependerá mucho de sus datos específicos (por ejemplo, incluso si sus nueve variables son continuas, factores, ordinarios o binarios), así como de cualquier decisión de ajuste que haya tomado al ajustar su modelo.

Pero puede jugar con la relación observación-variable, no aumentando el número de variables, sino disminuyendo el número de observaciones. Dibuje al azar 100 observaciones, ajuste modelos y vea si diferentes modelos producen resultados diferentes. (Supongo que lo harán). Haga esto varias veces con diferentes muestras extraídas de su número total de observaciones. Luego mire submuestras de 1,000 observaciones ... 10,000 observaciones ... y así sucesivamente.

Stephan Kolassa
fuente
1
¿Por qué es eso? más observaciones parece aumentar la posibilidad de que el límite de decisión sea más complejo, es decir, definitivamente no lineal. Y estos modelos hacen cosas diferentes en casos complejos, y tienden a hacer lo mismo en casos simples.
Sean Owen
@SeanOwen: Creo que no entiendo tu comentario. ¿A qué parte de mi respuesta se refiere "por qué es eso"? El OP no dijo nada sobre el uso de límites de decisión lineales; después de todo, podría hacerlo transformando predictores de alguna manera.
Stephan Kolassa
¿Por qué más observaciones hacen que diferentes clasificadores den decisiones más similares? Mi intuición es lo contrario. Sí, no estoy pensando solo en límites lineales de decisión. Cuanto más complejo sea el límite óptimo, es menos probable que todos encajen en algo similar a ese límite. Y el límite tiende a ser más complejo con más observaciones.
Sean Owen