Estoy ejecutando un modelo de regresión con Lasso y Ridge (para predecir una variable de resultado discreta que va de 0 a 5). Antes de ejecutar el modelo, utilizo el SelectKBest
método de scikit-learn
reducir el conjunto de características de 250 a 25 . Sin una selección inicial de características, tanto Lasso como Ridge rinden a puntuaciones de precisión más bajas [lo que podría deberse al pequeño tamaño de la muestra, 600]. Además, tenga en cuenta que algunas características están correlacionadas.
Después de ejecutar el modelo, observo que la precisión de predicción es casi la misma con Lasso y Ridge. Sin embargo, cuando verifico las primeras 10 características después de ordenarlas por el valor absoluto de los coeficientes, veo que hay como máximo un 50% de superposición.
Es decir, dado que cada método asignaba una importancia diferente a las características, podría tener una interpretación totalmente diferente basada en el modelo que elijo.
Normalmente, las características representan algunos aspectos del comportamiento del usuario en un sitio web. Por lo tanto, quiero explicar los resultados destacando las características (comportamientos del usuario) con una capacidad predictiva más fuerte frente a características más débiles (comportamientos del usuario). Sin embargo, no sé cómo avanzar en este momento. ¿Cómo debo abordar la interpretación del modelo? Por ejemplo, ¿debería combinar ambos y resaltar el que se superpone, o debería ir con Lasso ya que proporciona más interpretabilidad?
Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .
Respuestas:
La regresión de cresta alienta a todos los coeficientes a ser pequeños. Lasso alienta a muchos / la mayoría de los coeficientes [**] a convertirse en cero, y algunos no distintos a cero. Ambos reducirán la precisión en el conjunto de entrenamiento, pero mejorarán la predicción de alguna manera:
Puede obtener diferentes opciones de coeficientes si sus datos están altamente correlacionados. Entonces, puede tener 5 características que están correlacionadas:
[*] para una definición de significado de 'elegir': asigna un coeficiente distinto de cero, que todavía se mueve un poco, ya que los coeficientes de regresión de cresta tenderán a ser distintos de cero, pero, por ejemplo, algunos podrían ser como 1e-8 , y otros podrían ser, por ejemplo, 0.01
fuente