Ya tengo una idea sobre los pros y los contras de la regresión de crestas y el LASSO.
Para el LASSO, el término de penalización L1 producirá un vector de coeficiente disperso, que puede verse como un método de selección de características. Sin embargo, existen algunas limitaciones para el LASSO. Si las características tienen una alta correlación, LASSO solo seleccionará una de ellas. Además, para problemas donde > , LASSO seleccionará como máximo parámetros ( y son el número de observaciones y parámetros, respectivamente). Esto hace que el LASSO sea empíricamente un método subóptimo en términos de previsibilidad en comparación con la regresión de cresta.
Para la regresión de cresta, ofrece una mejor previsibilidad en general. Sin embargo, su interpretabilidad no es tan agradable como el LASSO.
La explicación anterior a menudo se puede encontrar en los libros de texto en aprendizaje automático / minería de datos. Sin embargo, todavía estoy confundido acerca de dos cosas:
Si normalizamos el rango de características (digamos entre 0 y 1, o con cero media y varianza unitaria), y ejecutamos la regresión de cresta, aún podemos tener una idea de la importancia de la característica clasificando los valores absolutos de los coeficientes (la característica más importante tiene el valor absoluto más alto de coeficientes). Aunque no estamos seleccionando características explícitamente, la interpretabilidad no se pierde con la regresión de crestas. Al mismo tiempo, aún podemos lograr un alto poder de predicción. Entonces, ¿por qué necesitamos el LASSO? ¿Me estoy perdiendo de algo?
¿Se prefiere LASSO debido a su naturaleza de selección de características? A mi entender, las razones por las que necesitamos la selección de características son la capacidad de generalizar y facilitar el cálculo.
Para facilitar el cómputo, no queremos incorporar todas las funciones de 1 millón en nuestro modelo si estamos realizando algunas tareas de PNL, por lo que eliminamos algunas características obviamente inútiles primero para reducir el costo computacional. Sin embargo, para LASSO, solo podemos conocer el resultado de la selección de características (el vector disperso) después de alimentar todos los datos en nuestro modelo, por lo que no nos beneficiamos de LASSO en términos de reducir el costo computacional. Solo podemos hacer predicciones un poco más rápido ya que ahora solo alimentamos el subconjunto de características (por ejemplo, 500 de 1 millón) en nuestro modelo para generar resultados pronosticados.
Si se prefiere el LASSO por su capacidad de generalizar, entonces también podemos lograr el mismo objetivo utilizando la regresión de cresta (o cualquier otro tipo de regularización). ¿Por qué necesitamos LASSO (o redes elásticas) nuevamente? ¿Por qué no podemos limitarnos a la regresión de crestas?
¿Podría alguien arrojar algunas luces sobre esto? ¡Gracias!
Respuestas:
Si solicita 1 millón de funciones reducidas, escaladas, pero distintas de cero, tendrá que tomar algún tipo de decisión: verá los n mejores predictores, pero ¿qué es n ? El LASSO resuelve este problema de una manera objetiva y basada en principios, porque para cada paso en el camino (y, a menudo, se conformaría con un punto mediante, por ejemplo, la validación cruzada), solo hay coeficientes m que no son cero.
Muy a menudo, entrenará modelos en algunos datos y luego los aplicará a algunos datos aún no recopilados. Por ejemplo, podría ajustar su modelo en 50.000.000 correos electrónicos y luego usar ese modelo en cada correo electrónico nuevo. Es cierto que lo encajará en el conjunto completo de funciones para los primeros 50.000.000 de correos, pero por cada correo electrónico siguiente, tratará con un modelo mucho más escaso y más rápido, y mucho más eficiente en memoria. Tampoco necesitará recopilar la información de las características eliminadas, lo que puede ser de gran ayuda si las características son caras de extraer, por ejemplo, mediante genotipado.
Otra perspectiva sobre el problema L1 / L2 expuesta, por ejemplo, por Andrew Gelman es que a menudo tienes alguna intuición de cómo puede ser tu problema. En algunas circunstancias, es posible que la realidad sea realmente escasa. Tal vez haya medido millones de genes, pero es plausible que solo 30,000 de ellos realmente determinen el metabolismo de la dopamina. En tal situación, L1 podría encajar mejor con el problema.
En otros casos, la realidad puede ser densa. Por ejemplo, en psicología, "todo se correlaciona (hasta cierto punto) con todo" (Paul Meehl). Las preferencias por las manzanas frente a las naranjas probablemente se correlacionan con tendencias políticas de alguna manera, e incluso con el coeficiente intelectual. La regularización aún podría tener sentido aquí, pero los verdaderos efectos cero deberían ser raros, por lo que L2 podría ser más apropiado.
fuente
La interpretabilidad disminuye si el objetivo depende de muchas características. Aumenta si podemos reducir la cantidad de funciones y mantener la precisión. La regularización de crestas no tiene la capacidad de reducir la cantidad de características. Pero Lasso tiene la habilidad. Cómo sucede esto se explica visualmente en el siguiente enlace:
Haga clic en el artículo Hacia la ciencia de datos
fuente