Estaba leyendo este artículo relacionado con la red elástica. Dicen que usan una red elástica porque si solo usamos Lasso, tiende a seleccionar solo un predictor entre los predictores que están altamente correlacionados. Pero no es esto lo que queremos. Quiero decir que nos salva del problema de la multicolinealidad, ¿no es así?
Suponga que dos predictores tienen un fuerte efecto en la respuesta pero están altamente correlacionados en la muestra a partir de la cual construye su modelo. Si elimina uno del modelo, no se pronosticará bien para muestras de poblaciones similares en las que los predictores no están altamente correlacionados.
Si desea mejorar la precisión de sus estimaciones de coeficientes en presencia de multicolinealidad, debe introducir un pequeño sesgo, compensándolo con una mayor reducción de la varianza. Una forma es eliminar completamente los predictores, con LASSO, o, en los viejos tiempos, métodos paso a paso, lo que establece sus coeficientes estimados en cero. Otra es sesgar un poco todas las estimaciones, con regresión de cresta o, en los viejos tiempos, retrocediendo en los primeros componentes principales. Un inconveniente de la primera es que es muy inseguro si el modelo se usará para predecir respuestas para patrones predictores fuera de los que ocurrieron en la muestra original, ya que los predictores tienden a quedar excluidos solo porque no son muy útiles junto con otros, casi colineales, predictores. (No es que la extrapolación sea completamente segura). La red elástica es una mezcla de las dos, como explica @ user12436, y tiende a mantener grupos de predictores correlacionados en el modelo.
¿Por qué no va a predecir bien en esta nueva muestra?
user31820
1
Porque al modelo le falta un predictor importante.
Scortchi - Restablece a Monica
2
Si dos predictores están correlacionados en una muestra representativa de una población, ¿no deberían estar correlacionados en otra muestra? si usa un modelo en datos que están "alejados de los que ocurrieron en la muestra original", ¿no es un uso límite inválido de algún modelo?
Matthew Drury
@MatthewDrury: Bueno, si el modelo es "correcto", si no hay factores de confusión no observados por los que valga la pena molestarse, y si la forma funcional es extrapolable, entonces la distribución de predictores en la muestra no importa (aunque, por supuesto, determina la precisión de estimaciones y predicciones). Entonces, en un extremo, es posible que tenga un modelo mecanicista basado en datos de un estudio experimental bien controlado sobre factores causales; Por otro, un modelo empírico basado en datos recopilados de un estudio observacional sobre un conjunto de variables que eran simplemente fáciles de medir.
Scortchi - Restablece a Monica
La frase: " en los viejos tiempos, los métodos por pasos me hicieron sonreír.: D (Obvio +1, esta es una buena respuesta)
usεr11852
4
Pero no es esto lo que queremos. Quiero decir que nos salva del problema de la multicolinealidad, ¿no?
¡Si! y no. Elastic net es una combinación de dos técnicas de regularización, la regularización L2 (utilizada en la regresión de cresta) y la regularización L1 (utilizada en LASSO).
Lasso produce modelos naturalmente dispersos, es decir, la mayoría de los coeficientes variables se reducirán a 0 y se excluirán efectivamente del modelo. Entonces, las variables menos significativas se reducen, antes de reducir las otras, a diferencia de la cresta, donde todas las variables se reducen, mientras que ninguna de ellas se reduce realmente a 0.
Elastic net utiliza una combinación lineal de ambos enfoques. El caso específico mencionado por Hastie al discutir el método fue en el caso de p grande, n pequeña. Lo que significa: datos de alta dimensión con relativamente pocas observaciones. En este caso, LASSO (según los informes) solo seleccionaría a lo sumo n variables, mientras eliminaba todo el resto, vea el artículo de Hastie .
Siempre dependerá del conjunto de datos real, pero puede imaginarse que no siempre desea que el límite superior en el número de variables en sus modelos sea igual o inferior al número de sus observaciones.
Pero, ¿qué pasa con la multicolinealidad? Elastic net permite seleccionar características multicolineales que no es bueno, ¿no?
user31820
No creo que muchos conjuntos de datos reales tengan variables perfectamente multicolineales. Las variables altamente correlacionadas pueden ser casi colineales, lo cual sigue siendo un problema, pero uno que podría estar dispuesto a aceptar, en caso de que ambas sean importantes para su modelo.
Tanto Lasso como Elastic Net son métodos eficientes para realizar una selección de variables o características en entornos de datos de alta dimensión (muchas más variables que pacientes o muestras; por ejemplo, 20,000 genes y 500 muestras tumorales).
Se ha demostrado (por Hastie y otros) que Elastic Net puede superar a Lasso cuando los datos están altamente correlacionados. Lasso puede simplemente seleccionar una de las variables correlacionadas y no le importa cuál está seleccionada. Esto puede ser un problema cuando uno quiere validar las variables seleccionadas en un conjunto de datos independiente. La variable seleccionada por Lasso puede no ser el mejor predictor entre todas las variables correlacionadas. Elastic Net resuelve este problema promediando variables altamente correlacionadas.
¡Si! y no. Elastic net es una combinación de dos técnicas de regularización, la regularización L2 (utilizada en la regresión de cresta) y la regularización L1 (utilizada en LASSO).
Lasso produce modelos naturalmente dispersos, es decir, la mayoría de los coeficientes variables se reducirán a 0 y se excluirán efectivamente del modelo. Entonces, las variables menos significativas se reducen, antes de reducir las otras, a diferencia de la cresta, donde todas las variables se reducen, mientras que ninguna de ellas se reduce realmente a 0.
Elastic net utiliza una combinación lineal de ambos enfoques. El caso específico mencionado por Hastie al discutir el método fue en el caso de p grande, n pequeña. Lo que significa: datos de alta dimensión con relativamente pocas observaciones. En este caso, LASSO (según los informes) solo seleccionaría a lo sumo n variables, mientras eliminaba todo el resto, vea el artículo de Hastie .
Siempre dependerá del conjunto de datos real, pero puede imaginarse que no siempre desea que el límite superior en el número de variables en sus modelos sea igual o inferior al número de sus observaciones.
fuente
Tanto Lasso como Elastic Net son métodos eficientes para realizar una selección de variables o características en entornos de datos de alta dimensión (muchas más variables que pacientes o muestras; por ejemplo, 20,000 genes y 500 muestras tumorales).
Se ha demostrado (por Hastie y otros) que Elastic Net puede superar a Lasso cuando los datos están altamente correlacionados. Lasso puede simplemente seleccionar una de las variables correlacionadas y no le importa cuál está seleccionada. Esto puede ser un problema cuando uno quiere validar las variables seleccionadas en un conjunto de datos independiente. La variable seleccionada por Lasso puede no ser el mejor predictor entre todas las variables correlacionadas. Elastic Net resuelve este problema promediando variables altamente correlacionadas.
fuente