Estoy realmente interesado en el procedimiento de red elástica para la contracción / selección de predictores. Parece muy poderoso
Pero desde el punto de vista científico, no sé qué hacer una vez que obtuve los coeficientes. ¿Qué pregunta estoy respondiendo? ¿Estas son las variables que más influyen en ese resultado y estos son los coeficientes que dan la mejor relación varianza / sesgo durante la validación?
Por supuesto, este es un enfoque muy descriptivo / predictivo en comparación con el enfoque clásico de valor p / intervalos de confianza. Tibshirani & Co. está estudiando la estimación inferencial, pero aún es experimental.
Algunas personas están utilizando las variables elegidas por la red elástica para realizar un análisis inferencial clásico, pero eso eliminaría la limitación de la varianza que aporta la técnica.
Otro problema es que, dado que los parámetros lambda y alfa para la red elástica se eligen mediante validación cruzada, están sujetos a una variabilidad aleatoria. Por lo tanto, cada vez que ejecute (p. Ej.) Cv.glmnet (), seleccionará un subconjunto de predictores ligeramente diferente con coeficientes siempre diferentes.
Pensé en resolver esto considerando el lambda y el alfa correctos como variables aleatorias y volví a ejecutar el paso de validación cruzada n veces para obtener una distribución de estos parámetros. De esta manera, para cada predictor tendría el número de ocurrencias y para cada coeficiente tendría distribución de resultados. Esto debería darme resultados más generalizables con estadísticas de rangos (como sd de los coeficientes). También sería interesante ver si el lambda y el alfa elegidos de esta manera se aproximan asintóticamente a alguna distribución, ya que eso abriría el camino para alguna prueba de inferencia (pero no soy un estadístico, así que no debería hablar sobre cosas que no hago No entiendo completamente).
Finalmente, mi pregunta es: una vez que obtenga los predictores y los coeficientes de una red elástica con validación cruzada basada en alfa y lambda, ¿cuál y cómo debe presentar estos resultados? ¿Cómo deberías discutirlos? que aprendimos ¿Qué hipótesis / generalización estamos confiando?
Respuestas:
Estos métodos, el lazo y la red elástica, nacieron de los problemas tanto de la selección de características como de la predicción. Es a través de estas dos lentes que creo que se puede encontrar una explicación.
Matthew Gunn explica amablemente en su respuesta que estos dos objetivos son distintos y que a menudo son adoptados por diferentes personas. Sin embargo, afortunadamente para nosotros, los métodos que nos interesan pueden funcionar bien en ambos ámbitos.
Selección de características
Primero, hablemos sobre la selección de características. Primero debemos motivar la red elástica desde la perspectiva del lazo. Es decir, para citar a Hastie y Zou , "si hay un grupo de variables entre las cuales las correlaciones por pares son muy altas, entonces el lazo tiende a seleccionar solo una variable del grupo y no le importa cuál está seleccionada". Este es un problema, por ejemplo, porque significa que no es probable que encontremos un elemento del verdadero soporte utilizando el lazo, solo uno altamente correlacionado con él. (El documento menciona que esto está probado en el documento LARS, que aún no he leído). Wainwright también señala la dificultad de la recuperación del soporte en presencia de correlación . cuando hay una alta correlación entre el verdadero soporte y su complemento.0.5
Ahora, la penalización l2 en la red elástica fomenta que las características que tienen coeficientes tratados como indistinguibles solo por la pérdida y la penalización l1 tengan un coeficiente estimado igual. Podemos ver esto libremente al notar que satisface(a,b)=argmina′,b′:c=|a′|+|b′|(a′)2+(b′)2 . Debido a esto, la red elástica hace que sea menos probable que 'accidentalmente' haga desaparecer una estimación de coeficiente que se encuentra en el verdadero soporte. Es decir, es más probable que el verdadero soporte esté contenido dentro del soporte estimado. ¡Eso es bueno! Significa que hay más descubrimientos falsos, pero ese es un precio que la mayoría de la gente está dispuesta a pagar.|a|=|b|
Por otro lado, vale la pena señalar que el hecho de que las características altamente correlacionadas tenderán a tener estimaciones de coeficientes muy similares hace que podamos detectar agrupaciones de características dentro del soporte estimado que influyen en la respuesta de manera similar.
Predicción
Ahora, pasamos a la predicción. Como señala Matthew Gunn, elegir los parámetros de ajuste a través de la validación cruzada crea el objetivo de elegir un modelo con un mínimo error de predicción. Dado que cualquier modelo seleccionado por el lazo puede ser seleccionado por la red elástica (tomandoα=1
Lederer, Yu y Gaynanova muestran, bajo ningún supuesto sobre las características, que el lazo y la red elástica pueden tener su error de predicción l2 limitado por la misma cantidad. No es necesariamente cierto que su límite sea estrecho, pero esto puede ser interesante de notar ya que las desigualdades de oráculo parecen ser una forma estándar en la literatura estadística para cuantificar el rendimiento predictivo de los estimadores, ¡quizás porque las distribuciones son tan complicadas! También vale la pena señalar que Lederer (1) (2) tiene algunos documentos sobre predicciones de lazo en presencia de características correlacionadas.
Resumen
En resumen, los problemas de interés son el verdadero soporte dentro del soporte estimado y la predicción. Para la recuperación del soporte, existen garantías rigurosamente comprobadas (a través de Wainwright) de que el lazo selecciona las características correctas para estar en el modelo bajo supuestos de baja correlación entre el soporte verdadero y su complemento. Sin embargo, en presencia de correlación, podemos recurrir a la red elástica para tener más probabilidades de seleccionar las características en el soporte real para estar entre todo lo que selecciona. (Tenga en cuenta que tenemos que seleccionar cuidadosamente los parámetros de ajuste aquí.) Y, para la predicción cuando elegimos el parámetro de ajuste a través de la validación cruzada, tiene sentido intuitivo que la red elástica debería funcionar mejor que el lazo, especialmente en presencia de correlación .
Dejando de lado la predicción y algo de formalidad, ¿qué aprendimos? Aprendimos sobre el verdadero apoyo.
Intervalos de confianza
Vale la pena señalar que mucho ha cambiado en los últimos 2 años en lo que respecta a la inferencia válida para el lazo. En particular, el trabajo de Lee, Sun, Sun y Taylor proporciona una inferencia exacta para los coeficientes del lazo condicional al modelo seleccionado que se seleccione. (Los resultados de la inferencia en el lazo para los coeficientes verdaderos existían en el momento de la publicación de OP, y están bien resumidos en el documento vinculado).
fuente
Lo que está haciendo con elástico, cresta o lazo, utilizando la validación cruzada para elegir los parámetros de regularización, está ajustando una forma lineal para optimizar la predicción . ¿Por qué estos parámetros de regularización particulares? Porque funcionan mejor para la predicción de nuevos datos. La reducción de los coeficientes estimados hacia cero, la introducción de sesgo, (como se hace en Ridge o Lasso) puede reducir el sobreajuste y reducir la varianza . La idea es que sus parámetros de penalización alcancen el equilibrio correcto para optimizar la predicción de nuevos datos.
Imagine que el proceso de generación de datos es:
¿Cómo debe presentar sus resultados? ¡Depende de cuál sea su pregunta de investigación subyacente! Es posible que desee dar un paso atrás y pensar profundamente sobre qué pregunta está tratando de responder. ¿Qué le importa a tu audiencia? ¿Que estás tratando de hacer?
Es importante distinguir entre dos tipos de preguntas de investigación:
Y como reconoce, puede haber problemas al interpretar por qué funciona la parametrización de aprendizaje automático. ¿Se siente cómodo su público con un cuadro negro de predicción? ¿O cómo funciona la predicción central para su pregunta?
Lasso y Ridge: razones clásicas para usarlos
Puede usar la regularización para evitar el sobreajuste. P.ej. La regresión de cresta en el contexto del ajuste de la curva polinómica puede funcionar bastante bien.
Como @Benjamin señala en su respuesta, Lasso también se puede usar para la selección de variables. Bajo ciertas condiciones de regularidad, Lasso seleccionará constantemente el modelo apropiado: los coeficientes irrelevantes se establecerán en cero.
¡A lo que siempre vuelvo es a que es bastante difícil interpretar los resultados de la ejecución de regresión de crestas, lazo o red elástica sin un contexto más de lo que estás tratando de descubrir!
El profesor Sendhil Mullainathan dio una charla sobre aprendizaje automático en la reunión de AFA de enero de 2017 que motivó partes de esta publicación.
fuente