Análisis elástico / cresta / lazo, ¿entonces qué?

19

Estoy realmente interesado en el procedimiento de red elástica para la contracción / selección de predictores. Parece muy poderoso

Pero desde el punto de vista científico, no sé qué hacer una vez que obtuve los coeficientes. ¿Qué pregunta estoy respondiendo? ¿Estas son las variables que más influyen en ese resultado y estos son los coeficientes que dan la mejor relación varianza / sesgo durante la validación?

Por supuesto, este es un enfoque muy descriptivo / predictivo en comparación con el enfoque clásico de valor p / intervalos de confianza. Tibshirani & Co. está estudiando la estimación inferencial, pero aún es experimental.

Algunas personas están utilizando las variables elegidas por la red elástica para realizar un análisis inferencial clásico, pero eso eliminaría la limitación de la varianza que aporta la técnica.

Otro problema es que, dado que los parámetros lambda y alfa para la red elástica se eligen mediante validación cruzada, están sujetos a una variabilidad aleatoria. Por lo tanto, cada vez que ejecute (p. Ej.) Cv.glmnet (), seleccionará un subconjunto de predictores ligeramente diferente con coeficientes siempre diferentes.

Pensé en resolver esto considerando el lambda y el alfa correctos como variables aleatorias y volví a ejecutar el paso de validación cruzada n veces para obtener una distribución de estos parámetros. De esta manera, para cada predictor tendría el número de ocurrencias y para cada coeficiente tendría distribución de resultados. Esto debería darme resultados más generalizables con estadísticas de rangos (como sd de los coeficientes). También sería interesante ver si el lambda y el alfa elegidos de esta manera se aproximan asintóticamente a alguna distribución, ya que eso abriría el camino para alguna prueba de inferencia (pero no soy un estadístico, así que no debería hablar sobre cosas que no hago No entiendo completamente).

Finalmente, mi pregunta es: una vez que obtenga los predictores y los coeficientes de una red elástica con validación cruzada basada en alfa y lambda, ¿cuál y cómo debe presentar estos resultados? ¿Cómo deberías discutirlos? que aprendimos ¿Qué hipótesis / generalización estamos confiando?

hypothesis-testing prediction inference lasso elastic-net Bakaburg
fuente

Creo que esto es demasiado amplio / poco claro para responder adecuadamente. En algunos casos, encuentro sus declaraciones poco claras (p. Ej., ¿Qué quiere decir con " pero eso eliminaría la limitación en la varianza traída por la técnica ") y en algunos otros casos se confunden (p. Ej., " Cada vez que corre (p. Ej.) cv.glmnet () seleccionará un subconjunto ligeramente diferente de predictores con coeficientes siempre diferentes "- ese no es el caso cada vez e incluso cuando sucede usualmente no es catastrófico dado que el CV se realizó correctamente.)

usεr11852 dice Reinstate Monic

una motivación que he visto de la red elástica lo relacionó con el agrupamiento variable (a través de la sección 2.3 del documento zou, hastie elastic net), que se amplía con más detalle (a través de un método algo diferente) aquí: ncbi.nlm.nih .gov / pmc / articles / PMC4011669

user795305

8

Estos métodos, el lazo y la red elástica, nacieron de los problemas tanto de la selección de características como de la predicción. Es a través de estas dos lentes que creo que se puede encontrar una explicación.

Matthew Gunn explica amablemente en su respuesta que estos dos objetivos son distintos y que a menudo son adoptados por diferentes personas. Sin embargo, afortunadamente para nosotros, los métodos que nos interesan pueden funcionar bien en ambos ámbitos.

Selección de características

Primero, hablemos sobre la selección de características. Primero debemos motivar la red elástica desde la perspectiva del lazo. Es decir, para citar a Hastie y Zou , "si hay un grupo de variables entre las cuales las correlaciones por pares son muy altas, entonces el lazo tiende a seleccionar solo una variable del grupo y no le importa cuál está seleccionada". Este es un problema, por ejemplo, porque significa que no es probable que encontremos un elemento del verdadero soporte utilizando el lazo, solo uno altamente correlacionado con él. (El documento menciona que esto está probado en el documento LARS, que aún no he leído). Wainwright también señala la dificultad de la recuperación del soporte en presencia de correlación . cuando hay una alta correlación entre el verdadero soporte y su complemento. $0.5$

Ahora, la penalización l2 en la red elástica fomenta que las características que tienen coeficientes tratados como indistinguibles solo por la pérdida y la penalización l1 tengan un coeficiente estimado igual. Podemos ver esto libremente al notar que satisface $(a,b) = \arg\min_{a',b': c = |a'| + |b'|} (a')^2 + (b')^2$ . Debido a esto, la red elástica hace que sea menos probable que 'accidentalmente' haga desaparecer una estimación de coeficiente que se encuentra en el verdadero soporte. Es decir, es más probable que el verdadero soporte esté contenido dentro del soporte estimado. ¡Eso es bueno! Significa que hay más descubrimientos falsos, pero ese es un precio que la mayoría de la gente está dispuesta a pagar. $|a| = |b|$

Por otro lado, vale la pena señalar que el hecho de que las características altamente correlacionadas tenderán a tener estimaciones de coeficientes muy similares hace que podamos detectar agrupaciones de características dentro del soporte estimado que influyen en la respuesta de manera similar.

Predicción

Ahora, pasamos a la predicción. Como señala Matthew Gunn, elegir los parámetros de ajuste a través de la validación cruzada crea el objetivo de elegir un modelo con un mínimo error de predicción. Dado que cualquier modelo seleccionado por el lazo puede ser seleccionado por la red elástica (tomando $\alpha = 1$

Lederer, Yu y Gaynanova muestran, bajo ningún supuesto sobre las características, que el lazo y la red elástica pueden tener su error de predicción l2 limitado por la misma cantidad. No es necesariamente cierto que su límite sea estrecho, pero esto puede ser interesante de notar ya que las desigualdades de oráculo parecen ser una forma estándar en la literatura estadística para cuantificar el rendimiento predictivo de los estimadores, ¡quizás porque las distribuciones son tan complicadas! También vale la pena señalar que Lederer (1) (2) tiene algunos documentos sobre predicciones de lazo en presencia de características correlacionadas.

Resumen

En resumen, los problemas de interés son el verdadero soporte dentro del soporte estimado y la predicción. Para la recuperación del soporte, existen garantías rigurosamente comprobadas (a través de Wainwright) de que el lazo selecciona las características correctas para estar en el modelo bajo supuestos de baja correlación entre el soporte verdadero y su complemento. Sin embargo, en presencia de correlación, podemos recurrir a la red elástica para tener más probabilidades de seleccionar las características en el soporte real para estar entre todo lo que selecciona. (Tenga en cuenta que tenemos que seleccionar cuidadosamente los parámetros de ajuste aquí.) Y, para la predicción cuando elegimos el parámetro de ajuste a través de la validación cruzada, tiene sentido intuitivo que la red elástica debería funcionar mejor que el lazo, especialmente en presencia de correlación .

Dejando de lado la predicción y algo de formalidad, ¿qué aprendimos? Aprendimos sobre el verdadero apoyo.

Intervalos de confianza

Vale la pena señalar que mucho ha cambiado en los últimos 2 años en lo que respecta a la inferencia válida para el lazo. En particular, el trabajo de Lee, Sun, Sun y Taylor proporciona una inferencia exacta para los coeficientes del lazo condicional al modelo seleccionado que se seleccione. (Los resultados de la inferencia en el lazo para los coeficientes verdaderos existían en el momento de la publicación de OP, y están bien resumidos en el documento vinculado).

usuario795305
fuente

¿Sería correcto suponer que las estimaciones de covariables regularizadas son probablemente más similares a las que podríamos encontrar repitiendo un estudio? Es decir, como la regularización ayuda a minimizar el error de predicción fuera de la muestra, ¿podría ayudar a minimizar la diferencia entre la estimación dentro y fuera de la muestra?

Bakaburg

1

@Bakaburg, sí, eso tiene sentido decir. La regularización crea estimadores con menor varianza.

user795305

9

Lo que está haciendo con elástico, cresta o lazo, utilizando la validación cruzada para elegir los parámetros de regularización, está ajustando una forma lineal para optimizar la predicción . ¿Por qué estos parámetros de regularización particulares? Porque funcionan mejor para la predicción de nuevos datos. La reducción de los coeficientes estimados hacia cero, la introducción de sesgo, (como se hace en Ridge o Lasso) puede reducir el sobreajuste y reducir la varianza . La idea es que sus parámetros de penalización alcancen el equilibrio correcto para optimizar la predicción de nuevos datos.

Imagine que el proceso de generación de datos es:

y_{i} = f (x_{i}, β) + ϵ_{i}

$y_i = f(\mathbf{x}_i, \beta) + \epsilon_i$

$\hat{\beta}$ $\beta$ $\hat{y}_j$ $j$

¿Cómo debe presentar sus resultados? ¡Depende de cuál sea su pregunta de investigación subyacente! Es posible que desee dar un paso atrás y pensar profundamente sobre qué pregunta está tratando de responder. ¿Qué le importa a tu audiencia? ¿Que estás tratando de hacer?

¿Predicción?
¿Coeficientes estimados?
Selección variable?

Es importante distinguir entre dos tipos de preguntas de investigación:

$\hat{y}_j$
$\hat{\beta}$

$\hat{y}$ $\hat{\beta}$

$\hat{y}$ $k$ $n$
Los algoritmos entrenados en diferentes pliegues pueden tener estimaciones de parámetros significativamente diferentes.
El énfasis en el aprendizaje automático está en la predicción, no en la estimación constante de los efectos causales. (Esto contrasta con la econometría, donde generalmente el problema principal es estimar constantemente los efectos causales). La predicción, que estima alguna forma funcional, es diferente a la estimación de la causalidad. Los niveles policiales pueden ser un buen predictor de los niveles de delincuencia, y esto no significa que la policía cause delitos.

Y como reconoce, puede haber problemas al interpretar por qué funciona la parametrización de aprendizaje automático. ¿Se siente cómodo su público con un cuadro negro de predicción? ¿O cómo funciona la predicción central para su pregunta?

Lasso y Ridge: razones clásicas para usarlos

$\hat{y}$
Puede usar la regularización para evitar el sobreajuste. P.ej. La regresión de cresta en el contexto del ajuste de la curva polinómica puede funcionar bastante bien.
Como @Benjamin señala en su respuesta, Lasso también se puede usar para la selección de variables. Bajo ciertas condiciones de regularidad, Lasso seleccionará constantemente el modelo apropiado: los coeficientes irrelevantes se establecerán en cero.

$L_1$ $L_2$

¡A lo que siempre vuelvo es a que es bastante difícil interpretar los resultados de la ejecución de regresión de crestas, lazo o red elástica sin un contexto más de lo que estás tratando de descubrir!

El profesor Sendhil Mullainathan dio una charla sobre aprendizaje automático en la reunión de AFA de enero de 2017 que motivó partes de esta publicación.

Matthew Gunn
fuente

3

Este tipo de pensamiento es defectuoso en mi opinión. Se basa en la suposición de que el fenómeno subyacente es lo suficientemente simple como para ser comprendido por un ser humano. La mayoría de las veces, los modelos de alta dimensión son demasiado complejos para ser comprendidos por los humanos, pero son muy adecuados para la inteligencia artificial a gran escala. En realidad, el mejor predictor es la mejor interpretación del fenómeno, ya sea que pueda comprenderlo o no.

Cagdas Ozgenc

2

@CagdasOzgenc Creo que es un punto válido de que algunas funciones son horriblemente complejas, difíciles de describir para los humanos pero comprensibles y aprendibles por las máquinas (por ejemplo, la evaluación del tablero de ajedrez). En estas situaciones, puede ser mejor levantar las manos, ni siquiera intentar interpretar lo que la máquina aprendió. Por otro lado, hay situaciones como ensayos con medicamentos en los que hay un efecto causal, cierta efectividad promedio que está tratando de estimar en presencia de una multitud de factores de confusión, efectos de selección, etc. Estos son, en cierto sentido, problemas y necesidades diferentes. diferentes técnicas

Matthew Gunn el

1

\hat{y}

$\hat{y}$