LASSO para modelos explicativos: ¿parámetros reducidos o no?

9

Estoy realizando un análisis en el que el objetivo principal es comprender los datos. El conjunto de datos es lo suficientemente grande para la validación cruzada (10k), y los predictores incluyen variables continuas y ficticias, y el resultado es continuo. El objetivo principal era ver si tiene sentido eliminar algunos predictores, para que el modelo sea más fácil de interpretar.

Preguntas:

  1. Mi pregunta es "qué variables explican el resultado y son una parte 'suficientemente fuerte' de esa explicación". Pero para seleccionar el parámetro lambda para lazo, utiliza la validación cruzada, es decir, la validez predictiva como criterio. Al hacer inferencia, ¿es la validez predictiva un proxy suficiente para la pregunta general que hago?

  2. Digamos que LASSO mantuvo solo 3 de 8 predictores. Y ahora me pregunto: "qué efecto tienen estos en el resultado". Por ejemplo, encontré una diferencia de género. Después de la contracción del lazo, el coeficiente sugiere que las mujeres obtienen 1 punto más que los hombres. Pero sin la contracción (es decir, en el conjunto de datos real), obtienen 2.5 puntos más.

    • ¿Cuál tomaría como mi efecto de género "real"? Yendo solo por validez predictiva, sería el coeficiente reducido.
    • O en un contexto, digamos que estoy escribiendo un informe para personas que no conocen bien las estadísticas. ¿Qué coeficiente les informaría?
mbokulic
fuente
1
¿Qué tipo de modelo estás mirando? Modelo lineal, logístico, poisson, etc.
TrynnaDoStat
1
Es un modelo lineal, pero no creo que eso
marque

Respuestas:

7

Si su objetivo es estimar con precisión los parámetros en su modelo, entonces qué tan cerca está del modelo verdadero es cómo debe seleccionar su modelo. La validez predictiva mediante validación cruzada es una forma de hacerlo y es la forma preferida para seleccionar en la regresión de LASSO.λ

Ahora, para responder a la pregunta sobre qué estimación de parámetro es la "estimación real", se debe observar qué parámetro es "más cercano" al valor del parámetro real. ¿"Más cercano" significa las estimaciones de los parámetros que minimizan el sesgo? Si es así, entonces el estimador de mínimos cuadrados es imparcial en regresión lineal. ¿Significa más cercano el parámetro estimado que minimiza el error cuadrático medio (MSE)? Entonces se puede demostrar que hay una especificación de regresión de cresta que le dará estimaciones que minimizan MSE (similar a LASSO, la regresión de cresta reduce las estimaciones de parámetros hacia cero pero, a diferencia de LASSO, las estimaciones de parámetros no llegan a cero). Similar,λ) Como estadístico, debe determinar cuál es la "mejor" estimación e informarla (preferiblemente con alguna indicación de la confianza de la estimación) a aquellos que no conocen bien las estadísticas. Lo que es "mejor" puede ser o no una estimación sesgada.

La glmnetfunción en R hace un trabajo bastante bueno al seleccionar buenos valores de y, en resumen, seleccionar mediante validación cruzada e informar las estimaciones de parámetros es una forma perfectamente razonable de estimar el valor "real" de los parámetros.λλ

Algunos prefieren un modelo bayesiano de LASSO que selecciona por probabilidad marginal, pero estoy, tal vez incorrectamente, suponiendo que está haciendo un modelo LASSO frecuente.λ

TrynnaDoStat
fuente
¿Qué quiso decir con "sesgo" en "las estimaciones de parámetros que minimizan el sesgo"? ¿Y leo el resto correctamente si lo leo así: debería elegir el modelo que tenga el MSE estimado más bajo fuera de la muestra (es decir, en validación cruzada)? Dado que la cresta está fuera de discusión ya que quiero una matriz de coeficientes dispersos, informar los coeficientes de lazo reducidos es el camino a seguir
mbokulic
@mbokulic Por sesgo quiero decir sesgo estadístico. Esto se refiere a la tendencia de un proceso de medición a estimar en exceso / por debajo el valor de un parámetro de población. Mi respuesta dice que depende de lo que quieras. Si no quieres sesgo, quédate con la regresión lineal. Si está de acuerdo con el sesgo y prefiere minimizar el MSE, vaya con LASSO y ponga la debida diligencia al seleccionar . λ
TrynnaDoStat
interesante, nunca lo pensé de esa manera. Nuevamente tengo que preguntar si te entendí correctamente. Entonces, la regresión lineal le da la estimación más imparcial de los coeficientes de población (el ejemplo de "2.5 puntos más alto" en mi pregunta original). Mientras que lasso o cresta regr. minimizar MSE fuera de muestra. Si es así, si solo quiere entender (no predecir), la regresión lineal parece mejor, aunque todavía querría simplificar el modelo con, por ejemplo, métodos paso a paso.
mbokulic
Las respuestas aquí son útiles. Sugieren que los OLS (regresión lineal) tienen el rendimiento de bast en la muestra, mientras que el lazo es para fuera de la muestra. Además, sugieren que OLS se puede utilizar en el conjunto restringido de predictores seleccionados por el lazo. Esto es exactamente lo que tiene sentido para mi objetivo interpretativo, incluso si las estimaciones de OLS se ajustarán ligeramente.
mbokulic