Estoy realizando un análisis en el que el objetivo principal es comprender los datos. El conjunto de datos es lo suficientemente grande para la validación cruzada (10k), y los predictores incluyen variables continuas y ficticias, y el resultado es continuo. El objetivo principal era ver si tiene sentido eliminar algunos predictores, para que el modelo sea más fácil de interpretar.
Preguntas:
Mi pregunta es "qué variables explican el resultado y son una parte 'suficientemente fuerte' de esa explicación". Pero para seleccionar el parámetro lambda para lazo, utiliza la validación cruzada, es decir, la validez predictiva como criterio. Al hacer inferencia, ¿es la validez predictiva un proxy suficiente para la pregunta general que hago?
Digamos que LASSO mantuvo solo 3 de 8 predictores. Y ahora me pregunto: "qué efecto tienen estos en el resultado". Por ejemplo, encontré una diferencia de género. Después de la contracción del lazo, el coeficiente sugiere que las mujeres obtienen 1 punto más que los hombres. Pero sin la contracción (es decir, en el conjunto de datos real), obtienen 2.5 puntos más.
- ¿Cuál tomaría como mi efecto de género "real"? Yendo solo por validez predictiva, sería el coeficiente reducido.
- O en un contexto, digamos que estoy escribiendo un informe para personas que no conocen bien las estadísticas. ¿Qué coeficiente les informaría?
fuente
Respuestas:
Si su objetivo es estimar con precisión los parámetros en su modelo, entonces qué tan cerca está del modelo verdadero es cómo debe seleccionar su modelo. La validez predictiva mediante validación cruzada es una forma de hacerlo y es la forma preferida para seleccionar en la regresión de LASSO.∗ λ
Ahora, para responder a la pregunta sobre qué estimación de parámetro es la "estimación real", se debe observar qué parámetro es "más cercano" al valor del parámetro real. ¿"Más cercano" significa las estimaciones de los parámetros que minimizan el sesgo? Si es así, entonces el estimador de mínimos cuadrados es imparcial en regresión lineal. ¿Significa más cercano el parámetro estimado que minimiza el error cuadrático medio (MSE)? Entonces se puede demostrar que hay una especificación de regresión de cresta que le dará estimaciones que minimizan MSE (similar a LASSO, la regresión de cresta reduce las estimaciones de parámetros hacia cero pero, a diferencia de LASSO, las estimaciones de parámetros no llegan a cero). Similar,λ ) Como estadístico, debe determinar cuál es la "mejor" estimación e informarla (preferiblemente con alguna indicación de la confianza de la estimación) a aquellos que no conocen bien las estadísticas. Lo que es "mejor" puede ser o no una estimación sesgada.
Laλ λ
glmnet
función en R hace un trabajo bastante bueno al seleccionar buenos valores de y, en resumen, seleccionar mediante validación cruzada e informar las estimaciones de parámetros es una forma perfectamente razonable de estimar el valor "real" de los parámetros.fuente