Estoy usando el paquete R penalizado para obtener estimaciones reducidas de coeficientes para un conjunto de datos donde tengo muchos predictores y poco conocimiento de cuáles son importantes. Después de haber elegido los parámetros de ajuste L1 y L2 y estoy satisfecho con mis coeficientes, ¿hay una forma estadísticamente sólida de resumir el ajuste del modelo con algo como R-cuadrado?
Además, estoy interesado en probar la importancia general del modelo (es decir, R² = 0, o hacer todo el = 0).
He leído las respuestas sobre una pregunta similar que se hizo aquí , pero no respondió a mi pregunta. Hay un excelente tutorial sobre el paquete R que estoy usando aquí , y la autora Jelle Goeman tenía la siguiente nota al final del tutorial sobre los intervalos de confianza de los modelos de regresión penalizados:
Es una pregunta muy natural pedir errores estándar de coeficientes de regresión u otras cantidades estimadas. En principio, estos errores estándar se pueden calcular fácilmente, por ejemplo, utilizando el bootstrap.
Aún así, este paquete deliberadamente no los proporciona. La razón de esto es que los errores estándar no son muy significativos para estimaciones fuertemente sesgadas, como las que surgen de los métodos de estimación penalizados. La estimación penalizada es un procedimiento que reduce la varianza de los estimadores al introducir un sesgo sustancial. Por lo tanto, el sesgo de cada estimador es un componente principal de su error cuadrático medio, mientras que su varianza puede contribuir solo con una pequeña parte.
Desafortunadamente, en la mayoría de las aplicaciones de regresión penalizada es imposible obtener una estimación suficientemente precisa del sesgo. Cualquier cálculo basado en bootstrap solo puede dar una evaluación de la varianza de las estimaciones. Las estimaciones confiables del sesgo solo están disponibles si se cuenta con estimaciones imparciales confiables, lo que generalmente no es el caso en situaciones en las que se utilizan estimaciones penalizadas.
Por lo tanto, informar un error estándar de una estimación penalizada solo cuenta una parte de la historia. Puede dar una impresión errónea de gran precisión, ignorando por completo la inexactitud causada por el sesgo. Ciertamente es un error hacer declaraciones de confianza que solo se basan en una evaluación de la varianza de las estimaciones, como lo hacen los intervalos de confianza basados en bootstrap.
fuente
Respuestas:
Mi primera reacción a los comentarios de Jelle es "bias-schmias". Debe tener cuidado con lo que quiere decir con "gran cantidad de predictores". Esto podría ser "grande" con respecto a:
Mi reacción se basó en "grande" con respecto al punto 1. Esto se debe a que en este caso, por lo general, vale la pena compensar el sesgo por la reducción de la varianza que se obtiene. El sesgo solo es importante "a largo plazo". Entonces, si tiene una pequeña muestra, ¿a quién le importa el "largo plazo"?
Idealmente, este "error de predicción" debería basarse en el contexto de su situación de modelado. Básicamente, desea responder la pregunta "¿Qué tan bien reproduce mi modelo los datos?". El contexto de su situación debería poder decirle qué significa "qué tan bien" en el mundo real. Luego debe traducir esto en algún tipo de ecuación matemática.
fuente
El paquete R hdm y el paquete Stata lassopack admiten una prueba de significación conjunta para el lazo. La teoría permite que el número de predictores sea grande en relación con el número de observaciones. La teoría detrás de la prueba y cómo aplicarla se explica brevemente en la documentación de hdm . En resumen, se basa en un marco para la penalización basada en la teoría (desarrollado por Belloni, Chernozhukov y Hansen, et al.). Este documento es un buen punto de partida si desea saber más sobre la teoría subyacente. El único inconveniente es que la prueba solo funciona para el lazo y (lazo de raíz cuadrada). No para otros métodos de regresión penalizados.
Belloni, A., Chen, D., Chernozhukov, V. y Hansen, C. (2012), Modelos y métodos dispersos para instrumentos óptimos con una aplicación al dominio eminente. Econometrica, 80: 2369-2429.
fuente