¿Puede ser útil la regularización si solo estamos interesados en estimar (e interpretar) los parámetros del modelo, no en el pronóstico o la predicción?
Veo cómo la regularización / validación cruzada es extremadamente útil si su objetivo es hacer buenos pronósticos sobre nuevos datos. Pero, ¿qué pasa si estás haciendo economía tradicional y todo lo que te importa es estimar ? ¿La validación cruzada también puede ser útil en ese contexto? La dificultad conceptual con la que lucho es que podemos calcular en los datos de prueba, pero nunca podemos calcular porque la verdadera es, por definición, nunca observada. (Suponga que incluso existe una verdadera , es decir, que conocemos la familia de modelos a partir de los cuales se generaron los datos).L ( Y , Y ) L ( β , β ) β β
Suponga que su pérdida es . Te enfrentas a una compensación de varianza sesgada, ¿verdad? Entonces, en teoría, es mejor que hagas alguna regularización. Pero, ¿cómo puede seleccionar su parámetro de regularización?
Me encantaría ver un ejemplo numérico simple de un modelo de regresión lineal, con coeficientes , donde la función de pérdida del investigador es, por ejemplo, , o incluso solo . ¿Cómo, en la práctica, se podría usar la validación cruzada para mejorar la pérdida esperada en esos ejemplos?
Editar : DJohnson me señaló https://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdf , que es relevante para esta pregunta. Los autores escriben que
Las técnicas de aprendizaje automático ... proporcionan una forma disciplinada de predecir que (i) utiliza los datos en sí mismos para decidir cómo hacer el equilibrio de sesgo-varianza y (ii) permite buscar en un conjunto muy rico de variables y formas funcionales. Pero todo tiene un costo: siempre hay que tener en cuenta que, debido a que están ajustados para , no ofrecen (sin muchos otros supuestos) garantías muy útiles para .
Otro artículo relevante, nuevamente gracias a DJohnson: http://arxiv.org/pdf/1504.01132v3.pdf . Este documento aborda la pregunta con la que estaba luchando anteriormente:
Un ... desafío fundamental para aplicar métodos de aprendizaje automático, como los árboles de regresión listos para usar al problema de la inferencia causal, es que los enfoques de regularización basados en la validación cruzada generalmente se basan en la observación de la "verdad fundamental", es decir, los resultados reales en una muestra de validación cruzada. Sin embargo, si nuestro objetivo es minimizar el error cuadrático medio de los efectos del tratamiento, nos encontramos con lo que [11] llama el "problema fundamental de la inferencia causal": el efecto causal no se observa en ninguna unidad individual, por lo que no lo hacemos directamente tener una verdad fundamental Abordamos esto proponiendo enfoques para construir estimaciones imparciales del error cuadrático medio del efecto causal del tratamiento.
Respuestas:
Sí, cuando queremos estimaciones sesgadas de baja varianza. Me gusta especialmente la publicación de Gung aquí. ¿Qué problema resuelven los métodos de contracción? Permítame pegar la figura de Gung aquí ...
Si verifica la trama realizada por gung, tendrá claro por qué necesitamos regularización / contracción. Al principio, me parece extraño que ¿por qué necesitamos estimaciones sesgadas? Pero al observar esa cifra, me di cuenta, tener un modelo de baja varianza tiene muchas ventajas: por ejemplo, es más "estable" en el uso de producción.
fuente
Sí puede. Por ejemplo, el otro día estaba usando la estimación de importancia de parámetros a través de árboles de decisión. Cada vez que construyo un árbol, verifico el error de validación cruzada. Intento disminuir el error tanto como puedo, luego iré al siguiente paso de estimar la importancia de los parámetros. Es posible que si el primer árbol que construyes es muy malo y no verificas el error, tendrás respuestas menos precisas (si no incorrectas).
Creo que la razón principal se debe a la gran cantidad de variables de control que tiene cada técnica. Incluso un ligero cambio en una variable de control proporcionará un resultado diferente.
¿Cómo mejorar su modelo después de verificar el error de validación cruzada? Bueno, depende de tu modelo. Con suerte, después de intentarlo varias veces, obtendrá una idea de las variables de control más importantes y podrá manipularlas para encontrar un error bajo.
fuente