¿Existen estudios empíricos que justifiquen el uso de la única regla de error estándar a favor de la parsimonia? Obviamente, depende del proceso de generación de datos de los datos, pero cualquier cosa que analice un gran conjunto de conjuntos de datos sería una lectura muy interesante.
La "regla de un error estándar" se aplica al seleccionar modelos mediante validación cruzada (o más generalmente mediante cualquier procedimiento basado en la aleatorización).
Supongamos que consideramos los modelos indexados por un parámetro de complejidad , de modo que es "más complejo" que M _ {\ tau '} exactamente cuando \ tau> \ tau' . Supongamos además que evaluamos la calidad de un modelo M mediante algún proceso de aleatorización, por ejemplo, validación cruzada. Supongamos que q (M) denota la calidad "promedio" de M , p. Ej., El error de predicción medio fuera de bolsa en muchas ejecuciones de validación cruzada. Deseamos minimizar esta cantidad.
Sin embargo, dado que nuestra medida de calidad proviene de algún procedimiento de aleatorización, viene con variabilidad. Supongamos que denota el error estándar de la calidad de través de las ejecuciones de aleatorización, por ejemplo, la desviación estándar del error de predicción fuera de bolsa de sobre las ejecuciones de validación cruzada.
Luego elegimos el modelo , donde es el \ tau más pequeño de modo que
donde indexa el (en promedio) mejor modelo, .
Es decir, elegimos el modelo más simple (el \ tau más pequeño ) que no es más que un error estándar peor que el mejor modelo M _ {\ tau '} en el procedimiento de aleatorización.
He encontrado esta "regla de error estándar" mencionada en los siguientes lugares, pero nunca con una justificación explícita:
- Página 80 en Árboles de clasificación y regresión de Breiman, Friedman, Stone & Olshen (1984)
- Página 415 en Estimación del número de grupos en un conjunto de datos a través de la estadística de brecha de Tibshirani, Walther y Hastie ( JRSS B , 2001) (haciendo referencia a Breiman et al.)
- Páginas 61 y 244 en Elementos de aprendizaje estadístico por Hastie, Tibshirani y Friedman (2009)
- Página 13 en Aprendizaje estadístico con escasez por Hastie, Tibshirani y Wainwright (2015)
fuente
Respuestas:
El siguiente no es un estudio empírico , por lo que originalmente quería publicarlo como un comentario, no como una respuesta, pero realmente resulta demasiado largo para un comentario.
Cawley y Talbot ( J de Machine Learning Research , 2010) llaman la atención sobre la diferencia entre el sobreajuste durante la fase de selección del modelo y el sobreajuste durante la fase de ajuste del modelo.
El segundo tipo de sobreajuste es aquel con el que la mayoría de las personas está familiarizada: dado un modelo particular, no queremos sobreajustarlo, es decir, ajustarlo demasiado a las idiosincrasias particulares del conjunto de datos único que normalmente tenemos. ( Aquí es donde la contracción / regularización puede ayudar, intercambiando un pequeño aumento en el sesgo contra una gran disminución en la varianza ) .
Sin embargo, Cawley y Talbot argumentan que podemos equiparnos demasiado bien durante la etapa de selección del modelo. Después de todo, todavía tenemos típicamente un solo conjunto de datos, y estamos decidiendo entre diferentes modelos de complejidad variable. Evaluar cada modelo candidato para seleccionar uno generalmente implica ajustar ese modelo, lo que se puede hacer usando regularización o no. Pero esta evaluación en sí misma es nuevamente una variable aleatoria, porque depende del conjunto de datos específico que tengamos. Por lo tanto nuestra elección de una "óptima" pueden modelar en sí exhibir un sesgo, y se exhibirá una variación, ya que dependiendo de la serie de datos específicos de todos los conjuntos de datos que podríamos haber extraídas de la población.
Por lo tanto, Cawley y Talbot argumentan que simplemente elegir el modelo que mejor se desempeña en esta evaluación puede ser una regla de selección con un pequeño sesgo, pero puede exhibir una gran variación. Es decir, dados diferentes conjuntos de datos de entrenamiento del mismo proceso de generación de datos (DGP), esta regla puede seleccionar modelos muy diferentes, que luego se ajustarían y usarían para predecir en nuevos conjuntos de datos que nuevamente siguen el mismo DGP. Desde este punto de vista, restringir la varianza del procedimiento de selección del modelo pero incurrir en un pequeño sesgo hacia modelos más simples puede generar errores menores fuera de la muestra.
Cawley y Talbot no conectan esto explícitamente con la regla de error estándar, y su sección sobre "regularización de la selección del modelo" es muy corta. Sin embargo, la única regla de error estándar realizaría exactamente esta regularización y tomaría en cuenta la relación entre la varianza en la selección del modelo y la varianza del error de validación cruzada fuera de la bolsa.
Por ejemplo, a continuación se muestra la Figura 2.3 de Aprendizaje estadístico con escasez de Hastie, Tibshirani y Wainwright (2015) . La varianza de selección del modelo viene dada por la convexidad de la línea negra en su mínimo. Aquí, el mínimo no es muy pronunciado, y la línea es bastante débilmente convexa, por lo que la selección del modelo es probablemente bastante incierta con una alta varianza. Y, por supuesto, la varianza de la estimación de error de CV OOB viene dada por las múltiples líneas de color azul claro que indican errores estándar.
fuente
Para una justificación empírica, eche un vistazo a la página 12 en estas notas del curso de minería de datos de Tibshirani , que muestra el error de CV en función de lambda para un problema de modelado particular. La sugerencia parece ser que, por debajo de un cierto valor, todas las lambdas dan aproximadamente el mismo error de CV. Esto tiene sentido porque, a diferencia de la regresión de cresta, LASSO no se usa típicamente, ni siquiera principalmente, para mejorar la precisión de la predicción. Su principal argumento de venta es que hace que los modelos sean más simples e interpretables al eliminar los predictores menos relevantes / valiosos.
Ahora, para comprender la regla de error estándar, pensemos en la familia de modelos que obtenemos de variable . La figura de Tibshirani nos dice que tenemos un montón de modelos de complejidad media a alta que son casi iguales en precisión predictiva, y un montón de modelos de baja complejidad que no son buenos para la predicción. ¿Qué debemos elegir? Bueno, si estamos usando , probablemente estamos interesados en un modelo parsimonioso, por lo que probablemente preferiríamos el modelo más simple que explica nuestros datos razonablemente bien, parafraseando a Einstein. Entonces, ¿qué tal el modelo de menor complejidad que es "tan bueno" como todos esos modelos de alta complejidad? ¿Y cuál es una buena manera de medir "tan bueno"? Un error estándarL 1λ L1
fuente
Esto debe informarse en Estadísticas para datos de alta dimensión por Bühlmann y van de Geer.
fuente