Justificación empírica de la regla de error estándar cuando se utiliza la validación cruzada

39

¿Existen estudios empíricos que justifiquen el uso de la única regla de error estándar a favor de la parsimonia? Obviamente, depende del proceso de generación de datos de los datos, pero cualquier cosa que analice un gran conjunto de conjuntos de datos sería una lectura muy interesante.


La "regla de un error estándar" se aplica al seleccionar modelos mediante validación cruzada (o más generalmente mediante cualquier procedimiento basado en la aleatorización).

Supongamos que consideramos los modelos indexados por un parámetro de complejidad , de modo que es "más complejo" que M _ {\ tau '} exactamente cuando \ tau> \ tau' . Supongamos además que evaluamos la calidad de un modelo M mediante algún proceso de aleatorización, por ejemplo, validación cruzada. Supongamos que q (M) denota la calidad "promedio" de M , p. Ej., El error de predicción medio fuera de bolsa en muchas ejecuciones de validación cruzada. Deseamos minimizar esta cantidad.METROττRMETROτMETROττ>τMETROq(METRO)METRO

Sin embargo, dado que nuestra medida de calidad proviene de algún procedimiento de aleatorización, viene con variabilidad. Supongamos que s(METRO) denota el error estándar de la calidad de METRO través de las ejecuciones de aleatorización, por ejemplo, la desviación estándar del error de predicción fuera de bolsa de METRO sobre las ejecuciones de validación cruzada.

Luego elegimos el modelo METROτ , donde τ es el \ tau más pequeño de τmodo que

q(METROτ)q(METROτ)+s(METROτ),

donde τ indexa el (en promedio) mejor modelo, q(METROτ)=minτq(METROτ) .

Es decir, elegimos el modelo más simple (el \ tau más pequeño ) que no es más que un error estándar peor que el mejor modelo M _ {\ tau '} en el procedimiento de aleatorización.τMETROτ

He encontrado esta "regla de error estándar" mencionada en los siguientes lugares, pero nunca con una justificación explícita:

DavidShor
fuente
77
Aunque sé a qué se refiere con la "Regla de error estándar", sospecho firmemente que mucha gente no lo hará, pero estaría interesada en esta pregunta si lo hicieran. ¿Tal vez podría editar para agregar un par de oraciones explicativas? (Solo una sugerencia ...)
jbowman
2
@jbowman: acabo de editar la pregunta para explicar la única regla de error estándar, chocando ya que también estoy bastante interesado en esto ... y la respuesta a continuación en realidad no responde a mis preguntas. Cualquiera, no dude en mejorar.
S. Kolassa - Restablece a Mónica el
Relacionado: stats.stackexchange.com/questions/138569
dice Reinstate Monica
2
Sería un buen tema para un artículo. Parece una heurística de ingeniería sensata, pero no todos los SEH funcionan en la práctica, por lo que un estudio sobre una gran cantidad de conjuntos de datos sería interesante. Me pregunto si hay un problema de prueba de hipótesis múltiples involucrado que puede significar que no está muy bien calibrado, pero habría pensado que sería mejor que no hacer nada en los conjuntos de datos donde este tipo de sobreajuste es probable problema. La pregunta es ¿empeora mucho el rendimiento en los conjuntos de datos donde no es un problema?
Dikran Marsupial

Respuestas:

12

El siguiente no es un estudio empírico , por lo que originalmente quería publicarlo como un comentario, no como una respuesta, pero realmente resulta demasiado largo para un comentario.

Cawley y Talbot ( J de Machine Learning Research , 2010) llaman la atención sobre la diferencia entre el sobreajuste durante la fase de selección del modelo y el sobreajuste durante la fase de ajuste del modelo.

El segundo tipo de sobreajuste es aquel con el que la mayoría de las personas está familiarizada: dado un modelo particular, no queremos sobreajustarlo, es decir, ajustarlo demasiado a las idiosincrasias particulares del conjunto de datos único que normalmente tenemos. ( Aquí es donde la contracción / regularización puede ayudar, intercambiando un pequeño aumento en el sesgo contra una gran disminución en la varianza ) .

Sin embargo, Cawley y Talbot argumentan que podemos equiparnos demasiado bien durante la etapa de selección del modelo. Después de todo, todavía tenemos típicamente un solo conjunto de datos, y estamos decidiendo entre diferentes modelos de complejidad variable. Evaluar cada modelo candidato para seleccionar uno generalmente implica ajustar ese modelo, lo que se puede hacer usando regularización o no. Pero esta evaluación en sí misma es nuevamente una variable aleatoria, porque depende del conjunto de datos específico que tengamos. Por lo tanto nuestra elección de una "óptima" pueden modelar en sí exhibir un sesgo, y se exhibirá una variación, ya que dependiendo de la serie de datos específicos de todos los conjuntos de datos que podríamos haber extraídas de la población.

Por lo tanto, Cawley y Talbot argumentan que simplemente elegir el modelo que mejor se desempeña en esta evaluación puede ser una regla de selección con un pequeño sesgo, pero puede exhibir una gran variación. Es decir, dados diferentes conjuntos de datos de entrenamiento del mismo proceso de generación de datos (DGP), esta regla puede seleccionar modelos muy diferentes, que luego se ajustarían y usarían para predecir en nuevos conjuntos de datos que nuevamente siguen el mismo DGP. Desde este punto de vista, restringir la varianza del procedimiento de selección del modelo pero incurrir en un pequeño sesgo hacia modelos más simples puede generar errores menores fuera de la muestra.

Cawley y Talbot no conectan esto explícitamente con la regla de error estándar, y su sección sobre "regularización de la selección del modelo" es muy corta. Sin embargo, la única regla de error estándar realizaría exactamente esta regularización y tomaría en cuenta la relación entre la varianza en la selección del modelo y la varianza del error de validación cruzada fuera de la bolsa.

Por ejemplo, a continuación se muestra la Figura 2.3 de Aprendizaje estadístico con escasez de Hastie, Tibshirani y Wainwright (2015) . La varianza de selección del modelo viene dada por la convexidad de la línea negra en su mínimo. Aquí, el mínimo no es muy pronunciado, y la línea es bastante débilmente convexa, por lo que la selección del modelo es probablemente bastante incierta con una alta varianza. Y, por supuesto, la varianza de la estimación de error de CV OOB viene dada por las múltiples líneas de color azul claro que indican errores estándar.

una regla de error estándar

S. Kolassa - Restablece a Monica
fuente
1
Jaja, prueba esta búsqueda (o pon un guión en tu consulta).
ameba dice Reinstate Monica
2
Si solo tiene un parámetro de regularización, ese tipo de ajuste excesivo tiende a no ser demasiado problemático (ya que el problema de optimización solo tiene un grado de libertad), pero si tiene muchos parámetros de regularización (por ejemplo, determinación automática de relevancia para redes neuronales) entonces puede terminar rápidamente siendo muy sustancial. El único método SD es una buena heurística para evitar la optimización excesiva del parámetro de regularización, pero sería bueno intentar tener algo con un poco más de justificación (1/2)
Dikran Marsupial
1
Los dos enfoques que nosotros (la Sra. Marsupial y yo) hemos investigado es regularizar los hiperparámetros con un hiperparámetro que se integra analíticamente ( jmlr.csail.mit.edu/papers/volume8/cawley07a/cawley07a.pdf ) o para convertir algunos de los hiperparámetros en parámetros y ajustarlos directamente a los datos también, a expensas de agregar un parámetro de regularización adicional (pero eso todavía reduce los grados de libertad para la selección del modelo, por lo que todavía ayuda) ( theoval.cmp.uea.ac.uk/publications/pdf/nn2014a.pdf ) (2/2)
Dikran Marsupial
1
Por cierto, el ajuste excesivo en la selección del modelo puede dar como resultado que el modelo se ajuste demasiado o se ajuste al conjunto de entrenamiento, lo que puede hacer que el problema sea un poco más difícil de diagnosticar. Desde una perspectiva bayesiana, lo mejor que puede hacer no es optimizar, sino marginar sobre , pero eso es computacionalmente costoso o complicado o ambos. Una gran ventaja de la regla 1sd es que está en el otro extremo de ese espectro y, como ingeniero, me gustan las cosas simples que funcionan; o) (3/2)λ
Dikran Marsupial
1
Un hilo sobre el tema optimizing-lambda-vs-marginalizing-over-lambda que @DikranMarsupial mencionó es stats.stackexchange.com/questions/24799 . Esa discusión es sobre la regresión de la cresta, y la marginación es probablemente (?) Más complicada para el lazo / red elástica / etc., mientras que la belleza de CV es que es tan fácil de implementar.
ameba dice Reinstate Monica
12

Para una justificación empírica, eche un vistazo a la página 12 en estas notas del curso de minería de datos de Tibshirani , que muestra el error de CV en función de lambda para un problema de modelado particular. La sugerencia parece ser que, por debajo de un cierto valor, todas las lambdas dan aproximadamente el mismo error de CV. Esto tiene sentido porque, a diferencia de la regresión de cresta, LASSO no se usa típicamente, ni siquiera principalmente, para mejorar la precisión de la predicción. Su principal argumento de venta es que hace que los modelos sean más simples e interpretables al eliminar los predictores menos relevantes / valiosos.

Ahora, para comprender la regla de error estándar, pensemos en la familia de modelos que obtenemos de variable . La figura de Tibshirani nos dice que tenemos un montón de modelos de complejidad media a alta que son casi iguales en precisión predictiva, y un montón de modelos de baja complejidad que no son buenos para la predicción. ¿Qué debemos elegir? Bueno, si estamos usando , probablemente estamos interesados ​​en un modelo parsimonioso, por lo que probablemente preferiríamos el modelo más simple que explica nuestros datos razonablemente bien, parafraseando a Einstein. Entonces, ¿qué tal el modelo de menor complejidad que es "tan bueno" como todos esos modelos de alta complejidad? ¿Y cuál es una buena manera de medir "tan bueno"? Un error estándarL 1λL1

Paul
fuente
1
No entiendo la lógica de esta respuesta. Por ejemplo: "a diferencia de la regresión de cresta, LASSO no es un mecanismo para mejorar la precisión de la predicción", ¿por qué? ¿Por qué es L1 tan diferente de L2? En la siguiente oración, describe lo que sucede con L1 para lambdas bajas, pero creo que sucede lo mismo con L2 para lambdas bajas.
ameba dice Reinstate Monica
1
Tenga en cuenta que esta es una explicación heurística y se basa en algunos supuestos no declarados, como todos los predictores son informativos. Si tiene un montón de predictores de ruido y algunos informativos, de hecho podría haber un valor de lambda que optimice clara y notablemente la métrica CV: la que corresponde a la selección del subconjunto de predictores informativos. A medida que lambda disminuye por debajo de ese valor, solo está dejando entrar ruido y dañando el modelo.
Paul
1
Creo que el argumento funciona igualmente bien para cresta y lazo, si utiliza una definición amplia de parsimonia en la que más regularización -> modelo más simple. Sin embargo, es más fácil motivar para L1 que para L2 debido a los diferentes tipos de problemas y conjuntos de datos en los que se utilizan. Las personas que usan L1 están más interesadas en tener un modelo simple, y tienen más probabilidades de encontrar el tipo de curva de error CV exhibida por Tibshirani.
Paul
1
Del texto clásico de ESL , p. 224: "A menudo se usa una regla de" error de un estándar "con validación cruzada, en la que elegimos el modelo más parsimonioso cuyo error no es más que un error estándar por encima del error del mejor modelo". El ejemplo dado es la regresión del subconjunto y se muestra una curva en forma de rodilla frente al número de predictores. La curva es plana sobre el número correcto de predictores, lo que nuevamente es consistente con la explicación que he dado anteriormente. No se menciona ninguna justificación rigurosa o matemática.
Paul
1
Entonces, creo que el problema principal aquí es que el mínimo está mal determinado, pero el modelo más regularizado dentro de una sigma del mínimo está bien definido.
Paul
1

λλS^(λ)λ

λP(S0S^(λ))1S0

Esto debe informarse en Estadísticas para datos de alta dimensión por Bühlmann y van de Geer.

λ

Donbeo
fuente
1
¿Puedes entrar un poco más de detalle aquí? Esto parece fascinante.
DavidShor
1
λ
Creo que el hecho es que seleccionar más variables de las requeridas reducirá el rendimiento de la predicción menos que seleccionar no suficientes variables. Por esta razón, CV tiende a seleccionar más variables.
Donbeo
echa un vistazo a este libro springer.com/gp/book/9783642201912 y al capítulo del lazo aquí drive.google.com/open?id=0B3FIuCA5bZUaT2ZLWFBIZ1JYbHM
Donbeo
Este es el libro que quise decir
Donbeo