Aquí @gung hace referencia a la regla .632+. Una búsqueda rápida en Google no proporciona una respuesta fácil de entender sobre lo que significa esta regla y para qué se utiliza. ¿Alguien aclararía la regla .632+?
Llegaré al estimador 0.632, pero será un desarrollo algo largo:
Supongamos que queremos predecir con usando la función , donde puede depender de algunos parámetros que se estiman usando los datos , por ejemploX f f ( Y , X ) f ( X ) = X β
Una estimación ingenua del error de predicción es donde es alguna función de pérdida, por ejemplo, pérdida de error al cuadrado. Esto a menudo se llama error de entrenamiento. Efron y col. lo llama tasa de error aparente o tasa de restitución. No es muy bueno ya que usamos nuestros datos para ajustar . Esto da como resultado que esté sesgado hacia abajo. Desea saber qué tan bien funciona su modelo en la predicción de nuevos valores.L(xi,yi)f¯errf
A menudo utilizamos la validación cruzada como una forma simple de estimar el error de predicción extramuestra esperado (¿qué tan bien funciona nuestro modelo con los datos que no están en nuestro conjunto de capacitación?).
Una forma popular de hacer esto es hacer una validación cruzada -fold. Divide tus datos en grupos (por ejemplo, 10). Para cada grupo , ajuste su modelo en los grupos restantes y pruébelo en el grupo . Nuestro error de predicción de muestra adicional con validación cruzada es solo el promedio donde es alguna función de índice que indica la partición a la que se asigna la observación y es el valor predicho de utilizando datos que no están en el conjunto th.K k K - 1 k E r r C V = 1κif-κ(i)(xi)xiκ(i)
Este estimador es aproximadamente imparcial para el verdadero error de predicción cuando y tiene una mayor varianza y es más costoso computacionalmente para más grande . Entonces, una vez más, vemos el equilibrio entre sesgo y varianza en juego.K
En lugar de la validación cruzada, podríamos usar el bootstrap para estimar el error de predicción de muestra extra. El remuestreo de Bootstrap se puede usar para estimar la distribución de muestreo de cualquier estadística. Si nuestros datos de entrenamiento son , entonces podemos pensar en tomar muestras de arranque (con reemplazo) de este conjunto donde cada es un conjunto de muestras. Ahora podemos usar nuestras muestras de arranque para estimar el error de predicción de muestra extra: donde es el valor predicho en desde el modelo ajustado alB Z 1 , … , Z B Z i N E r r b o o t = 1fb(xi)xibfb(xi)xiErrboot(1)=1
Sin embargo, si tenemos una función de predicción altamente sobreajustada (es decir, ), incluso el estimador .632 estará sesgado hacia abajo. El estimador .632+ está diseñado para ser un compromiso menos sesgado entre y . con donde es la tasa de error sin información, estimada mediante la evaluación del modelo de predicción en todas las combinaciones posibles de objetivos y predictores .
Aquí mide la tasa de sobreajuste relativo. Si no hay sobreajuste (R = 0, cuando ) es igual al estimador .632.
Encontrará más información en la sección 3 de este 1 artículo. Pero para resumir, si llama a una muestra de números de dibujados al azar y con reemplazo, contiene en promedio aproximadamente elementos únicosS n {1:n} S (1−e−1)n≈0.63212056n
El razonamiento es como sigue. Rellenamos muestreando veces (aleatoriamente y con reemplazo) de . Considere un índice particular .S={s1,…,sn} i=1,…,n {1:n} m∈{1:n}
Entonces:
y
y esto es cierto (intuitivamente, dado que tomamos muestras con reemplazo, las probabilidades no dependen de )∀1≤i≤n i
así
También puede llevar esta pequeña simulación para verificar empíricamente la calidad de la aproximación (que depende de ):n
1. Bradley Efron y Robert Tibshirani (1997). Mejoras en la validación cruzada: el método Bootstrap .632+ . Revista de la Asociación Americana de Estadística , vol. 92, núm. 438, págs. 548--560.
fuente
En mi experiencia, basada principalmente en simulaciones, las variantes de bootstrap 0.632 y 0.632+ solo se necesitaban debido a problemas graves causados por el uso de una regla de puntaje de precisión incorrecta, a saber, la proporción "clasificada" correctamente. Cuando utiliza las reglas de puntuación adecuadas (p. Ej., Basadas en desviaciones o Brier) o semi-apropiadas (p. Ej., -index = AUROC), la rutina estándar de optimismo de Efron-Gong funciona bien.c
fuente
Esas respuestas son muy útiles. No pude encontrar una manera de demostrarlo con las matemáticas, así que escribí un código de Python que funciona bastante bien:
fuente