La pregunta: Bootstrapping es superior a jackknifing; Sin embargo, me pregunto si hay casos en los que la navaja es la única o al menos una opción viable para caracterizar la incertidumbre a partir de las estimaciones de los parámetros. Además, en situaciones prácticas, ¿qué tan sesgado / inexacto es el navajo en relación con el arranque, y pueden los resultados del navaja proporcionar información preliminar antes de que se desarrolle un arranque más complicado?
Algún contexto: un amigo está utilizando un algoritmo de aprendizaje automático de caja negra ( MaxEnt ) para clasificar datos geográficos que son "solo presencia" o "solo positivos". La evaluación general del modelo generalmente se realiza mediante validación cruzada y curvas ROC. Sin embargo, ella está utilizando la salida del modelo para derivar una descripción numérica única de la salida del modelo y le gustaría un intervalo de confianza alrededor de ese número; Jackknifing parece ser una forma razonable de caracterizar la incertidumbre en torno a este valor. Bootstrapping no parece relevante porque cada punto de datos es una ubicación única en un mapa que no se puede volver a muestrear con reemplazo. El programa de modelado en sí podría proporcionarle lo que necesita; Sin embargo, estoy interesado en general si / cuando jackknifing puede ser útil.
Respuestas:
ver también: Intervalo de confianza para la precisión de clasificación con validación cruzada
Por lo general, es decir, si el modelo está bien configurado, 2. solo se necesita para mostrar que es mucho más pequeño que la varianza en 1. y que, por lo tanto, el modelo es razonablemente estable. Si 2. resulta no despreciable, es hora de considerar modelos agregados: la agregación del modelo ayuda solo para la varianza causada por la inestabilidad del modelo, no puede reducir la incertidumbre de la varianza en la medición del rendimiento debido al número finito de casos de prueba .
La ventaja de la validación cruzada aquí es que obtiene una separación clara entre la incertidumbre causada por la inestabilidad del modelo y la incertidumbre causada por un número finito de casos de prueba. La desventaja correspondiente es, por supuesto, que si olvida tener en cuenta el número finito de casos reales, subestimará severamente la verdadera incertidumbre. Sin embargo, esto sucedería también para bootstrapping (aunque en menor medida).
Hasta ahora, el razonamiento se concentra en medir el rendimiento del modelo que deriva para un conjunto de datos dado . Si considera un conjunto de datos para la aplicación dada y del tamaño de muestra dado, hay una tercera contribución a la varianza que fundamentalmente no puede medirse mediante la validación de remuestreo, ver, por ejemplo, Bengio y Grandvalet: No hay un estimador imparcial de la varianza de la cruz K-Fold -Validación, Journal of Machine Learning Research, 5, 1089-1105 (2004). , también tenemos cifras que muestran estas tres contribuciones en Beleites et al. : Planificación del tamaño de la muestra para modelos de clasificación., Anal Chim Acta, 760, 25-33 (2013). DOI: 10.1016 / j.aca.2012.11.007 )
Creo que lo que sucede aquí es el resultado de la suposición de que el remuestreo es similar a extraer una muestra completamente nueva que se descompone.
Esto es importante si se comparan algoritmos / estrategias / heurísticas de construcción de modelos en lugar de construir un modelo particular para la aplicación y validar este modelo.
fuente