Jackknife vs. LOOCV

15

¿Existe realmente alguna diferencia entre la navaja y dejar una validación cruzada? El procedimiento parece idéntico ¿me estoy perdiendo algo?

Wintermute
fuente

Respuestas:

11

En la validación cruzada, se calcula una estadística en las muestras excluidas. Con mayor frecuencia, predice las muestras excluidas por un modelo construido sobre las muestras guardadas. En jackknifing, calcula una estadística solo de las muestras guardadas.

Tommy L
fuente
44
No entiendo cómo esta respuesta le habla al LOOCV en la pregunta original. ¿En qué sentido se puede "calcular una estadística" en una sola observación omitida?
Alexis
12

Jackknife a menudo se refiere a 2 procesos relacionados pero diferentes, los cuales se basan en un enfoque de dejar uno afuera, lo que lleva a esta confusión.

En un contexto, jackknife se puede usar para estimar los parámetros de la población y sus errores estándar. Por ejemplo, para usar un enfoque de navaja para estimar la pendiente y la intersección de un modelo de regresión simple, uno podría:

  1. Estime la pendiente e intercepte utilizando todos los datos disponibles.
  2. Omita 1 observación y calcule la pendiente y la intersección (también conocida como "estimación parcial" de los coeficientes).
  3. Calcule la diferencia entre la "estimación parcial" y la estimación de "todos los datos" de la pendiente y la intersección (también conocido como el "pseudovalor" de los coeficientes).
  4. Repita los pasos 2 y 3 para todo el conjunto de datos.
  5. Calcule la media de los pseudovalores para cada coeficiente; estas son las estimaciones de la pendiente y la intersección de jackknife

Los pseudovalores y las estimaciones de los coeficientes de jackknife también se pueden usar para determinar los errores estándar y, por lo tanto, los intervalos de confianza. Por lo general, este enfoque brinda intervalos de confianza más amplios para los coeficientes porque es una medida de incertidumbre mejor y más conservadora. Además, este enfoque también se puede utilizar para obtener una estimación del sesgo de jackknife para los coeficientes.

En el otro contexto, jackknife se utiliza para evaluar el rendimiento del modelo. En este caso jackknife = validación cruzada de dejar uno fuera. Ambos se refieren a dejar una observación fuera del conjunto de datos de calibración, recalibrar el modelo y predecir la observación que quedó fuera. Esencialmente, cada observación se predice usando sus "estimaciones parciales" de los predictores.

Aquí hay un pequeño artículo sobre Jackknife que encontré en línea: https://www.utdallas.edu/~herve/abdi-Jackknife2010-pretty.pdf

jcmb
fuente
1
A menos que me equivoque (y bien podría estarlo), su primer contexto describe la validación cruzada de dejar uno fuera .
Alexis
2
Solo estaba separando las ideas de estimar parámetros usando LOO versus estimar el valor que quedó fuera (como en LOOCV). Los veo como dos procesos relacionados pero ligeramente diferentes, pero ¿quizás ambos puedan ser referidos como LOOCV? También podría estar equivocado.
jcmb