TL, DR: Parece que, al contrario de lo que se repite con frecuencia, la validación cruzada de dejar uno fuera (LOO-CV), es decir,plegar CV con(el número de pliegues) igual a N (el número de observaciones de entrenamiento): arroja estimaciones del error de generalización que son las menos variables para cualquier K , no las más variables, suponiendo una ciertacondición de estabilidad en el modelo / algoritmo, el conjunto de datos o ambos (no estoy seguro de qué es correcto ya que realmente no entiendo esta condición de estabilidad).
- ¿Alguien puede explicar claramente qué es exactamente esta condición de estabilidad?
- ¿Es cierto que la regresión lineal es uno de esos algoritmos "estables", lo que implica que, en ese contexto, LOO-CV es estrictamente la mejor opción de CV en lo que respecta al sesgo y la varianza de las estimaciones del error de generalización?
La sabiduría convencional es que la elección de en Kplv sigue una compensación de sesgo-varianza, tales valores más bajos de (aproximándose a 2) conducen a estimaciones del error de generalización que tienen un sesgo más pesimista, pero una varianza más baja, mientras que valores más altos de (acercándose a ) conducen a estimaciones menos sesgadas, pero con mayor varianza. La explicación convencional para este fenómeno de variación que aumenta con se da quizás de manera más prominente en Los Elementos del Aprendizaje Estadístico (Sección 7.10.1):
Con K = N, el estimador de validación cruzada es aproximadamente imparcial para el error de predicción verdadero (esperado), pero puede tener una gran varianza porque los N "conjuntos de entrenamiento" son muy similares entre sí.
La implicación es que los errores de validación de están más altamente correlacionados para que su suma sea más variable. Esta línea de razonamiento se ha repetido en muchas respuestas en este sitio (por ejemplo, aquí , aquí , aquí , aquí , aquí , aquí y aquí ), así como en varios blogs, etc. Pero en su lugar, prácticamente nunca se realiza un análisis detallado. solo una intuición o un breve bosquejo de cómo podría ser un análisis.
Sin embargo, uno puede encontrar declaraciones contradictorias, generalmente citando una cierta condición de "estabilidad" que realmente no entiendo. Por ejemplo, esta respuesta contradictoria cita un par de párrafos de un artículo de 2015 que dice, entre otras cosas, "Para los modelos / procedimientos de modelado con baja inestabilidad , LOO a menudo tiene la menor variabilidad" (énfasis agregado). Este artículo (sección 5.2) parece estar de acuerdo en que LOO representa la opción menos variable de siempre que el modelo / algoritmo sea "estable". Tomando incluso otra postura sobre el tema, también está este documento (Corolario 2), que dice "La variación de k veces la validación cruzada [...] no depende de k, "citando nuevamente una cierta condición de" estabilidad ".
La explicación sobre por qué LOO podría ser el CV pliegue más variable es lo suficientemente intuitiva, pero existe una contra-intuición. La estimación CV final del error cuadrático medio (MSE) es la media de las estimaciones MSE en cada pliegue. Entonces, a medida que K aumenta hasta N , la estimación de CV es la media de un número creciente de variables aleatorias. Y sabemos que la varianza de una media disminuye con el número de variables que se promedian. Entonces, para que LOO sea el CV de K- pliegues más variable , debería ser cierto que el aumento de la varianza debido a la mayor correlación entre las estimaciones de MSE supera la disminución de la varianza debido al mayor número de pliegues que se promedia sobre. Y no es del todo obvio que esto sea cierto.
Habiendo quedado completamente confundido pensando en todo esto, decidí ejecutar una pequeña simulación para el caso de regresión lineal. I simulado 10.000 conjuntos de datos con = 50 y 3 predictores no correlacionados, cada vez estimar el error de generalización usando K -fold CV con K = 2, 5, 10, o 50 = N . El código R está aquí. Estos son los medios y las variaciones resultantes de las estimaciones de CV en los 10.000 conjuntos de datos (en unidades MSE):
k = 2 k = 5 k = 10 k = n = 50
mean 1.187 1.108 1.094 1.087
variance 0.094 0.058 0.053 0.051
Estos resultados muestran el patrón esperado de que valores más altos de conducen a un sesgo menos pesimista, pero también parecen confirmar que la varianza de las estimaciones de CV es más baja, no más alta, en el caso LOO.
Por lo tanto, parece que la regresión lineal es uno de los casos "estables" mencionados en los documentos anteriores, donde el aumento de se asocia con una disminución en lugar de una variación creciente en las estimaciones de CV. Pero lo que aún no entiendo es:
- ¿Qué es precisamente esta condición de "estabilidad"? ¿Se aplica a modelos / algoritmos, conjuntos de datos o ambos en alguna medida?
- ¿Hay una manera intuitiva de pensar en esta estabilidad?
- ¿Cuáles son otros ejemplos de modelos / algoritmos o conjuntos de datos estables e inestables?
- ¿Es relativamente seguro suponer que la mayoría de los modelos / algoritmos o conjuntos de datos son "estables" y que, por lo tanto, debería elegirse tan alto como sea computacionalmente posible?
fuente
Respuestas:
Esta respuesta sigue a mi respuesta en Sesgo y varianza en la validación cruzada de dejar uno afuera versus K-fold que discute por qué LOOCV no siempre conduce a una mayor varianza. Siguiendo un enfoque similar, intentaré resaltar un caso en el que LOOCV conduce a una mayor variación en presencia de valores atípicos y un "modelo inestable".
Estabilidad algorítmica (teoría del aprendizaje)
El tema de la estabilidad algorítmica es reciente y se han demostrado varios resultados clásicos e influyentes en los últimos 20 años. Aquí hay algunos artículos que a menudo se citan
La mejor página para comprender es, sin duda, la página de Wikipedia, que proporciona un excelente resumen escrito por un usuario presumiblemente muy bien informado.
Definición intuitiva de estabilidad
Formalmente, hay media docena de versiones de estabilidad, unidas por condiciones técnicas y jerarquías, vea este gráfico desde aquí, por ejemplo:
Sin embargo, el objetivo es simple: queremos obtener límites estrechos en el error de generalización de un algoritmo de aprendizaje específico, cuando el algoritmo satisface el criterio de estabilidad. Como cabría esperar, cuanto más restrictivo sea el criterio de estabilidad, más estricto será el límite correspondiente.
Notación
La siguiente notación es del artículo de Wikipedia, que copia el documento de Bousquet y Elisseef:
Definiciones formales
Quizás la noción más fuerte de estabilidad que se espera que obedezca un algoritmo de aprendizaje interesante es la estabilidad uniforme :
Estabilidad uniforme Un algoritmo tiene una estabilidad uniforme con respecto a la función de pérdida V si se cumple lo siguiente:β V
Considerado como una función de , el término β puede escribirse como β m . Decimos que el algoritmo es estable cuando β m disminuye como 1m β βm βm . Una forma ligeramente más débil de estabilidad es:1m
Hipótesis de estabilidad
Si se extrae un punto, la diferencia en el resultado del algoritmo de aprendizaje se mide por la diferencia absoluta promedio de las pérdidas ( NORM). Intuitivamente: pequeños cambios en la muestra solo pueden hacer que el algoritmo se mueva a hipótesis cercanas.L1
La ventaja de estas formas de estabilidad es que proporcionan límites para el sesgo y la varianza de los algoritmos estables. En particular, Bousquet demostró estos límites para la estabilidad Uniforme e Hipótesis en 2002. Desde entonces, se ha trabajado mucho para tratar de relajar las condiciones de estabilidad y generalizar los límites, por ejemplo, en 2011, Kale, Kumar, Vassilvitskii sostienen que la estabilidad cuadrática media proporciona una mejor varianza cuantitativa límites de reducción de varianza.
Algunos ejemplos de algoritmos estables.
Se ha demostrado que los siguientes algoritmos son estables y tienen límites de generalización probados:
Una simulación experimental
Repitiendo el experimento del hilo anterior ( ver aquí ), ahora presentamos una cierta proporción de valores atípicos en el conjunto de datos. En particular:
Como el modelo polinomial de órdenes no está regularizado, estará fuertemente influenciado por la presencia de algunos valores atípicos para pequeños conjuntos de datos. Para conjuntos de datos más grandes, o cuando hay más valores atípicos, su efecto es menor ya que tienden a cancelarse. Vea a continuación dos modelos para 60 y 200 puntos de datos.3
Realizando la simulación como anteriormente y trazando el MSE promedio resultante y la varianza del MSE, se obtienen resultados muy similares al Experimento 2 del artículo de Bengio & Grandvalet 2004 .
Lado izquierdo : sin valores atípicos. Lado derecho : 3% de valores atípicos.
(ver el artículo vinculado para la explicación de la última figura)
Explicaciones
Citando la respuesta de Yves Grandvalet en el otro hilo:
En la práctica, es bastante difícil simular un aumento en la varianza debido a LOOCV. Requiere una combinación particular de inestabilidad, algunos valores atípicos pero no demasiados, y una gran cantidad de iteraciones. Quizás esto se espera ya que se ha demostrado que la regresión lineal es bastante estable. Un experimento interesante sería repetir esto para datos de dimensiones superiores y un algoritmo más inestable (por ejemplo, árbol de decisión)
fuente
Daré mi respuesta en el contexto del párrafo que usted cita:
El estimador CV del error de predicción verdadero (esperado) se basa en un ejemplo de conjunto de entrenamiento, por lo que aquí, la expectativa es sobre las muestras del conjunto de entrenamiento, cuando lo entiendo correctamente.
Entonces, lo que dice este párrafo con respecto a la "varianza alta" es que hay una diferencia "alta" entre el error esperado y el error estimado por CV (que es aquí, el promedio sobre pliegues).
Esto tiene sentido porque el modelo se ajusta a un conjunto de entrenamiento en particular y porque todos los pliegues de entrenamiento son muy similares dentro de Leave-One-Out. Sin embargo, si bien los pliegues de entrenamiento son muy similares dentro de una ronda de CV, la estimación probablemente difiere mucho si intercambiamos muestras de entrenamiento por CV. En k-fold CV, dado que "diversificamos" los pliegues de entrenamiento, tenemos un efecto promedio y, a través de k-fold, las estimaciones varían menos.
O, en otras palabras, el estimador de CV de dejar uno fuera es básicamente casi como un método de retención si no gira los pliegues y basa su estimación de error en un conjunto de validación. Nuevamente, en los ejemplos de entrenamiento, habrá una gran variación en comparación con las estimaciones de k-fold, donde promedias los pliegues al entrenar modelos algo diversos dentro de la ronda de k-fold (en otras palabras, si intercambias conjuntos de entrenamiento, las estimaciones de el error a través de k-fold probablemente no variará tanto).
EDITAR:
Cuando leo algunas respuestas aquí sobre validación cruzada e Internet en general, creo que parece haber cierta confusión a qué estimador nos referimos. Creo que algunas personas se refieren a un modelo que tiene una alta varianza (es decir, ML habla de la pérdida que tiene un componente de varianza dominante) frente a una alta varianza del estimador de CV k veces. Y, otro conjunto de respuestas se refieren a la varianza como la varianza de muestra con respecto a los pliegues cuando alguien dice "k-fold tiene una alta varianza". Por lo tanto, sugiero ser específico, porque las respuestas son diferentes en cualquier caso.
fuente
Hemos pasado por esto antes: te estás volviendo demasiado matemático sobre un caballo muerto. Vea el artículo clásico de Ron Kohavi (Stanford-Univ) sobre CV y el dilema de la desviación del sesgo aquí . Cuando termine de leer esto, no querrá realizar LOOCV, y es probable que se sienta atraído por un CV de 10 veces y / o un CV de sesgo de arranque.
También debe pensar en grandes conjuntos de datos, para los cuales LOOCV es demasiado costoso computacionalmente. En la actualidad, LOOCV no es realmente una opción en los flujos de trabajo / canalizaciones de la mayoría de los grupos.
En el universo de todas las funciones de costo y en el universo de todos los conjuntos de características, no asumiría que hay un índice general de "estabilidad", porque no sería inadmisible y sería demasiado propenso a descomponerse bajo un conjunto infinitamente grande de condiciones Fundamentalmente,k = n es apropiado cuando los parámetros df y / o # son tan grandes que se necesitan más datos de capacitación. El sesgo también será mayor parak = n , ya que se utilizan más datos, y la varianza sería artificialmente cero, ya que los conjuntos de datos de entrenamiento son demasiado similares entre sí. También estaría aprendiendo más ruido en los datos cuandok = n .
LREG como clasificador funcionaría cuando los datos son linealmente separables, pero en promedio su sesgo sería demasiado alto, ya que muchos conjuntos de datos no son linealmente separables.
En mi opinión, no, ya que no existe una regla general sobre la estabilidad.
Esto es abierto y demasiado amplio, ya que se puede idear un número infinitamente grande de respuestas, lo que no sería útil.
No. No. Confiando solo enk asume que crees en los datos. Un ejemplo son los bosques aleatorios, para los cuales realmente no hayk . Si bien aproximadamente el 37% de los datos se usarán para las pruebas (en promedio, el 37% de los objetos no se seleccionan al muestrear con reemplazo), por ejemplo, hay 5,000 conjuntos de datos diferentes (bootstraps), cada uno de los cuales se divide en entrenamiento / prueba de manera diferente. Su ejemplo extraído de los documentos asumió que cada conjunto de datos utilizado era una verdadera realización de los datos, lo cual es una suposición errónea.
Dado el arranque, la regla de estabilidad que rodeak es admisible, ya que la muestra de datos utilizada para un enfoque CV simple que involucra k No es una verdadera realización del universo de todos los datos de los que se obtuvo la muestra.
fuente