Nota: Si bien creo que mi respuesta es probablemente correcta, también me siento dudoso debido a que inventé todo esto pensando en este problema solo después de leer esta pregunta durante aproximadamente 30-60 minutos. Por lo tanto, es mejor que sea escéptico y escudriñe esto y no se deje engañar por mi estilo de escritura posiblemente demasiado confiado (usar palabras grandes y símbolos griegos elegantes no significa que tenga razón).
Resumen
Esto es solo un resumen. Todos los detalles se mencionan en las secciones y § 2 a continuación.§1§2
Asumamos el caso de la clasificación (también puede extenderse a la regresión, pero omita por brevedad). Esencialmente, nuestro objetivo es estimar el error de un bosque de árboles. Tanto el error fuera de bolsa como la validación cruzada k-fold intentan decirnos la probabilidad de que:
- El bosque da la clasificación correcta (la validación cruzada k-fold lo ve de esta manera).
Lo cual es idéntico a la probabilidad de que:
- El voto mayoritario de los árboles del bosque es el voto correcto (OOBE lo ve de esta manera).
Y ambos son idénticos. La única diferencia es que la validación cruzada k-fold y OOBE asumen diferentes tamaños de muestras de aprendizaje. Por ejemplo:
- En la validación cruzada 10 veces, el conjunto de aprendizaje es del 90%, mientras que el conjunto de prueba es del 10%.
- Sin embargo, en OOBE si cada bolsa tiene muestras, de modo que n = número total de muestras en todo el conjunto de muestras, esto implica que el conjunto de aprendizaje es prácticamente del 66% (dos tercios) y el conjunto de prueba es del 33% ( un tercio).nn=
Por lo tanto, en mi opinión, la única razón por la que OOBE es una estimación pesimista del error del bosque es solo porque generalmente se entrena con un número menor de muestras que las que generalmente se realizan con la validación cruzada k-fold (donde 10 pliegues es común).
Debido a eso, también creo que la validación cruzada doble será una estimación más pesimista del error del bosque que OOBE, y la validación cruzada triple será aproximadamente igual de pesimista que OOBE.
1. Entender el error de la bolsa
1.1 Visión común sobre el embolsado
Cada árbol en RF se cultiva mediante una lista de muestras que se extraen aleatoriamente del conjunto de aprendizaje X con reemplazo. De esta manera, las n muchas muestras pueden tener duplicados, y si n = | X | entonces se puede encontrar que aproximadamente un tercio de las muestras en X es probable que terminen no en la lista de nnXnn=|X|Xn muestras que se utilizan para cultivar un árbol dado (estas son las muestras de este árbol específico que bolsa). Este proceso se repite de forma independiente para cada árbol, por lo que cada árbol tiene un conjunto diferente de muestras fuera de bolsa.
1.2. Otra vista sobre el embolsado
Ahora, volvamos a describir el embolsado de manera un poco diferente con la esperanza de encontrar una descripción igual que sea más fácil de manejar.
Hago esto indica que el árbol es entrenado por las muestras en bolsas en el conjunto X t ⊆ X . Sin embargo, esto no es exactamente cierto ya que el conjunto X t no tiene muestras duplicadas (así es como funcionan los conjuntos), mientras que, por otro lado, la n lista de muestras puede tener duplicados.tXt⊆XXtn
Por lo tanto, podemos decir que un árbol se cultiva analizando muestras X t más un número de duplicados elegidos al azar extraídos de X t , a saber, X t , 1 , X t , 2 , ... , X t , r ⊆ X t , tales que:
| X t | + r ∑ i = 1 | X t , i | = ntXt XtXt,1,Xt,2,…,Xt,r⊆Xt
|Xt|+∑i=1r|Xt,i|=n
C={Xt,Xt,1,…,Xt,r}nCi∈Ca1≤p≤nia[p]∈Ci.
naXt§2a
1.3. Simplificando el ensacado
taXt
ntXtt′a
Xt
Y la razón por la que creo que las entropías no cambiarán sistemáticamente para una división dada es porque la probabilidad medida empíricamente de que una muestra tenga una etiqueta específica en algún subconjunto (después de aplicar una división de decisión) tampoco cambiará.
Xtd
1.4 Medición de errores fuera de bolsa
OttOt=X∖Xtt
total x in Ot correctly classified by t|Ot|
nt∑ntt=1total x in Ot correctly classified by t∑ntt=1|Ot|
2. Comprender la validación cruzada de k-fold
XnkK={K1,K2,…,Knk}K1∪K2∪…∪Knk=XKi,Kj∈KKi∩Kj=∅
KtK∖{Kt}
fK∖{Kt}
f
∑nkt=1total x in Kt correctly classified by f∑nkt=1|Kt|
f