He leído en algunas fuentes, incluida esta , que los bosques aleatorios no son sensibles a los valores atípicos (en la forma en que lo son la regresión logística y otros métodos de LD, por ejemplo).
Sin embargo, dos piezas de intuición me dicen lo contrario:
Cada vez que se construye un árbol de decisión, todos los puntos deben clasificarse. Esto significa que incluso los valores atípicos se clasificarán y, por lo tanto, afectarán los árboles de decisión donde fueron seleccionados durante el impulso.
Bootstrapping es parte de cómo RandomForest realiza submuestreo. Bootstrapping es susceptible a los valores atípicos.
¿Hay alguna manera de conciliar mi intuición sobre su sensibilidad a los valores atípicos, con fuentes que no están de acuerdo?
fuente
min_samples_leaf_node
es así1
, entonces podría ser susceptible a los valores atípicos.Respuestas:
Tu intuición es correcta. Esta respuesta simplemente lo ilustra en un ejemplo.
De hecho, es un error común pensar que CART / RF son de alguna manera robustos para los valores atípicos.
Para ilustrar la falta de robustez de RF ante la presencia de valores atípicos únicos, podemos (ligeramente) modificar el código utilizado en la respuesta de Soren Havelund Welling anterior para mostrar que un solo valor atípico 'y' es suficiente para influir completamente en el modelo de RF ajustado. Por ejemplo, si calculamos el error de predicción medio de las observaciones no contaminadas en función de la distancia entre el valor atípico y el resto de los datos, podemos ver (imagen a continuación) que la introducción de un valor atípico único (reemplazando una de las observaciones originales por un valor arbitrario en el espacio 'y') es suficiente para sacar las predicciones del modelo de RF arbitrariamente lejos de los valores que habrían tenido si se hubieran calculado sobre los datos originales (no contaminados):
¿Cuán lejos? En el ejemplo anterior, el valor atípico único ha cambiado tanto el ajuste que las observaciones de error de predicción medio (en el no contaminado) ahora son 1-2 órdenes de magnitud más grandes de lo que hubieran sido, si el modelo se hubiera ajustado a los datos no contaminados.
Por lo tanto, no es cierto que un solo valor atípico no pueda afectar el ajuste RF.
Además, como señalo en otra parte , los valores atípicos son mucho más difíciles de manejar cuando potencialmente hay varios de ellos (aunque no necesitan ser una gran proporción de los datos para que se muestren sus efectos). Por supuesto, los datos contaminados pueden contener más de un valor atípico; Para medir el impacto de varios valores atípicos en el ajuste de RF, compare la gráfica a la izquierda obtenida de la RF en los datos no contaminados con la gráfica a la derecha obtenida cambiando arbitrariamente el 5% de los valores de las respuestas (el código está debajo de la respuesta) .
Finalmente, en el contexto de regresión, es importante señalar que los valores atípicos pueden destacarse del grueso de los datos tanto en el espacio de diseño como de respuesta (1). En el contexto específico de RF, los valores atípicos de diseño afectarán la estimación de los hiperparámetros. Sin embargo, este segundo efecto es más manifiesto cuando el número de dimensión es grande.
Lo que observamos aquí es un caso particular de un resultado más general. La extrema sensibilidad a los valores atípicos de los métodos de ajuste de datos multivariados basados en funciones de pérdida convexa se ha redescubierto muchas veces. Ver (2) para una ilustración en el contexto específico de los métodos de LD.
Editar.
fuente
p
ys
en la fórmula?valor atípico 1a: este valor atípico tiene uno o más valores de entidad extremos y se coloca distante de cualquier otra muestra. El valor atípico influirá en las divisiones iniciales de los árboles como cualquier otra muestra, por lo que no hay una fuerte influencia. Tendrá poca proximidad a cualquier otra muestra y solo definirá la estructura del modelo en una parte remota del espacio de características. Durante la predicción, es probable que la mayoría de las muestras nuevas no sean similares a este valor atípico, y rara vez terminarán en el mismo nodo terminal. Además, los árboles de decisión consideran las características como si fueran ordinales (clasificación). El valor es menor / igual o mayor que el punto de ruptura, por lo tanto, no importa si un valor de entidad es un valor atípico extremo.
valor atípico 1b: para la clasificación, una sola muestra puede considerarse como un valor atípico, cuando se incrusta en el medio de muchas muestras de una clase diferente. Describí anteriormente cómo un modelo de RF predeterminado se verá influenciado por esta muestra de clase impar, pero solo muy cerca de la muestra.
valor atípico 2: este valor atípico tiene un valor objetivo extremo tal vez muchas veces mayor que cualquier otro valor, pero los valores de las características son normales. Una fracción de .631 de los árboles tendrá un nodo terminal con esta muestra. La estructura del modelo se verá afectada localmente cerca del valor atípico. Observe que la estructura del modelo se ve afectada principalmente paralela al eje de la característica, porque los nodos se dividen de forma univariable.
Incluí una simulación de regresión de RF de outlier_2. 1999 puntos extraídos de una estructura redondeada lisay= ( x4 41+ x4 42)12 y un valor atípico con un valor objetivo mucho más alto (y = 2, X1 = 0,X2 = 0). El conjunto de entrenamiento se muestra a la izquierda. La estructura de modelo de RF aprendida se muestra a la derecha.
EDITAR: comentar al usuario603
Sí, para valores extremos extremos en la escala objetivo, uno debe considerar transformar la escala objetivo antes de ejecutar RF. Agregué a continuación una función robustaModel () que ajusta randomForest. Otra solución sería registrar la transformación antes del entrenamiento.
fuente
y[1]=200
, verá que, por sí solo, causa que el error de predicción en las observaciones no contaminadas salte por un factor de 20.No es el algoritmo Random Forest en sí mismo el que es robusto para los valores atípicos, sino el alumno base en el que se basa: el árbol de decisión . Los árboles de decisión aíslan las observaciones atípicas en hojas pequeñas (es decir, pequeños subespacios del espacio original). Además, los árboles de decisión son modelos locales . A diferencia de la regresión lineal, donde la misma ecuación es válida para todo el espacio, se ajusta localmente un modelo muy simple a cada subespacio (es decir, a cada hoja).
Por lo tanto, para la regresión, por ejemplo, los valores extremos no afectan a todo el modelo porque se promedian localmente. Por lo tanto, el ajuste a los otros valores no se ve afectado.
En realidad, esta propiedad deseable se traslada a otras estructuras en forma de árbol, como los dendogramas. La agrupación jerárquica, por ejemplo, se ha utilizado durante mucho tiempo para la limpieza de datos porque aísla automáticamente las observaciones aberrantes en pequeños grupos. Ver por ejemplo Loureiro et al. (2004) Detección de valores atípicos mediante métodos de agrupación: una aplicación de limpieza de datos .
En pocas palabras, RF hereda su insensibilidad a los valores atípicos de la partición recursiva y el ajuste del modelo local .
Tenga en cuenta que los árboles de decisión son modelos de bajo sesgo pero de alta varianza: su estructura es propensa a cambiar con una pequeña modificación del conjunto de entrenamiento (eliminación o adición de algunas observaciones). Pero esto no debe confundirse con la sensibilidad a los valores atípicos, este es un asunto diferente.
fuente
labeled
ounlabeled
datos? ¿Y cómo se lograría esta agrupación en datos heterogéneos que contienen características categóricas y numéricas?