¿Es Random Forest una buena opción para la clasificación de datos desequilibrados? [cerrado]

A pesar del parecido y otros enfoques de variabilidad de datos cada vez mayores, ¿puede el bosque aleatorio "como un algoritmo" considerarse una buena opción para la clasificación de datos desequilibrados?

machine-learning classification data-mining supervised-learning statistical-learning mhdella
fuente

No se . (Por favor, sea más específico en su pregunta, ya que es demasiado amplia. Debe aclarar su situación y lo que quiere decir con la declaración "como un algoritmo", en lugar de otra cosa).

ussr11852

@ usεr11852 No creo que sea demasiado amplio, solo tiene una respuesta de una palabra.

shadowtalker

Lo que quise decir con algoritmo se compara con otras herramientas de clasificación como SVM, regresión logística ... ¿Se considera RF una buena opción?

mhdella

¿Por qué no edita su pregunta para mostrar qué comparadores está considerando y en qué situación prevé utilizar el método elegido?

mdewey

@ssdecontrol: estoy a favor de respuestas concisas; Sin embargo, rara vez encontré respuestas de una palabra muy esclarecedoras. Su propia respuesta es una prueba de eso (ya que no tiene una sola palabra: D).

usεr11852

Respuestas:

Es no una buena opción.

Los bosques aleatorios se construyen sobre árboles de decisión, y los árboles de decisión son sensibles al desequilibrio de clase . Cada árbol está construido en una bolsa, y cada bolsa es una muestra aleatoria uniforme de los datos (con reemplazo). Por lo tanto, cada árbol estará sesgado en la misma dirección y magnitud (en promedio) por desequilibrio de clase.

Existen varias técnicas para reducir o mitigar el desequilibrio de clases, algunas de las cuales son generales y otras específicas de bosques aleatorios. Ese tema ha sido ampliamente discutido aquí y en otros lugares.

editar: agregaría que no creo que sea dramáticamente peor que cualquier otra opción, por ejemplo, la regresión logística, aunque no tengo evidencia de ello

Shadowtalker
fuente

aumente el tamaño de las muestras de bootstrap ... para obtener tanto la clase en cada muestra.

Arpit Sisodia

@ArpitSisodia que todavía dará como resultado muestras desequilibradas. Tendría que usar pesos de muestreo para sobremuestrear la clase más rara en cada muestra de bootstrap antes de construir el árbol.

shadowtalker

Esta respuesta obstinada es engañosa, ya que el bosque aleatorio es una gran opción, especialmente porque una RF puede ser ponderada fácilmente por clase. Siga las mejores prácticas útiles de proporcionar una contrapropuesta cuando diga no, de lo contrario decir que no es más dañino de lo que es útil.

SwimBikeRun

Las clases desequilibradas son solo un problema si también tiene un desequilibrio de costos de clasificación errónea. Si hay clases minoritarias pequeñas y no es más costoso clasificarlas como una clase mayoritaria que al revés, entonces lo racional es permitir una clasificación errónea de las clases minoritarias.

Así que supongamos que tiene un desequilibrio de clase y costo. Hay múltiples formas de lidiar con esto. El libro de Max Kuhn "Modelización predictiva aplicada" tiene una buena visión general en el capítulo 16. Esos remedios incluyen el uso de un punto de corte distinto de 0.5 que refleja los costos desiguales. Esto es fácil de hacer en la clasificación binaria siempre que su clasificador muestre probabilidades de etiqueta (los árboles y los bosques lo hacen). Todavía no lo he investigado para varias clases. También puede sobremuestrear la clase minoritaria para darle más peso.

David Ernst
fuente

No creo que esto sea correcto. Si tengo el mismo costo de clasificación errónea, pero mi modelo está predispuesto a sobreestimar una clase, todavía me queda un modelo sesgado al final del día.

shadowtalker

Sin embargo, no importaría. Los casos de cáncer son mucho menores que los pacientes sanos. Sin embargo, debe predecir de manera confiable a los pacientes con cáncer porque perder uno es mucho más costoso que predecir demasiados. Si tuviera un conjunto de datos con 99.9% de personas sanas y 0.1% de casos de resfriado común, el mejor clasificador simplemente ignoraría esos casos de resfriado común.

David Ernst