¿Cuál es el mejor clasificador de 2 clases listo para usar para su aplicación? [cerrado]

Respuestas:

14

Bosque al azar

  • captura fácilmente una estructura complicada / relación no lineal
  • invariante a la escala de las variables
  • no es necesario crear variables ficticias para predictores categóricos
  • la selección de variables no es muy necesaria
  • relativamente difícil de sobreajustar
Łukasz Lew
fuente
Selección de motivos activos de aptámeros, pronóstico de humedad del suelo forestal, OCR de dígitos, análisis de imágenes satelitales multiespectrales, recuperación de información musical, quimiometría ...
13

Regresión logística :

  • rápido y funciona bien en la mayoría de los conjuntos de datos
  • casi no hay parámetros para sintonizar
  • maneja ambas funciones discretas / continuas
  • el modelo es fácilmente interpretable
  • (no realmente restringido a clasificaciones binarias)
Amro
fuente
Quizás no hay parámetros para ajustar, pero uno realmente tiene que trabajar con variables continuas (transformaciones, splines, etc.) para inducir la no linealidad.
B_Miner
12

Máquinas de vectores soporte

Łukasz Lew
fuente
No hay nada realmente especial sobre el SVM, aparte de que obliga al usuario a pensar en la regularización. Para la mayoría de los problemas prácticos, la regresión de cresta [kernel] funciona igual de bien.
Dikran Marsupial
2
@dikran, creo que SVM es un gran clasificador porque es escaso y robusto para los valores atípicos: ¡esto no es cierto para la regresión logística! y es por eso que SVM es un clasificador de vanguardia. El único problema que puede ser un problema es la complejidad del tiempo, pero creo que está bien.
suncoolsu
@suncoolsu Si desea escasez, obtiene más escasez de la regresión logística regularizada con LASSO que con el SVM. La escasez de SVM es un subproducto de la función de pérdida, por lo que no obtiene tanto como con un algoritmo donde la escasez es un objetivo de diseño. También a menudo con el valor óptimo del hiperparámetro (por ejemplo, elegido mediante validación cruzada), la mayor parte de la dispersión de la SVM desaparece. SVM no es más robusto para los valores atípicos que la regresión logística regularizada: lo más importante es la regularización, no la pérdida de bisagra.
Dikran Marsupial
@Dikran - mi punto exacto - algún tipo de penalización es importante. Puede obtener eso usando Priors, agregando Penalización, etc.
suncoolsu
1
@suncoolsu En cuyo caso, el SVM no es un gran clasificador, es solo uno entre muchos clasificadores regularizados, como la regresión de cresta, la regresión logística regularizada, los procesos gaussianos. El principal beneficio de la SVM es su atractivo de la teoría del aprendizaje computacional. En la práctica, otras consideraciones son más importantes, como si necesita un clasificador probabilístico, donde es probable que otras funciones de pérdida sean superiores. En mi humilde opinión, se presta demasiada atención a la SVM, en lugar de la familia más amplia de métodos de kernel.
Dikran Marsupial
7

Discriminante regularizado por problemas supervisados ​​con datos ruidosos

  1. Computacionalmente eficiente
  2. Robusto al ruido y valores atípicos en los datos
  3. Los clasificadores discriminantes lineales (LD) y cuadráticos (QD) se pueden obtener de la misma implementación estableciendo los parámetros de regularización '[lambda, r]' a '[1 0]' para el clasificador LD y '[0 0]' para Clasificador QD: muy útil para fines de referencia.
  4. El modelo es fácil de interpretar y exportar.
  5. Funciona bien para conjuntos de datos dispersos y 'amplios' donde las matrices de covarianza de clase pueden no estar bien definidas.
  6. Se puede estimar una estimación de probabilidad de clase posterior para cada muestra aplicando la función softmax a los valores discriminantes para cada clase.

Enlace al documento original de 1989 de Friedman et al aquí . Además, hay muy buena explicación de Kuncheva en su libro " Combinando clasificadores de patrones ".

BGreene
fuente
5

Gradiente impulsado árboles.

  • Al menos tan preciso como RF en muchas aplicaciones
  • Incorpora valores perdidos sin problemas
  • Var importancia (como RF probablemente sesgada a favor de continuo y muchos niveles nominales)
  • Parcelas de dependencia parcial
  • GBM versus randomForest en R: maneja conjuntos de datos MUCHO más grandes
B_Miner
fuente
4

Clasificador de proceso gaussiano : proporciona predicciones probabilísticas (lo cual es útil cuando las frecuencias de clase relativa operativa difieren de las de su conjunto de entrenamiento, o de manera equivalente, sus costos falsos positivos / falsos negativos son desconocidos o variables). También proporciona una indicación de la incertidumbre en las predicciones del modelo debido a la incertidumbre en la "estimación del modelo" a partir de un conjunto de datos finito. La función de covarianza es equivalente a la función del núcleo en un SVM, por lo que también puede funcionar directamente en datos no vectoriales (por ejemplo, cadenas o gráficos, etc.). El marco matemático también es ordenado (pero no use la aproximación de Laplace). Selección de modelo automatizada mediante la maximización de la probabilidad marginal.

Esencialmente combina buenas características de regresión logística y SVM.

Dikran Marsupial
fuente
¿Hay algún paquete R que recomiende que implemente esto? ¿Cuál es su implementación preferida para este método? ¡Gracias!
julio
Me temo que soy un usuario de MATLAB (uso el paquete GPML gaussianprocess.org/gpml/code/matlab/doc ), por lo que no puedo aconsejar sobre las implementaciones de R, pero puede encontrar algo adecuado aquí gaussianprocess.org/# código . Si R no tiene un paquete decente para médicos de cabecera, ¡alguien debe escribir uno!
Dikran Marsupial
OK gracias. Metodologías hace esto permite a uno seleccionar "variables importantes, como en la variable importancia de los bosques al azar o función recursiva de eliminación con SVM?
julieth
Sí, puede usar la función de covarianza "Determinación de relevancia automática" y elegir los hiperparámetros maximizando la evidencia bayesiana para el modelo (aunque esto puede encontrarse con el mismo tipo de problemas de sobreajuste que tiene con SVMS, a menudo el modelo funciona mejor sin selección de características).
Dikran Marsupial
4

Regresión logística regularizada L1.

  • Es computacionalmente rápido.
  • Tiene una interpretación intuitiva.
  • Tiene solo un hiperparámetro fácilmente comprensible que puede ajustarse automáticamente mediante validación cruzada, que a menudo es un buen camino a seguir.
  • Sus coeficientes son lineales a trozos y su relación con el hiperparámetro es visible de manera instantánea y fácil en un diagrama simple.
  • Es uno de los métodos menos dudosos para la selección de variables.
  • También tiene un nombre realmente genial.
miura
fuente
+1 El hiperparámetro también puede integrarse analíticamente, por lo que no hay una necesidad real de validación cruzada para muchas aplicaciones, consulte, por ejemplo, theoval.cmp.uea.ac.uk/publications/pdf/nips2006a.pdf y bioinformática .oxfordjournals.org / content / 22/19 / 2348.full.pdf .
Dikran Marsupial
3

kNN

usuario88
fuente
3

Bayes ingenuos y bahías ingenuas aleatorias

usuario88
fuente
2
¿Puede dar una descripción de un problema donde RNB le dio buenos resultados?
Łukasz Lew
No ;-) Esto fue solo para revivir la piscina.
1

K-significa agrupamiento para el aprendizaje no supervisado.

berkay
fuente
La pregunta específicamente pide un clasificador.
Prometeo