Tengo un conjunto de datos que es estrictamente binario. El conjunto de valores de cada variable está en el dominio: verdadero, falso.
La propiedad "especial" de este conjunto de datos es que una abrumadora mayoría de los valores son "falsos".
Ya he usado un algoritmo de aprendizaje de red bayesiano para aprender una red a partir de los datos. sin embargo, para uno de mis nodos objetivo (el más importante, la muerte), el resultado de AUC no es muy bueno; es un poco mejor que el azar. Incluso el valor predictivo positivo (VPP), que me han sugerido en CV, no era competitivo con lo que se informa en la literatura con otros enfoques. tenga en cuenta que el AUC (análisis ROC) es el punto de referencia típico informado en esta área de investigación clínica, pero también estoy abierto a sugerencias sobre cómo comparar de manera más apropiada el modelo de clasificación si hay alguna otra idea.
Entonces, me preguntaba qué otros modelos de clasificación puedo probar para este tipo de conjunto de datos con esta propiedad (en su mayoría valores falsos).
- apoyaría la ayuda de la máquina de vectores? Por lo que sé, SVM solo trata con variables continuas como predictores (aunque se ha adaptado a varias clases). pero mis variables son todas binarias.
- ayudaría un bosque al azar?
- ¿se aplicaría aquí la regresión logística? Hasta donde yo sé, los predictores en regresión logística también son continuos. ¿Existe una versión generalizada para las variables binarias como predictores?
Además del rendimiento de la clasificación, sospecho que la SVM y el bosque aleatorio podrían superar a la red bayesiana, pero el problema se centra en cómo explicar las relaciones en estos modelos (especialmente a los médicos).
Respuestas:
Las variables binarias no son un problema para SVM. Incluso existen núcleos especializados para exactamente esos datos (núcleo de Hamming, núcleo de Tanimoto / Jaccard), aunque no recomiendo usarlos si no está familiarizado con los métodos del núcleo.
La regresión logística funciona con predictores binarios. Es probablemente tu mejor opción.
Si usa SVM lineal, es bastante sencillo explicar lo que está sucediendo. Sin embargo, la regresión logística es una mejor opción, ya que la mayoría de los médicos realmente conocen estos modelos (y por lo que quiero decir, he oído hablar de ellos ).
fuente
Me gustaría compartir mi experimento de clasificar unos 0,3 millones de datos binarios con una mayoría de valores falsos. He usado SVM lineal, árboles complejos, LDA, QDA, regresión logística, etc. Todos estos métodos tuvieron una eficiencia de aproximadamente 54%, lo que no es bueno. Según mi profesor, los métodos de clasificación que podrían ayudarme en este problema son las redes neuronales, la SVM cuadrática, pero no los he probado. Espero que esto pueda ayudar.
fuente