construir un modelo de clasificación para datos estrictamente binarios

8

Tengo un conjunto de datos que es estrictamente binario. El conjunto de valores de cada variable está en el dominio: verdadero, falso.

La propiedad "especial" de este conjunto de datos es que una abrumadora mayoría de los valores son "falsos".

Ya he usado un algoritmo de aprendizaje de red bayesiano para aprender una red a partir de los datos. sin embargo, para uno de mis nodos objetivo (el más importante, la muerte), el resultado de AUC no es muy bueno; es un poco mejor que el azar. Incluso el valor predictivo positivo (VPP), que me han sugerido en CV, no era competitivo con lo que se informa en la literatura con otros enfoques. tenga en cuenta que el AUC (análisis ROC) es el punto de referencia típico informado en esta área de investigación clínica, pero también estoy abierto a sugerencias sobre cómo comparar de manera más apropiada el modelo de clasificación si hay alguna otra idea.

Entonces, me preguntaba qué otros modelos de clasificación puedo probar para este tipo de conjunto de datos con esta propiedad (en su mayoría valores falsos).

  • apoyaría la ayuda de la máquina de vectores? Por lo que sé, SVM solo trata con variables continuas como predictores (aunque se ha adaptado a varias clases). pero mis variables son todas binarias.
  • ayudaría un bosque al azar?
  • ¿se aplicaría aquí la regresión logística? Hasta donde yo sé, los predictores en regresión logística también son continuos. ¿Existe una versión generalizada para las variables binarias como predictores?

Además del rendimiento de la clasificación, sospecho que la SVM y el bosque aleatorio podrían superar a la red bayesiana, pero el problema se centra en cómo explicar las relaciones en estos modelos (especialmente a los médicos).

Jane Wayne
fuente
Esto se ha preguntado muchas veces, he respondido preguntas similares aquí: stats.stackexchange.com/questions/78469/… y aquí: stats.stackexchange.com/questions/67755/… y sobre cómo interpretar los resultados, debe verificar descubra cómo interpretar los efectos marginales de sus variables explicativas en su variable objetivo. Echa un vistazo, por ejemplo: hosho.ees.hokudai.ac.jp/~kubo/Rdoc/library/randomForest/html/…
JEquihua
Si sus datos son muy escasos y generalmente bastante pobres, es posible que desee buscar un clasificador de vecinos más cercano. Sin embargo, asegúrese de sopesar sus características correctamente.
Akavall
@Akavall, ¿podría dar algunos consejos sobre cómo ponderar las características correctamente? Todos son binarios (predictores y variables de clase). Me gustaría seguir con PPV como el peso principal, pero también podría usar información mutua. o supongo que puedo usar cualquier número de análisis de asociación de tablas de contingencia.
Jane Wayne
@JaneWayne, los vecinos más cercanos no hacen nada en términos de selección de características / ponderación de características; si las características son malas o están ponderadas incorrectamente, el algoritmo funcionaría realmente mal; por otro lado, si las características se ponderan correctamente, este algoritmo simple puede funcionar realmente bien. Sin embargo, ponderar adecuadamente no es fácil. Y su solución actual podría ser buena ya. Si sabe algo sobre el conjunto de datos, puede asignar manualmente pesos mayores a algunas características. O si puede evaluar el rendimiento del modelo en diferentes momentos, puede adaptar algún tipo de algoritmo heurístico de aprendizaje para elegir
Akavall
características basadas en el rendimiento. Sin embargo, aquí debe suponer que la función objetivo que está tratando de maximizar es relativamente suave y que hay un costo debido a la compensación de exploración y explotación.
Akavall

Respuestas:

4

apoyaría la ayuda de la máquina de vectores? que yo sepa, SVM solo trata con variables continuas como predictores ...

Las variables binarias no son un problema para SVM. Incluso existen núcleos especializados para exactamente esos datos (núcleo de Hamming, núcleo de Tanimoto / Jaccard), aunque no recomiendo usarlos si no está familiarizado con los métodos del núcleo.

¿se aplicaría aquí la regresión logística? que yo sepa, los predictores en regresión logística también son continuos

La regresión logística funciona con predictores binarios. Es probablemente tu mejor opción.

cómo explicar las relaciones en estos modelos (especialmente a los médicos).

Si usa SVM lineal, es bastante sencillo explicar lo que está sucediendo. Sin embargo, la regresión logística es una mejor opción, ya que la mayoría de los médicos realmente conocen estos modelos (y por lo que quiero decir, he oído hablar de ellos ).

Marc Claesen
fuente
1

Me gustaría compartir mi experimento de clasificar unos 0,3 millones de datos binarios con una mayoría de valores falsos. He usado SVM lineal, árboles complejos, LDA, QDA, regresión logística, etc. Todos estos métodos tuvieron una eficiencia de aproximadamente 54%, lo que no es bueno. Según mi profesor, los métodos de clasificación que podrían ayudarme en este problema son las redes neuronales, la SVM cuadrática, pero no los he probado. Espero que esto pueda ayudar.

Animate_Ant
fuente