¿Hay alguna manera de usar la regresión logística para clasificar datos con etiquetas múltiples? Por etiquetado múltiple, me refiero a datos que pueden pertenecer a múltiples categorías simultáneamente.
Me gustaría utilizar este enfoque para clasificar algunos datos biológicos.
classification
logistic
multilabel
usuario721975
fuente
fuente
Respuestas:
En principio, sí. Sin embargo, no estoy seguro de que estas técnicas todavía se denominen regresión logística.
En realidad, su pregunta puede referirse a dos extensiones independientes de los clasificadores habituales:
Puede requerir que la suma de todas las membresías para cada caso sea una ("mundo cerrado" = el caso habitual)
o eliminar esta restricción (a veces llamada "clasificadores de una clase").
Esto podría ser entrenado por múltiples modelos LR independientes aunque una clase los problemas a menudo están mal planteados (esta clase frente a todo tipo de excepciones que podrían estar en todas las direcciones) y luego LR no es particularmente adecuado.
membresías de clase parciales: cada caso pertenece con membresía a cada clase, similar a las membresías en análisis de conglomerados difusos: suponga que hay 3 clases A, B, C. Luego, una muestra puede se etiquetará como perteneciente a la clase B. Esto también se puede escribir como vector de pertenencia . En esta notación, las membresías parciales serían, por ejemplo, etc.∈[0,1]nclasses
[A=0,B=1,C=0] [A=0.05,B=0.95,C=0]
Se pueden aplicar diferentes interpretaciones, según el problema (membresías difusas o probabilidades):
para la predicción, por ejemplo, las probabilidades posteriores no solo son posibles sino que son bastante comunes
e incluso validación
La idea completa de esto es que para casos límite puede que no sea posible asignarlos inequívocamente a una clase.
En R, por ejemplo,
nnet:::multinom
que forma parte de MASS, acepta dichos datos para el entrenamiento. Se utiliza un ANN con sigmoide logístico y sin ninguna capa oculta detrás de escena.Desarrollé un paquete
softclassval
para la parte de validación.Los clasificadores de una clase se explican muy bien en Richard G. Brereton: Chemometrics for Pattern Recognition, Wiley, 2009.
Presentamos una discusión más detallada de las membresías parciales en este documento: Claudia Beleites, Kathrin Geiger, Matthias Kirsch, Stephan B Sobottka, Gabriele Schackert y Reiner Salzer: clasificación espectroscópica Raman de tejidos de astrocitoma: utilizando información de referencia blanda. Anal Bioanal Chem, 2011, vol. 400 (9), págs. 2801-2816
fuente
Una forma sencilla de hacer una clasificación de etiquetas múltiples con un clasificador de clases múltiples (como la regresión logística multinomial) es asignar cada posible asignación de etiquetas a su propia clase. Por ejemplo, si estaba haciendo una clasificación de etiquetas múltiples binarias y tenía 3 etiquetas, podría asignar
y así sucesivamente, resultando en clases.23=8
El problema más obvio con este enfoque es que puede terminar con una gran cantidad de clases incluso con una cantidad relativamente pequeña de etiquetas (si tiene etiquetas, necesitará clases). Tampoco podrá predecir las asignaciones de etiquetas que no están presentes en su conjunto de datos, y hará un uso bastante pobre de sus datos, pero si tiene muchos datos y una buena cobertura de las posibles asignaciones de etiquetas , estas cosas pueden no importar.n 2n
Yendo más allá de esto y de lo que sugirieron otros, es probable que desee ver algoritmos de predicción estructurados como campos aleatorios condicionales.
fuente
Este problema también está relacionado con el aprendizaje sensible al costo en el que predecir una etiqueta para una muestra puede tener un costo. Para muestras de etiquetas múltiples, el costo de esas etiquetas es bajo, mientras que el costo de otras etiquetas es más alto.
Puede echar un vistazo a este tutorial, que también puede encontrar las diapositivas correspondientes aquí .
fuente