Regresión logística multimarca

8

¿Hay alguna manera de usar la regresión logística para clasificar datos con etiquetas múltiples? Por etiquetado múltiple, me refiero a datos que pueden pertenecer a múltiples categorías simultáneamente.

Me gustaría utilizar este enfoque para clasificar algunos datos biológicos.

usuario721975
fuente
1
Parece que estás describiendo una regresión logística multinomial. Hay muchos hilos aquí que tratan este tema: stats.stackexchange.com/search?q=multinomial+logistic
Macro
3
¿O quiere decir que un solo dato puede pertenecer a más de una categoría?
onestop
@onestop: Sí, quise decir que un punto de datos puede pertenecer a cualquier número de categorías simultáneamente.
user721975
@macro: Regresión logística multinomial de etiquetas múltiples :-)
user721975
Mire la literatura econométrica, por ejemplo, McFadden.
Frank Harrell

Respuestas:

11

En principio, sí. Sin embargo, no estoy seguro de que estas técnicas todavía se denominen regresión logística.

En realidad, su pregunta puede referirse a dos extensiones independientes de los clasificadores habituales:

  1. Puede requerir que la suma de todas las membresías para cada caso sea una ("mundo cerrado" = el caso habitual)
    o eliminar esta restricción (a veces llamada "clasificadores de una clase").
    Esto podría ser entrenado por múltiples modelos LR independientes aunque una clase los problemas a menudo están mal planteados (esta clase frente a todo tipo de excepciones que podrían estar en todas las direcciones) y luego LR no es particularmente adecuado.

  2. membresías de clase parciales: cada caso pertenece con membresía a cada clase, similar a las membresías en análisis de conglomerados difusos: suponga que hay 3 clases A, B, C. Luego, una muestra puede se etiquetará como perteneciente a la clase B. Esto también se puede escribir como vector de pertenencia . En esta notación, las membresías parciales serían, por ejemplo, etc.[0,1]nclasses
    [A=0,B=1,C=0][A=0.05,B=0.95,C=0]

    • Se pueden aplicar diferentes interpretaciones, según el problema (membresías difusas o probabilidades):

      • difuso: un caso puede pertenecer a la mitad de la clase A y la otra mitad a la clase C: [0.5, 0, 0.5]
      • probabilidad: la referencia (p. ej., un experto que clasifica las muestras) tiene un 80% de certeza de que pertenece a la clase A, pero dice que existe una probabilidad del 20% de que sea de la clase C mientras se asegura de que no es de la clase B (0%): [0.8, 0 , 0,2].
      • otra probabilidad: votos de panel de expertos: 4 de 5 expertos dicen "A", 1 dice "C": nuevamente [0.8, 0, 0.2]
    • para la predicción, por ejemplo, las probabilidades posteriores no solo son posibles sino que son bastante comunes

    • también es posible usar esto para entrenamiento
    • e incluso validación

    • La idea completa de esto es que para casos límite puede que no sea posible asignarlos inequívocamente a una clase.

    • Si usted y cómo desea "endurecer" una predicción flexible (por ejemplo, probabilidad posterior) en una etiqueta de clase "normal" que corresponde al 100% de membresía a esa clase, depende completamente de usted. Incluso puede devolver el resultado "ambiguo" para probabilidades posteriores intermedias. Lo que sea sensible depende de su aplicación.

En R, por ejemplo, nnet:::multinomque forma parte de MASS, acepta dichos datos para el entrenamiento. Se utiliza un ANN con sigmoide logístico y sin ninguna capa oculta detrás de escena.
Desarrollé un paquete softclassvalpara la parte de validación.

Los clasificadores de una clase se explican muy bien en Richard G. Brereton: Chemometrics for Pattern Recognition, Wiley, 2009.

Presentamos una discusión más detallada de las membresías parciales en este documento: Claudia Beleites, Kathrin Geiger, Matthias Kirsch, Stephan B Sobottka, Gabriele Schackert y Reiner Salzer: clasificación espectroscópica Raman de tejidos de astrocitoma: utilizando información de referencia blanda. Anal Bioanal Chem, 2011, vol. 400 (9), págs. 2801-2816

cbeleites descontentos con SX
fuente
¿Puedes elaborar?
user721975
@ user721975: Todavía estaba haciendo esto ...
cbeleites descontento con SX
Gracias por tu respuesta. Si te entiendo bien, la opción 1 significa que construyes una serie de clasificadores binarios (1-contra-todos) LR. No creo que tenga la opción 2. ¿Me está pidiendo que construya un LR único que ofrezca una distribución de probabilidad en todas las clases? La pregunta es, entonces, ¿cómo decido a qué clases asignar los datos? ¿Algún tipo de umbral? ¿Cuál / cómo?
user721975
@ user721975: parte 1: sí. parte 2: editaré la respuesta para obtener más claridad.
cbeleites descontento con SX
@ user721975: (2) LR "único" es un poco ambiguo: al menos si hay más de 2 clases, tendría un modelo multinomial. Tal vez necesite contarnos más sobre su aplicación para obtener respuestas más detalladas.
cbeleites descontento con SX
1

Una forma sencilla de hacer una clasificación de etiquetas múltiples con un clasificador de clases múltiples (como la regresión logística multinomial) es asignar cada posible asignación de etiquetas a su propia clase. Por ejemplo, si estaba haciendo una clasificación de etiquetas múltiples binarias y tenía 3 etiquetas, podría asignar

[0 0 0] = 0
[0 0 1] = 1
[0 1 0] = 2

y así sucesivamente, resultando en clases.23=8

El problema más obvio con este enfoque es que puede terminar con una gran cantidad de clases incluso con una cantidad relativamente pequeña de etiquetas (si tiene etiquetas, necesitará clases). Tampoco podrá predecir las asignaciones de etiquetas que no están presentes en su conjunto de datos, y hará un uso bastante pobre de sus datos, pero si tiene muchos datos y una buena cobertura de las posibles asignaciones de etiquetas , estas cosas pueden no importar.n2n

Yendo más allá de esto y de lo que sugirieron otros, es probable que desee ver algoritmos de predicción estructurados como campos aleatorios condicionales.

Alto
fuente
0

Este problema también está relacionado con el aprendizaje sensible al costo en el que predecir una etiqueta para una muestra puede tener un costo. Para muestras de etiquetas múltiples, el costo de esas etiquetas es bajo, mientras que el costo de otras etiquetas es más alto.

Puede echar un vistazo a este tutorial, que también puede encontrar las diapositivas correspondientes aquí .

Ceniza
fuente