Descripción del problema
Estoy comenzando la construcción de la red para un problema que creo podría tener una función de pérdida mucho más perspicaz que una simple regresión de MSE.
Mi problema trata con la clasificación de varias categorías ( vea mi pregunta sobre SO para saber a qué me refiero con esto), donde hay una distancia o relación definida entre categorías que deben tenerse en cuenta.
Otro punto es que el número de categorías de disparo presentes no debería afectar el error. Es decir, el error para 5 categorías de disparo cada una desactivada en 0.1, debería ser el mismo que 1 categoría de disparo desactivada en 0.1. (al disparar me refiero a que no son cero o están por encima de algún umbral)
Puntos clave
- clasificación multicategoría (disparo múltiple a la vez)
- relaciones entre categorías
- El recuento de categorías de disparo no debe afectar la pérdida:
Mi intento
El error cuadrático medio parece un buen lugar para comenzar:
Esto es simplemente considerar categoría por categoría, que sigue siendo valioso en mi problema, pero pierde una gran parte de la imagen.
Aquí está mi intento de rectificar la idea de distancia entre categorías. A continuación, me gustaría tener en cuenta la cantidad de categorías activadas ( llámelo: v )
Mi pregunta
Tengo un bagaje muy débil en estadística; Como resultado, no tengo muchas herramientas en mi haber para abordar un problema como este. El tema general de lo que estoy preguntando parece ser "Al formar una función de costo, ¿cómo se combina la medición múltiple del costo? ¿O qué técnicas se pueden aplicar para hacerlo?" . También agradecería tener cualquier defecto en mi proceso de pensamiento expuesto y mejorado.
Valoro que me enseñen por qué mis errores son errores, en lugar de que alguien solo los corrija sin explicación.
Si alguna parte de esta pregunta carece de claridad o podría mejorarse, avíseme.
fuente
Respuestas:
Puede usar la pérdida de bisagra, que es un límite superior en la pérdida de clasificación; es decir, penaliza el modelo si la etiqueta de la categoría de mayor puntuación es diferente de la etiqueta de la clase de verdad básica.
Para obtener más detalles sobre la relación entre la pérdida de clasificación y la pérdida de bisagra, puede leer la Sección 2 de este impresionante artículo de CNJ Yu y T. Joachims.
En resumen, hay una pérdida de tarea , generalmente denotada por , que mide la penalización por predecir la salida para la entrada cuando la salida esperada (verdad ) es . La pérdida de tareas para la clasificación de clases múltiples generalmente se define como . Sin embargo, siempre que solo dependa de las dos etiquetas y , puede definirlo como desee. En particular, uno puede ver como una arbitrariaΔ (yyo,y^(Xyo) ) y^(Xyo) Xyo yyo Δ (yyo,y^(Xyo) ) = 1 {yyo≠y^(Xyo) } Δ y y^ Δ K× K matriz donde es el número de categorías y indica la penalización de clasificar una entrada de la categoría como perteneciente a la categoría .K Δ ( a , b ) una si
Por ejemplo:datos de entrada :{ (X1,y1) , (X2,y2) , (X3,y3) } ,Xyo∈Rre,yyo∈ Y= {C1,C2,C3,C4 4}predicciones de red :y^(X1) =C2,y^(X2) =C1,y^(X3) =C3matriz de pérdida de tareas :⎡⎣⎢⎢⎢⎢Δ (y1,y1)Δ (y2,y1)Δ (y3,y1)Δ (y4 4,y1)Δ (y1,y2)Δ (y2,y2)Δ (y3,y2)Δ (y4 4,y2)Δ (y1,y3)Δ (y2,y3)Δ (y3,y3)Δ (y4 4,y3)Δ (y1,y4 4)Δ (y2,y4 4)Δ (y3,y4 4)Δ (y4 4,y4 4)⎤⎦⎥⎥⎥⎥=⎡⎣⎢⎢⎢0 012310 012210 013210 0⎤⎦⎥⎥⎥pérdida de clasificación asumiendo y1=C4 4,y2=C1,y3=C4 4:Δ (y1,y^(X1) ) = Δ (C4 4,C2) = 2Δ (y2,y^(X2) ) = Δ (C1,C1) = 0Δ (y3,y^(X3) ) = Δ(C4 4,C3) = 1
fuente