Red neuronal de propagación posterior de múltiples capas para clasificación

8

¿Puede alguien explicarme cómo clasificar datos como MNIST con la red MLBP-Neural si hago más de una salida (por ejemplo, 8), quiero decir que si solo uso una salida, puedo clasificar fácilmente los datos, pero si uso más de uno, ¿qué salida debo elegir?

Aldy syahdeini
fuente
Por favor, agregue información / enlace de referencia en esos datos MNIST , para que su publicación sea autónoma. Gracias.
Rubens

Respuestas:

5

Suponga que necesita clasificar algo en las clases K, donde K> 2. En este caso, la configuración más frecuente que uso es una codificación activa. Tendrá K columnas de salida, y en el conjunto de entrenamiento establecerá todos los valores en 0, excepto el que tiene el índice de categoría, que podría tener el valor 1. Por lo tanto, para cada instancia del conjunto de datos de entrenamiento tendrá todas las salidas con valores 0 o 1, todas las salidas suman 1 para cada instancia.

Esto parece una probabilidad, que me recuerda una técnica utilizada a menudo para conectar algunas salidas que se modelan como probabilidad. Esto se llama función softmax, más detalles en Wikipedia . Esto le permitirá poner algunas restricciones en los valores de salida (es básicamente una generalización de la función logística) para que los valores de salida se modelen como probabilidades.

Finalmente, con o sin softmax puede usar la salida como una función discriminante para seleccionar la categoría adecuada.

Otro pensamiento final sería evitar codificar las variables de forma conectada. Por ejemplo, puede tener la representación binaria del índice de categoría. Esto induciría al alumno a una conexión artificial entre algunas salidas que son arbitrarias. La codificación activa tiene la ventaja de que es neutral respecto a cómo se indexan las etiquetas.

rapaio
fuente
2

El algoritmo que se usa en este caso se llama clasificador uno contra todos o clasificador multiclase.

En su caso, debe tomar una clase, por ejemplo, la número 1, marcarla como positiva y combinar las otras siete clases en una clase negativa. La red neuronal generará la probabilidad de que este caso sea la clase número 1 frente al resto de las clases.

Después de eso, debe asignar como positiva otra clase, por ejemplo, el número 2, asignar todas las demás clases como una clase negativa grande y obtener nuevamente la probabilidad predicha de la red.

Después de repetir este procedimiento para las ocho clases, asigne cada caso a la clase que tuvo la probabilidad máxima de todas las clases emitidas desde la red neuronal.

tomaskazemekas
fuente