¿Cómo puede funcionar un perceptrón multiclase?

13

No tengo ningún fondo en matemáticas, pero entiendo cómo funciona el simple Perceptron y creo que entiendo el concepto de un hiperplano (lo imagino geométricamente como un plano en el espacio 3D que separa dos nubes de puntos, al igual que una línea se separa) dos nubes de puntos en el espacio 2D).

Pero no entiendo cómo un plano o una línea podrían separar tres nubes de puntos diferentes en el espacio 3D o en el espacio 2D, respectivamente. Esto no es geométricamente posible, ¿verdad?

Traté de entender la sección correspondiente en el artículo de Wikipedia , pero ya fallé miserablemente en la oración "Aquí, la entrada xy la salida y se extraen de conjuntos arbitrarios". ¿Podría alguien explicarme el perceptrón multiclase y cómo va con la idea del hiperplano, o tal vez señalarme una explicación no tan matemática?

wnstnsmth
fuente

Respuestas:

8

Supongamos que tenemos datos donde x iR n(X1,y1),...,(Xk,yk)XyoRnorte son vectores de entrada y son las clasificaciones.yyo{rojo, azul, verde}

Sabemos cómo construir un clasificador para resultados binarios, por lo que hacemos esto tres veces: agrupar los resultados, , { azul, rojo o verde } y { verde, azul o rojo } .{rojo, azul o verde}{blue, red or green}{green, blue or red}

Cada modelo toma la forma de una función , llámelos f R , f B , f G respectivamente. Esto toma un vector de entrada a la distancia firmada por el hiperplano asociado a cada modelo, donde corresponde distancia positivas a una predicción de azul si f B , rojo si f R y verde si f G . Básicamente, cuanto más positivo es f G ( x ) , más piensa el modelo que xf:RnRfR,fB,fGfBfRfGfG(x)xes verde y viceversa. No necesitamos que el resultado sea una probabilidad, solo necesitamos poder medir qué tan seguro es el modelo.

Dada una entrada , la clasificamos de acuerdo con argmax c f c ( x ) , por lo que si f G ( x ) es el mayor entre { f G ( x ) , f B ( x ) , f R ( x ) } lo haríamos predecir verde para x .xargmaxc fc(x)fG(x){fG(x),fsi(X),FR(X)}X

Esta estrategia se llama "uno contra todos", y puede leerla aquí .

Harri
fuente
3

No puedo entender el artículo de Wiki en absoluto. Aquí hay una puñalada alternativa para explicarlo.

Un perceptrón con un nodo de salida logística es una red de clasificación para 2 clases. Produce , la probabilidad de estar en una de las clases, con la probabilidad de estar en la otra simplemente 1 - p .pag1-pag

Un perceptrón con dos nodos de salida es una red de clasificación para 3 clases. Cada uno de los dos nodos genera la probabilidad de estar en una clase , y la probabilidad de estar en la tercera clase es 1 - i = ( 1 , 2 ) p i .pagyo1-yo=(1,2)pagyo

Y así; un perceptrón con nodos de salida es un clasificador para m + 1 clases. De hecho, si no hay una capa oculta, dicho perceptrón es básicamente lo mismo que un modelo de regresión logística multinomial , así como un perceptrón simple es lo mismo que una regresión logística.metrometro+1

Hong Ooi
fuente
¿Estás seguro de que la salida es una probabilidad real? De todos modos, no sé cómo funciona la regresión logística multinomial, así que tendré que investigar eso. Pero, ¿no hay una forma (algorítmica) de explicar cómo se construye un perceptrón con dos o más nodos de salida? ¿Están encadenados de alguna manera?
wnstnsmth