¿Existen buenas razones para preferir los valores binarios (0/1) sobre los valores normalizados discretos o continuos , por ejemplo (1; 3), como entradas para una red de alimentación directa para todos los nodos de entrada (con o sin propagación hacia atrás)?
Por supuesto, solo estoy hablando de entradas que podrían transformarse en cualquier forma; por ejemplo, cuando tiene una variable que puede tomar varios valores, ya sea alimentarlos directamente como un valor de un nodo de entrada o formar un nodo binario para cada valor discreto. Y se supone que el rango de valores posibles sería el mismo para todos los nodos de entrada. Vea las fotos para ver un ejemplo de ambas posibilidades.
Mientras investigaba sobre este tema, no pude encontrar ningún dato frío sobre esto; me parece que, más o menos, siempre será "prueba y error" al final. Por supuesto, los nodos binarios para cada valor de entrada discreto significan más nodos de capa de entrada (y, por lo tanto, más nodos de capa ocultos), pero realmente produciría una mejor clasificación de salida que tener los mismos valores en un nodo, con una función de umbral bien ajustada en la capa oculta?
¿Estaría de acuerdo en que es solo "probar y ver", o tiene otra opinión sobre esto?
fuente
Sí hay. Imagine que su objetivo es construir un clasificador binario. Luego modela su problema como una estimación de una distribución de Bernoulli donde, dado un vector de características, el resultado pertenece a una clase o al contrario. La salida de dicha red neuronal es la probabilidad condicional. Si es mayor que 0.5, lo asocia a una clase, de lo contrario a la otra.
fuente
También enfrenté el mismo dilema cuando estaba resolviendo un problema. No probé la arquitectura, pero mi opinión es que, si la variable de entrada es discreta, la función de salida de la red neuronal tendrá la característica de la función de impulso y la red neuronal es buena para modelar la función de impulso. De hecho, cualquier función se puede modelar con una red neuronal con precisión variable según la complejidad de la red neuronal. La única diferencia es que, en la primera arquitectura, debe aumentar el número de entrada para que tenga más peso en el nodo de la primera capa oculta para modelar la función de impulso, pero para la segunda arquitectura necesita más número de nodo en la capa oculta en comparación con la primera arquitectura para obtener el mismo rendimiento.
fuente