A pesar de que todas las imágenes en el conjunto de datos MNIST están centradas, con una escala similar y boca arriba sin rotaciones, tienen una variación significativa en la escritura a mano que me desconcierta cómo un modelo lineal logra una precisión de clasificación tan alta.
Hasta donde puedo visualizar, dada la importante variación en la escritura a mano, los dígitos deben ser linealmente inseparables en un espacio dimensional de 784, es decir, debe haber un límite no lineal poco complejo (aunque no muy complejo) que separa los diferentes dígitos. , similar al ejemplo bien citado de donde las clases positivas y negativas no pueden separarse por ningún clasificador lineal. Me parece desconcertante cómo la regresión logística de clases múltiples produce una precisión tan alta con características completamente lineales (sin características polinómicas).
Como ejemplo, dado cualquier píxel en la imagen, diferentes variaciones escritas a mano de los dígitos y pueden hacer que ese píxel se ilumine o no. Por lo tanto, con un conjunto de pesos aprendidos, cada píxel puede hacer que un dígito parezca un y un . Solo con una combinación de valores de píxeles debería ser posible decir si un dígito es un o un . Esto es cierto para la mayoría de los pares de dígitos. Entonces, ¿cómo es que la regresión logística, que ciegamente basa su decisión de manera independiente en todos los valores de píxeles (sin considerar ninguna dependencia entre píxeles), es capaz de lograr tan altas precisiones.
Sé que estoy equivocado en alguna parte o simplemente estoy sobreestimando la variación en las imágenes. Sin embargo, sería genial si alguien pudiera ayudarme con una intuición sobre cómo los dígitos son 'casi' linealmente separables.
fuente
Respuestas:
tl; dr Aunque este es un conjunto de datos de clasificación de imágenes, sigue siendo una tarea muy fácil , para la cual se puede encontrar fácilmente un mapeo directo desde las entradas hasta las predicciones.
Responder:
Esta es una pregunta muy interesante y, gracias a la simplicidad de la regresión logística, puede encontrar la respuesta.
Tenga en cuenta, de nuevo, que estos son los pesos .
Ahora eche un vistazo a la imagen de arriba y concéntrese en los dos primeros dígitos (es decir, cero y uno). Los pesos azules significan que la intensidad de este píxel contribuye mucho para esa clase y los valores rojos significan que contribuye negativamente.
A través de esto, puede ver que la regresión logística tiene una muy buena posibilidad de obtener muchas imágenes correctas y es por eso que tiene una puntuación tan alta.
El código para reproducir la figura anterior está un poco anticuado, pero aquí tienes:
fuente