Estoy implementando PCA, LDA y Naive Bayes, para compresión y clasificación respectivamente (implementando tanto un LDA para compresión y clasificación).
Tengo el código escrito y todo funciona. Lo que necesito saber, para el informe, es cuál es la definición general de error de reconstrucción .
Puedo encontrar muchas matemáticas y usos de ellas en la literatura ... pero lo que realmente necesito es una vista panorámica / definición de palabras simples, para poder adaptarlo al informe.
general definition of reconstruction error
es evasivamente amplia.Respuestas:
Para PCA, lo que hace es proyectar sus datos en un subconjunto de su espacio de entrada. Básicamente, todo se mantiene en esta imagen de arriba: proyecta datos en el subespacio con la máxima variación. Cuando reconstruye sus datos a partir de la proyección, obtendrá los puntos rojos, y el error de reconstrucción es la suma de las distancias de los puntos azules a los rojos: de hecho, corresponde al error que cometió al proyectar sus datos en el verde línea. ¡Se puede generalizar en cualquier dimensión, por supuesto!
Como se señaló en los comentarios, no parece tan simple para LDA y no puedo encontrar una definición adecuada en Internet. Lo siento.
fuente
La definición general del error de reconstrucción sería la distancia entre el punto de datos original y su proyección en un subespacio de dimensión inferior (su "estimación").
Fuente: Especialización en Matemáticas del Aprendizaje Automático por Imperial College London
fuente
Lo que generalmente uso como medida del error de reconstrucción (en el contexto de PCA, pero también de otros métodos) es el coeficiente de determinaciónR2 y el error cuadrático medio cuadrático (o RMSE normalizado). Estos dos son fáciles de calcular y le dan una idea rápida de lo que hizo la reconstrucción.
Cálculo
AsumamosX son sus datos originales y F son los datos comprimidos
losR2 del yot h La variable se puede calcular como:
Ya queR2= 1.0 para un ajuste perfecto, puede juzgar la reconstrucción por lo cerca que esté R2 es a 1.0.
El RMSE de layot h La variable se puede calcular como:
que también puede normalizar según la cantidad que más le convenga (normanorte ), A menudo normalizo por el valor medio, el NRMSE es así:
Cálculo
En caso de que esté usando Python, puede calcularlos como:
donde
X
están los datos originales yf
son los datos comprimidos.Visualización
En caso de que sea útil para usted hacer un análisis de sensibilidad, puede juzgar visualmente cómoR2 o RMSE cambian cuando cambia los parámetros de su compresión. Por ejemplo, esto puede ser útil en el contexto de PCA cuando desee comparar reconstrucciones con un número creciente de los Componentes principales retenidos. A continuación, verá que al aumentar el número de modos, su ajuste se acerca al modelo:
fuente