Estandarización de características cuando se usa LDA como paso de preprocesamiento

Si se usa un Análisis discriminante lineal de varias clases (o también leo Análisis discriminante múltiple a veces) para la reducción de dimensionalidad (o transformación después de la reducción de dimensionalidad a través de PCA), entiendo que, en general, una "normalización del puntaje Z" (o estandarización) de las características no serán necesarias, incluso si se miden en escalas completamente diferentes, ¿correcto? Dado que LDA contiene un término similar a la distancia de Mahalanobis que ya implica distancias euclidianas normalizadas?

¿Entonces no solo no sería necesario, sino que los resultados después de un LDA en características estandarizadas y no estandarizadas deberían ser exactamente los mismos?

classification data-transformation normalization standardization discriminant-analysis ameba
fuente

in general a "Z-score normalization" (or standardization) of features won't be necessary, even if they are measured on completely different scales

No, esta afirmación es incorrecta. El problema de la estandarización con LDA es el mismo que en cualquier método multivariante. Por ejemplo, PCA. La distancia de Mahalanobis no tiene nada que ver con ese tema.

ttnphns

Gracias, sería genial si pudiera comentar este "problema de estandarización" en PCA, por ejemplo. Si las características no están estandarizadas para PCA, ¿algunas características no contribuyen (ponderan) más si se miden en una escala diferente y me dan ejes de componentes completamente diferentes? Y para la LDA, ¿por qué no será necesario? ¿El resultado (los discriminantes lineales) es diferente, si no, por qué?

Cuando estandarice (es decir, centro, luego escala), en realidad estará analizando las correlaciones. Si no estandariza, solo se centra, en realidad estará analizando las covarianzas. Los resultados diferirán, lo cual es normal, porque es como si manejara datos diferentes. Este hecho no debería preocuparte. Puede disfrutar leyendo el hilo stats.stackexchange.com/q/62677/3277 .

ttnphns

@SebastianRaschka, ameba: debo reconsiderar mi comentario The issue of standardization with LDA is the same as in any multivariate method. En realidad, con LDA (a diferencia de PCA, por ejemplo) los resultados no deberían diferir si solo se centró (LDA internamente siempre centra las variables, para extraer discriminantes) o se estandarizaron los datos z.

ttnphns

(Cont.) Valores propios, coeficientes estandarizados, correlaciones de estructura, puntajes discriminantes: todo será lo mismo. Solo los vectores propios diferirán. La razón por la cual no hay efecto de la estandarización en los resultados principales en LDA es que LDA descompone la relación de covarianzas entre-dentro-y, y no la covarianza misma que tiene su magnitud (como lo hace PCA).

ttnphns

El crédito por esta respuesta es para @ttnphns, quien explicó todo en los comentarios anteriores. Aún así, me gustaría proporcionar una respuesta extendida.

A su pregunta: ¿Los resultados de LDA en características estandarizadas y no estandarizadas serán exactamente iguales? --- la respuesta es sí . Primero daré un argumento informal, y luego procederé con algunas matemáticas.

Imagine un conjunto de datos 2D que se muestra como un diagrama de dispersión en un lado de un globo (imagen del globo original tomada desde aquí ): LDA en un globo

Aquí los puntos rojos son una clase, los puntos verdes son otra clase y la línea negra es el límite de la clase LDA. Ahora el cambio de escala de los ejes o corresponde a estirar el globo horizontal o verticalmente. Es intuitivamente claro que aunque la pendiente de la línea negra cambiará después de tal estiramiento, las clases serán exactamente tan separables como antes, y la posición relativa de la línea negra no cambiará. Cada observación de prueba se asignará a la misma clase que antes del estiramiento. Entonces se puede decir que el estiramiento no influye en los resultados de LDA. $x$ $y$

Ahora, matemáticamente, LDA encuentra un conjunto de ejes discriminantes calculando vectores propios de , donde y están dentro y entre las clases dispersar matrices. De manera equivalente, estos son vectores propios generalizados del problema de valor propio generalizado . $\mathbf{W}^{-1} \mathbf{B}$ $\mathbf{W}$ $\mathbf{B}$ $\mathbf{B}\mathbf{v}=\lambda\mathbf{W}\mathbf{v}$

Considere una matriz de datos centrada con variables en columnas y puntos de datos en filas, de modo que la matriz de dispersión total esté dada por . Estandarizar los datos equivale a escalar cada columna de por un número determinado, es decir, reemplazarla con , donde es una matriz diagonal con coeficientes de escala (inversos de las desviaciones estándar de cada columna) en la diagonal. Después de dicho cambio de escala, la matriz de dispersión cambiará de la siguiente manera: , y la misma transformación ocurrirá con $\mathbf{X}$ $\mathbf{T}=\mathbf{X}^\top\mathbf{X}$ $\mathbf{X}$ $\mathbf{X}_\mathrm{new}= \mathbf{X}\boldsymbol\Lambda$ $\boldsymbol\Lambda$ $\mathbf{T}_\mathrm{new} = \boldsymbol\Lambda\mathbf{T}\boldsymbol\Lambda$ $\mathbf{W}_\mathrm{new}$ y . $\mathbf{B}_\mathrm{new}$

Sea un vector propio del problema original, es decir,Si multiplicamos esta ecuación con a la izquierda e insertamos en ambos lados antes de , obtenemos es decir que significa que $\mathbf{v}$

B v = λ W v .

$\mathbf{B}\mathbf{v}=\lambda\mathbf{W}\mathbf{v}.$

Λ

$\boldsymbol\Lambda$

Λ Λ^{- 1}

$\boldsymbol\Lambda\boldsymbol\Lambda^{-1}$

v

$\mathbf{v}$

Λ B Λ Λ^{- 1} v = λ Λ W Λ Λ^{- 1} v,

$\boldsymbol\Lambda\mathbf{B}\boldsymbol\Lambda\boldsymbol\Lambda^{-1}\mathbf{v}=\lambda\boldsymbol\Lambda\mathbf{W}\boldsymbol\Lambda\boldsymbol\Lambda^{-1}\mathbf{v},$

B_{n e w} Λ^{- 1} v = λ W_{n e w} Λ^{- 1} v,

$\mathbf{B}_\mathrm{new}\boldsymbol\Lambda^{-1}\mathbf{v}=\lambda\mathbf{W}_\mathrm{new}\boldsymbol\Lambda^{-1}\mathbf{v},$

Λ^{- 1} v

$\boldsymbol\Lambda^{-1}\mathbf{v}$ es un vector propio después de reescalar con exactamente el mismo valor propio que antes.

λ

$\lambda$

Entonces el eje discriminante (dado por el vector propio) cambiará, pero su valor propio, que muestra cuánto están separadas las clases, permanecerá exactamente igual. Además, la proyección en este eje, que originalmente fue dada por , ahora será dada por , es decir, también permanecerá exactamente igual (tal vez hasta un factor de escala). $\mathbf{X}\mathbf{v}$ $\mathbf{X}\boldsymbol\Lambda (\boldsymbol\Lambda^{-1}\mathbf{v})= \mathbf{X}\mathbf{v}$

ameba
fuente

+1. La "moraleja" de toda la historia es que la diferencia entre los únicos datos centrados y los datos estandarizados está totalmente absurda en los vectores propios. Entonces, cuando los datos se multiplican por los vectores propios correspondientes para producir puntajes discriminantes, el efecto de la estandarización se cancela.

X

$\bf X$

X Λ

$\bf X \Lambda$

Λ

$\bf \Lambda$

ttnphns

Estandarización de características cuando se usa LDA como paso de preprocesamiento

Respuestas: