Análisis discriminante vs regresión logística

Encontré algunos pros del análisis discriminante y tengo preguntas sobre ellos. Entonces:

Cuando las clases están bien separadas, las estimaciones de los parámetros para la regresión logística son sorprendentemente inestables. Los coeficientes pueden llegar al infinito. LDA no sufre de este problema.

Si el número de características es pequeño y la distribución de los predictores es aproximadamente normal en cada una de las clases, el modelo discriminante lineal es nuevamente más estable que el modelo de regresión logística. $X$

¿Qué es la estabilidad y por qué es importante? (Si la regresión logística proporciona un buen ajuste que hace su trabajo, ¿por qué debería importarme la estabilidad?)

LDA es popular cuando tenemos más de dos clases de respuesta, porque también proporciona vistas de baja dimensión de los datos.

Simplemente no entiendo eso. ¿Cómo proporciona LDA vistas de baja dimensión?
Si puede nombrar más pros o contras, sería bueno.

regression logistic multivariate-analysis discriminant-analysis Yurii
fuente

También es posible que desee leer otras preguntas y respuestas sobre este tema (lda vs logística). Por favor busque en este sitio.

ttnphns

Respuestas:

Cuando las clases están bien separadas, las estimaciones de los parámetros para la regresión logística son sorprendentemente inestables. Los coeficientes pueden llegar al infinito. LDA no sufre de este problema.

Si hay valores covariables que pueden predecir el resultado binario perfectamente, entonces el algoritmo de regresión logística, es decir, la puntuación de Fisher, ni siquiera converge. Si está utilizando R o SAS, recibirá una advertencia de que se calcularon las probabilidades de cero y uno y que el algoritmo se ha bloqueado. Este es el caso extremo de una separación perfecta, pero incluso si los datos solo se separan en gran medida y no perfectamente, el estimador de máxima probabilidad podría no existir e incluso si existe, las estimaciones no son confiables. El ajuste resultante no es bueno en absoluto. Hay muchos hilos que tratan el problema de la separación en este sitio, así que eche un vistazo.

Por el contrario, a menudo no se encuentran problemas de estimación con el discriminante de Fisher. Todavía puede suceder si la matriz de covarianza entre o dentro es singular, pero esa es una instancia bastante rara. De hecho, si hay una separación completa o cuasi completa entonces mejor porque el discriminante tiene más probabilidades de tener éxito.

También vale la pena mencionar que, contrariamente a la creencia popular, LDA no se basa en ningún supuesto de distribución. Solo exigimos implícitamente la igualdad de las matrices de covarianza de la población, ya que se utiliza un estimador agrupado para la matriz de covarianza interna. Bajo los supuestos adicionales de normalidad, probabilidades previas iguales y costos de clasificación errónea, el LDA es óptimo en el sentido de que minimiza la probabilidad de clasificación errónea.

¿Cómo proporciona LDA vistas de baja dimensión?

Es más fácil ver eso para el caso de dos poblaciones y dos variables. Aquí hay una representación gráfica de cómo funciona LDA en ese caso. Recuerde que estamos buscando combinaciones lineales de las variables que maximicen la separabilidad.

Por lo tanto, los datos se proyectan en el vector cuya dirección logra mejor esta separación. Cómo encontramos que ese vector es un problema interesante de álgebra lineal, básicamente maximizamos un cociente de Rayleigh, pero dejemos eso de lado por ahora. Si los datos se proyectan en ese vector, la dimensión se reduce de dos a uno.

El caso general de más de dos poblaciones y variables se trata de manera similar. Si la dimensión es grande, entonces se usan más combinaciones lineales para reducirla, los datos se proyectan en planos o hiperplanos en ese caso. Existe un límite para la cantidad de combinaciones lineales que se pueden encontrar, por supuesto, y este límite resulta de la dimensión original de los datos. Si denotamos el número de variables predictoras por y el número de poblaciones por , resulta que el número es como máximo . $p$ $g$ $\min(g-1,p)$

Si puede nombrar más pros o contras, sería bueno.

La representación de baja dimensión no viene sin inconvenientes, sin embargo, la más importante es, por supuesto, la pérdida de información. Esto es un problema menor cuando los datos son linealmente separables, pero si no lo son, la pérdida de información podría ser sustancial y el clasificador funcionará mal.

También puede haber casos en los que la igualdad de las matrices de covarianza no sea una suposición sostenible. Puede emplear una prueba para asegurarse, pero estas pruebas son muy sensibles a las desviaciones de la normalidad, por lo que debe hacer esta suposición adicional y también probarla. Si se descubre que las poblaciones son normales con matrices de covarianza desiguales, se podría usar una regla de clasificación cuadrática (QDA), pero encuentro que esta es una regla bastante incómoda, sin mencionar que es contraintuitivo en altas dimensiones.

En general, la principal ventaja de la LDA es la existencia de una solución explícita y su conveniencia computacional, que no es el caso para técnicas de clasificación más avanzadas como SVM o redes neuronales. El precio que pagamos es el conjunto de supuestos que lo acompañan, a saber, la separabilidad lineal y la igualdad de las matrices de covarianza.

Espero que esto ayude.

EDITAR : Sospecho que mi afirmación de que la LDA en los casos específicos que mencioné no requiere ninguna suposición distributiva que no sea la igualdad de las matrices de covarianza me ha costado un voto negativo. Sin embargo, esto no es menos cierto, así que permítanme ser más específico.

Si dejamos que denotan las medias de la primera y segunda población, y denotan la matriz de covarianza agrupada, El discriminante de Fisher resuelve el problema $\bar{\mathbf{x}}_i, \ i = 1,2$ $\mathbf{S}_{\text{pooled}}$

max_{a} \frac{{(a^{T} {\bar{x}}_{1} - a^{T} {\bar{x}}_{2})}^{2}}{a^{T} S_{pooled} a} = max_{a} \frac{{(a^{T} d)}^{2}}{a^{T} S_{pooled} a}

$\max_{\mathbf{a}} \frac{ \left( \mathbf{a}^{T} \bar{\mathbf{x}}_1 - \mathbf{a}^{T} \bar{\mathbf{x}}_2 \right)^2}{\mathbf{a}^{T} \mathbf{S}_{\text{pooled}} \mathbf{a} } = \max_{\mathbf{a}} \frac{ \left( \mathbf{a}^{T} \mathbf{d} \right)^2}{\mathbf{a}^{T} \mathbf{S}_{\text{pooled}} \mathbf{a} }$

Se puede demostrar que la solución de este problema (hasta una constante) es

a = S_{pooled}^{- 1} d = S_{pooled}^{- 1} ({\bar{x}}_{1} - {\bar{x}}_{2})

$\mathbf{a} = \mathbf{S}_{\text{pooled}}^{-1} \mathbf{d} = \mathbf{S}_{\text{pooled}}^{-1} \left( \bar{\mathbf{x}}_1 - \bar{\mathbf{x}}_2 \right)$

Esto es equivalente a la LDA que deriva bajo el supuesto de normalidad, matrices de covarianza iguales, costos de clasificación errónea y probabilidades anteriores, ¿verdad? Pues sí, excepto ahora que no hemos asumido la normalidad.

No hay nada que le impida utilizar el discriminante anterior en todos los entornos, incluso si las matrices de covarianza no son realmente iguales. Puede que no sea óptimo en el sentido del costo esperado de clasificación errónea (ECM), pero este es un aprendizaje supervisado para que siempre pueda evaluar su rendimiento, utilizando, por ejemplo, el procedimiento de suspensión.

Referencias

Bishop, Christopher M. Redes neuronales para el reconocimiento de patrones. Oxford university press, 1995.

Johnson, Richard Arnold y Dean W. Wichern. Análisis estadístico multivariado aplicado. Vol. 4. Englewood Cliffs, Nueva Jersey: Prentice Hall, 1992.

JohnK
fuente

(No soy el usuario que votó negativamente). Para tratar de conciliar su respuesta con la de Frank Harell, me parece que todavía hay que suponer que todas las variables son continuas (de lo contrario, creo que el máximo del cociente de Rayleigh no sería único).

usuario603

@ user603 No he visto en ninguna parte esta condición. La solución solo se determina hasta una constante de todos modos.

JohnK

John, imagina que solo hay 2 clases (y, por lo tanto, solo una línea discriminante) que tienen distribuciones idénticas, simétricas (elipsoidales) e iguales probabilidades previas. Entonces, de hecho, no necesitamos asumir una distribución específicamente normal porque no necesitamos ningún pdf para asignar un caso a una clase. En entornos más complejos (como 3+ clases) tenemos que usar algunos pdf, y generalmente es normal.

ttnphns

W^{- 1} B

$\mathbf{W}^{-1} \mathbf{B}$

W

$\mathbf{W}$

B

$\mathbf{B}$

John, tu último comentario es sobre ti y yo estamos de acuerdo.

ttnphns

LDA hace suposiciones de distribución severas (normalidad multivariada de todos los predictores) a diferencia de la regresión logística. Intente obtener probabilidades posteriores de pertenencia a la clase en función del sexo de los sujetos y verá lo que quiero decir: las probabilidades no serán precisas.

$Y=1$ $\beta$ $\pm \infty$ $\pm 30$ ) para que las probabilidades predichas sean esencialmente 0 o 1 cuando deberían ser. El único problema que esto causa es el efecto Hauck-Donner en las estadísticas de Wald. La solución es simple: no use las pruebas de Wald en este caso; use pruebas de razón de probabilidad, que se comportan muy bien incluso con estimaciones infinitas. Para intervalos de confianza, use intervalos de confianza de probabilidad de perfil si hay una separación completa.

Vea esto para más información.

Tenga en cuenta que si se cumple la normalidad multivariable, según el teorema de Bayes, se mantienen los supuestos de la regresión logística. Lo opuesto no es verdad.

La normalidad (o al menos la simetría) casi debe mantenerse para que las variaciones y covarianzas "hagan el trabajo". Los predictores no multivariados distribuidos normalmente dañarán incluso la fase de extracción discriminante.

Frank Harrell
fuente

En mi opinión, la normalidad es necesaria específicamente en la etapa de clasificación (predicción de clase) de LDA. No es necesario en la etapa de extracción de discriminantes (reducción de dimensionalidad), que, sin embargo, aún asume homogeneidad de varianza-covarianza. (Es interesante que esta última hipótesis puede ser un poco liberado a la clasificación: se puede usar por separado . Covarianzas dentro de su clase para los discriminantes allí)

ttnphns

t

$t$

t

$t$

t

$t$

Sí, SD hace varias suposiciones y no es robusto. En menor grado, la media hace que algunos supuestos sean significativos. Mínimos cuadrados, PCA y LDA efectivamente hacen más suposiciones de distribución de lo que mucha gente piensa.

Frank Harrell

Este razonamiento no me convence y sigo creyendo que el voto negativo fue injusto, pero no soy una autoridad en el asunto. Sin embargo, las referencias que proporcioné le dirán lo mismo.

JohnK

Cuando las clases están bien separadas, las estimaciones de los parámetros para la regresión logística son sorprendentemente inestables. Los coeficientes pueden llegar al infinito. LDA no sufre de este problema.

Descargo de responsabilidad: lo que sigue aquí carece por completo de rigor matemático.

Para ajustar bien una función (no lineal) necesita observaciones en todas las regiones de la función donde "cambia su forma". La regresión logística ajusta una función sigmoidea a los datos:

En el caso de clases bien separadas, todas las observaciones caerán en los dos "extremos" donde el sigmoide se acerca a sus asíntotas (0 y 1). Dado que todos los sigmoides "se ven iguales" en estas regiones, por así decirlo, no es de extrañar que el algoritmo de ajuste deficiente tenga dificultades para encontrar "el correcto".

Echemos un vistazo a dos ejemplos (con suerte instructivos) calculados con la glm()función de R.

Caso 1: Los dos grupos se superponen en cierta medida:

y las observaciones se distribuyen muy bien alrededor del punto de inflexión del sigmoide ajustado:

Estos son los parámetros ajustados con buenos errores estándar bajos:

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -17.21374    4.07741  -4.222 2.42e-05 ***
wgt           0.35111    0.08419   4.171 3.04e-05 ***

y la desviación también se ve bien:

    Null deviance: 138.629  on 99  degrees of freedom
Residual deviance:  30.213  on 98  degrees of freedom

Caso 2: Los dos grupos están bien separados:

y todas las observaciones se encuentran en las asíntotas prácticamente. La glm()función hizo todo lo posible para ajustarse a algo, pero se quejó de probabilidades numéricamente 0 o 1, porque simplemente no hay observaciones disponibles para "obtener la forma correcta del sigmoide" alrededor de su punto de inflexión:

Puede diagnosticar el problema observando que los errores estándar de los parámetros estimados pasan por alto:

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)   -232.638 421264.847  -0.001        1
wgt              5.065   9167.439   0.001        1

y al mismo tiempo, la desviación parece sospechosamente buena (porque las observaciones se ajustan bien a las asíntotas):

    Null deviance: 1.3863e+02  on 99  degrees of freedom
Residual deviance: 4.2497e-10  on 98  degrees of freedom

Al menos intuitivamente, debería quedar claro a partir de estas consideraciones por qué "las estimaciones de los parámetros para la regresión logística son sorprendentemente inestables".

Laryx Decidua
fuente

¡Mira la respuesta de @Frank Harrell que claramente no está de acuerdo contigo! Y estudie sus enlaces y referencias ...

kjetil b halvorsen

@kjetilbhalvorsen Mi punto principal es una ilustración intuitiva del ajuste "sorprendentemente inestable". Eliminé la última oración referente a la LDA.

Laryx Decidua