Encontré algunos pros del análisis discriminante y tengo preguntas sobre ellos. Entonces:
Cuando las clases están bien separadas, las estimaciones de los parámetros para la regresión logística son sorprendentemente inestables. Los coeficientes pueden llegar al infinito. LDA no sufre de este problema.
Si el número de características es pequeño y la distribución de los predictores es aproximadamente normal en cada una de las clases, el modelo discriminante lineal es nuevamente más estable que el modelo de regresión logística.
- ¿Qué es la estabilidad y por qué es importante? (Si la regresión logística proporciona un buen ajuste que hace su trabajo, ¿por qué debería importarme la estabilidad?)
LDA es popular cuando tenemos más de dos clases de respuesta, porque también proporciona vistas de baja dimensión de los datos.
- Simplemente no entiendo eso. ¿Cómo proporciona LDA vistas de baja dimensión?
- Si puede nombrar más pros o contras, sería bueno.
Respuestas:
Si hay valores covariables que pueden predecir el resultado binario perfectamente, entonces el algoritmo de regresión logística, es decir, la puntuación de Fisher, ni siquiera converge. Si está utilizando R o SAS, recibirá una advertencia de que se calcularon las probabilidades de cero y uno y que el algoritmo se ha bloqueado. Este es el caso extremo de una separación perfecta, pero incluso si los datos solo se separan en gran medida y no perfectamente, el estimador de máxima probabilidad podría no existir e incluso si existe, las estimaciones no son confiables. El ajuste resultante no es bueno en absoluto. Hay muchos hilos que tratan el problema de la separación en este sitio, así que eche un vistazo.
Por el contrario, a menudo no se encuentran problemas de estimación con el discriminante de Fisher. Todavía puede suceder si la matriz de covarianza entre o dentro es singular, pero esa es una instancia bastante rara. De hecho, si hay una separación completa o cuasi completa entonces mejor porque el discriminante tiene más probabilidades de tener éxito.
También vale la pena mencionar que, contrariamente a la creencia popular, LDA no se basa en ningún supuesto de distribución. Solo exigimos implícitamente la igualdad de las matrices de covarianza de la población, ya que se utiliza un estimador agrupado para la matriz de covarianza interna. Bajo los supuestos adicionales de normalidad, probabilidades previas iguales y costos de clasificación errónea, el LDA es óptimo en el sentido de que minimiza la probabilidad de clasificación errónea.
Es más fácil ver eso para el caso de dos poblaciones y dos variables. Aquí hay una representación gráfica de cómo funciona LDA en ese caso. Recuerde que estamos buscando combinaciones lineales de las variables que maximicen la separabilidad.
Por lo tanto, los datos se proyectan en el vector cuya dirección logra mejor esta separación. Cómo encontramos que ese vector es un problema interesante de álgebra lineal, básicamente maximizamos un cociente de Rayleigh, pero dejemos eso de lado por ahora. Si los datos se proyectan en ese vector, la dimensión se reduce de dos a uno.
El caso general de más de dos poblaciones y variables se trata de manera similar. Si la dimensión es grande, entonces se usan más combinaciones lineales para reducirla, los datos se proyectan en planos o hiperplanos en ese caso. Existe un límite para la cantidad de combinaciones lineales que se pueden encontrar, por supuesto, y este límite resulta de la dimensión original de los datos. Si denotamos el número de variables predictoras por y el número de poblaciones por , resulta que el número es como máximo .p g min(g−1,p)
La representación de baja dimensión no viene sin inconvenientes, sin embargo, la más importante es, por supuesto, la pérdida de información. Esto es un problema menor cuando los datos son linealmente separables, pero si no lo son, la pérdida de información podría ser sustancial y el clasificador funcionará mal.
También puede haber casos en los que la igualdad de las matrices de covarianza no sea una suposición sostenible. Puede emplear una prueba para asegurarse, pero estas pruebas son muy sensibles a las desviaciones de la normalidad, por lo que debe hacer esta suposición adicional y también probarla. Si se descubre que las poblaciones son normales con matrices de covarianza desiguales, se podría usar una regla de clasificación cuadrática (QDA), pero encuentro que esta es una regla bastante incómoda, sin mencionar que es contraintuitivo en altas dimensiones.
En general, la principal ventaja de la LDA es la existencia de una solución explícita y su conveniencia computacional, que no es el caso para técnicas de clasificación más avanzadas como SVM o redes neuronales. El precio que pagamos es el conjunto de supuestos que lo acompañan, a saber, la separabilidad lineal y la igualdad de las matrices de covarianza.
Espero que esto ayude.
EDITAR : Sospecho que mi afirmación de que la LDA en los casos específicos que mencioné no requiere ninguna suposición distributiva que no sea la igualdad de las matrices de covarianza me ha costado un voto negativo. Sin embargo, esto no es menos cierto, así que permítanme ser más específico.
Si dejamos que denotan las medias de la primera y segunda población, y denotan la matriz de covarianza agrupada, El discriminante de Fisher resuelve el problemax¯i, i=1,2 Spooled
Se puede demostrar que la solución de este problema (hasta una constante) es
Esto es equivalente a la LDA que deriva bajo el supuesto de normalidad, matrices de covarianza iguales, costos de clasificación errónea y probabilidades anteriores, ¿verdad? Pues sí, excepto ahora que no hemos asumido la normalidad.
No hay nada que le impida utilizar el discriminante anterior en todos los entornos, incluso si las matrices de covarianza no son realmente iguales. Puede que no sea óptimo en el sentido del costo esperado de clasificación errónea (ECM), pero este es un aprendizaje supervisado para que siempre pueda evaluar su rendimiento, utilizando, por ejemplo, el procedimiento de suspensión.
Referencias
fuente
LDA hace suposiciones de distribución severas (normalidad multivariada de todos los predictores) a diferencia de la regresión logística. Intente obtener probabilidades posteriores de pertenencia a la clase en función del sexo de los sujetos y verá lo que quiero decir: las probabilidades no serán precisas.
Vea esto para más información.
Tenga en cuenta que si se cumple la normalidad multivariable, según el teorema de Bayes, se mantienen los supuestos de la regresión logística. Lo opuesto no es verdad.
La normalidad (o al menos la simetría) casi debe mantenerse para que las variaciones y covarianzas "hagan el trabajo". Los predictores no multivariados distribuidos normalmente dañarán incluso la fase de extracción discriminante.
fuente
Descargo de responsabilidad: lo que sigue aquí carece por completo de rigor matemático.
Para ajustar bien una función (no lineal) necesita observaciones en todas las regiones de la función donde "cambia su forma". La regresión logística ajusta una función sigmoidea a los datos:
En el caso de clases bien separadas, todas las observaciones caerán en los dos "extremos" donde el sigmoide se acerca a sus asíntotas (0 y 1). Dado que todos los sigmoides "se ven iguales" en estas regiones, por así decirlo, no es de extrañar que el algoritmo de ajuste deficiente tenga dificultades para encontrar "el correcto".
Echemos un vistazo a dos ejemplos (con suerte instructivos) calculados con la
glm()
función de R.Caso 1: Los dos grupos se superponen en cierta medida:
y las observaciones se distribuyen muy bien alrededor del punto de inflexión del sigmoide ajustado:
Estos son los parámetros ajustados con buenos errores estándar bajos:
y la desviación también se ve bien:
Caso 2: Los dos grupos están bien separados:
y todas las observaciones se encuentran en las asíntotas prácticamente. La
glm()
función hizo todo lo posible para ajustarse a algo, pero se quejó de probabilidades numéricamente 0 o 1, porque simplemente no hay observaciones disponibles para "obtener la forma correcta del sigmoide" alrededor de su punto de inflexión:Puede diagnosticar el problema observando que los errores estándar de los parámetros estimados pasan por alto:
y al mismo tiempo, la desviación parece sospechosamente buena (porque las observaciones se ajustan bien a las asíntotas):
Al menos intuitivamente, debería quedar claro a partir de estas consideraciones por qué "las estimaciones de los parámetros para la regresión logística son sorprendentemente inestables".
fuente