Regresión logística vs. LDA como clasificadores de dos clases

36

Estoy tratando de entender la diferencia estadística entre el análisis discriminante lineal y la regresión logística . Tengo entendido que, para un problema de clasificación de dos clases , LDA predice dos funciones de densidad normal (una para cada clase) que crean un límite lineal donde se cruzan, mientras que la regresión logística solo predice la función logarítmica entre las dos clases, que crea un límite pero no asume funciones de densidad para cada clase?

usuario1885116
fuente
Consulte también una pregunta similar stats.stackexchange.com/q/14697/3277
ttnphns
Una respuesta relacionada, stats.stackexchange.com/a/31466/3277
ttnphns

Respuestas:

35

Me parece que tienes razón. La regresión logística de hecho no asume ninguna forma específica de densidades en el espacio de las variables predictoras, pero LDA sí. Aquí hay algunas diferencias entre los dos análisis, brevemente.

Regresión logística binaria (BLR) versus análisis discriminante lineal (con 2 grupos: también conocido como LDA de Fisher):

  • BLR : Basado en la estimación de máxima verosimilitud. LDA : basado en la estimación de mínimos cuadrados; equivalente a la regresión lineal con predicción binaria (los coeficientes son proporcionales y R-cuadrado = 1-lambda de Wilk).

  • BLR : Estima la probabilidad (de pertenencia al grupo) inmediatamente (el pronóstico se toma como probabilidad, observado uno) y condicionalmente. LDA : estima la probabilidad de forma media (el pronóstico y se ve como variable continua agrupada, el discriminante) a través de un dispositivo clasificador (como ingenuo Bayes) que utiliza información tanto condicional como marginal.

  • BLR : No es tan exigente con el nivel de la escala y la forma de la distribución en predictores. LDA : Predictires deseablemente intervalo de nivel con distribución normal multivariante.

  • BLR : No hay requisitos sobre las matrices de covarianza dentro del grupo de los predictores. LDA : las matrices de covarianza dentro del grupo deben ser idénticas en población.

  • BLR : los grupos pueden tener muy diferentesnorte. LDA : los grupos deben tener similaresnorte.

  • BLR : No es tan sensible a los valores atípicos. LDA : bastante sensible a los valores atípicos.

  • BLR : método más joven. LDA : método anterior.

  • BLR : Generalmente preferido, porque es menos exigente / más robusto. LDA : con todos sus requisitos cumplidos, a menudo se clasifica mejor que BLR (eficiencia relativa asintótica 3/2 veces mayor que entonces).

ttnphns
fuente
21

Permítanme agregar algunos puntos a la bonita lista de @ttnphns:

  • La predicción de Bayes de la probabilidad de pertenencia a la clase posterior de la LDA también sigue una curva logística.
    [Efron, B. La eficiencia de la regresión logística en comparación con el análisis discriminante normal, J Am Stat Assoc, 70, 892-898 (1975).]

  • Si bien ese documento muestra que la eficiencia relativa de LDA es superior a LR si se cumplen las suposiciones de LDA (Ref: Documento de Efron anterior, último punto de @tthnps), según los Elementos de aprendizaje estadístico en la práctica, casi no hay diferencia.
    [Hastie, T. y Tibshirani, R. y Friedman, J. Los elementos del aprendizaje estadístico; Minería de datos, inferencia y predicción Springer Verlag, Nueva York, 2009]

  • Esa eficiencia relativa enormemente aumentada de LDA ocurre principalmente en casos asintóticos donde el error absoluto es prácticamente insignificante de todos modos.
    [Harrell, FE y Lee, KL Una comparación de la discriminación del análisis discriminante y la regresión logística bajo normalidad multivariada, Bioestadística: Estadística en Ciencias Biomédicas, de Salud Pública y del Medio Ambiente, 333-343 (1985).]

  • Aunque en la práctica me he encontrado con situaciones de tamaño de muestra pequeño y de alta dimensión donde el LDA parece superior (a pesar de que tanto la normalidad multivariada como los supuestos de la matriz de covarianza igual no se cumplen visiblemente).
    [ Beleites, C .; Geiger, K .; Kirsch, M .; Sobottka, SB; Schackert, G. y Salzer, R. Raman, clasificación espectroscópica de tejidos de astrocitoma: utilizando información de referencia blanda., Anal Bioanal Chem, 400, 2801-2816 (2011). DOI: 10.1007 / s00216-011-4985-4 ]

  • Pero tenga en cuenta que en nuestro artículo, el LR posiblemente está luchando con el problema de que se pueden encontrar direcciones con una separabilidad (casi) perfecta. El LDA, por otro lado, puede tener un sobreajuste menos severo.

  • Los supuestos famosos de LDA solo son necesarios para demostrar la óptimaidad. Si no se cumplen, el procedimiento aún puede ser una buena heurística.

  • Una diferencia que es importante para mí en la práctica porque los problemas de clasificación en los que trabajo a veces / con frecuencia resultan en realidad no son tan claramente problemas de clasificación: LR se puede hacer fácilmente con datos donde la referencia tiene niveles intermedios de membresía en la clase. Después de todo, es una técnica de regresión .
    [ver documento vinculado anteriormente]

  • Puede decir que LR concentra más que LDA en ejemplos cerca del límite de la clase y básicamente ignora los casos en la "parte trasera" de las distribuciones.

  • Esto también explica por qué es menos sensible a los valores atípicos (es decir, aquellos en la parte posterior) que LDA.

  • (las máquinas de vectores de soporte serían un clasificador que va en esta dirección hasta el final: aquí se ignora todo menos los casos en el límite)

cbeleites apoya a Monica
fuente