¿Podemos usar una variable independiente categórica en el análisis discriminante?

Respuestas:

14

El análisis discriminante supone una distribución normal multivariada porque lo que generalmente consideramos predictores es realmente una variable dependiente multivariada, y la variable de agrupación se considera un predictor. Esto significa que las variables categóricas que deben tratarse como predictores en el sentido que usted desea no se manejan bien. Esta es una razón por la que muchos, incluido yo mismo, consideramos que el análisis discriminante se ha vuelto obsoleto por la regresión logística. La regresión logística no hace suposiciones de distribución de ningún tipo, ya sea en el lado izquierdo o derecho del modelo. La regresión logística es un modelo de probabilidad directa y no requiere que se use la regla de Bayes para convertir los resultados en probabilidades como lo hace el análisis discriminante.

Frank Harrell
fuente
Gracias Sr. Frank Harrell por su respuesta. En realidad, quiero comparar los resultados del análisis discriminatorio y la regresión logística (modelo logit) usando el mismo conjunto de variables. Entonces, para ese propósito, si tengo que usar las variables categóricas en el análisis discriminante como variable independiente, ¿hay alguna manera?
kuwoli
6

La respuesta corta es más bien no que sí.

Una nota preliminar. Es difícil decir si las variables que producen funciones discriminantes por sí mismas deberían llamarse "independientes" o "dependientes". LDA es básicamente un caso específico de análisis de correlación canónica y, por lo tanto, es ambidireccional. Puede verse como MANOVA (con la variable de clase como factor independiente) o, cuando la clase es dicotómica, como una regresión lineal de la clase como variable dependiente. Por lo tanto, no es del todo legal oponerse siempre a LDA con regresiones unidireccionales como la logística.

LDA supone que las variables (las que llamó "independientes") provienen de una distribución normal multivariada, por lo tanto, todas ellas continuas. Esta suposición es importante para (1) la etapa de clasificación de LDA y (2) la importancia de la prueba de los discriminantes producidos en la etapa de extracción. La extracción de los discriminantes en sí misma no necesita suponerse.

Sin embargo, LDA es bastante robusto ante la violación de la suposición que a veces se considera una garantía para hacerlo en datos binarios . De hecho, algunas personas lo hacen. Se pueden hacer correlaciones canónicas (de las cuales LDA es un caso específico) donde ambos conjuntos consisten en variables binarias binarias o incluso binarias ficticias. Una vez más, no hay problema con la extracción de las funciones latentes; Los problemas con dicha aplicación surgen potencialmente cuando se invocan valores p u objetos de clasificación.

A partir de variables binarias / ordinales, se pueden calcular correlaciones tetracóricas / policóricas y enviarlas a LDA (si el programa permite ingresar matrices de correlación en lugar de datos); pero luego el cálculo de puntajes discriminantes a nivel de caso será problemático.

Un enfoque más flexible sería convertir las variables categóricas (ordinales, nominales) en continuas mediante una escala / cuantificación óptima . Análisis de correlación canónica no lineal (OVERALS). Lo hará bajo la tarea de maximizar las correlaciones canónicas entre los dos lados (la variable de clase y los "predictores" categóricos). Luego puede probar LDA con las variables transformadas.

La regresión logística (multinomial o binaria) puede ser otra alternativa al LDA.

ttnphns
fuente
Esto es mucho más complicado que simplemente usar un modelo destinado a la situación (regresión logística). El análisis discriminante no es tan sólido como algunos piensan. Es fácil mostrar con un solo predictor categórico que es binario que las probabilidades posteriores de da no son muy precisas (por ejemplo, predicen la probabilidad de un evento dado el sexo de un sujeto).
Frank Harrell