Calcule y grafique el límite de decisión de LDA

19

Vi una gráfica de LDA (análisis discriminante lineal) con límites de decisión de The Elements of Statistical Learning :ingrese la descripción de la imagen aquí

Entiendo que los datos se proyectan en un subespacio de menor dimensión. Sin embargo, me gustaría saber cómo obtenemos los límites de decisión en la dimensión original de modo que pueda proyectar los límites de decisión en un subespacio de dimensión inferior (como las líneas negras en la imagen de arriba).

¿Hay alguna fórmula que pueda usar para calcular los límites de decisión en la dimensión original (superior)? En caso afirmativo, ¿qué aportes necesita esta fórmula?

mi nombre es Jeff
fuente
3
En lugar de los límites de decisión, probablemente encontrará más utilidad al considerar las probabilidades posteriores de pertenencia a la clase. Esto se puede hacer con menos supuestos usando regresión logística politómica (multinomial) pero también se puede hacer con LDA (probabilidades posteriores).
Frank Harrell
2
Dentro de LDA, esos límites de clasificación constituyen lo que se conoce como un mapa territorial . Trabajo con SPSS y lo traza , aunque en formato de texto. Según un diseñador de SPSS, los límites se encuentran fácilmente mediante un enfoque práctico:
ttnphns
3
(cont.) cada punto de una grilla fina está clasificado por LDA, y luego, si un punto se clasificó como sus vecinos, ese punto no se muestra. Por lo tanto, solo quedan límites como "bandas de ambigüedad" al final. Cita: they (bondaries) are never computed. The plot is drawn by classifying every character cell in it, then blanking out all those surrounded by cells classified into the same category.
ttnphns

Respuestas:

22

Esta figura particular en Hastie et al. se produjo sin calcular ecuaciones de límites de clase. En cambio, se utilizó el algoritmo descrito por @ttnphns en los comentarios, ver nota 2 en la sección 4.3, página 110:

Para esta figura y muchas figuras similares en el libro, calculamos los límites de decisión mediante un método exhaustivo de contorneado. Calculamos la regla de decisión en una fina red de puntos, y luego usamos algoritmos de contorneado para calcular los límites.

Sin embargo, procederé a describir cómo obtener ecuaciones de los límites de la clase LDA.

Comencemos con un simple ejemplo 2D. Aquí están los datos del conjunto de datos de Iris ; Descarto las medidas de pétalos y solo considero la longitud y el ancho del sépalo. Tres clases están marcadas con colores rojo, verde y azul:

Conjunto de datos de iris

Denotemos los medios de clase (centroides) como . LDA supone que todas las clases tienen la misma covarianza dentro de la clase; dados los datos, esta matriz de covarianza compartida se estima (hasta la escala) como , donde la suma está sobre todos los puntos de datos y el centroide de la clase respectiva se resta de cada punto.μ1,μ2,μ3W=i(xiμk)(xiμk)

Para cada par de clases (por ejemplo, clase y ) hay un límite de clase entre ellas. Es obvio que el límite tiene que pasar por el punto medio entre los dos centroides de clase . Uno de los resultados centrales de LDA es que este límite es una línea recta ortogonal a . Hay varias formas de obtener este resultado, y aunque no fue parte de la pregunta, insinuaré brevemente tres de ellas en el Apéndice a continuación.12(μ1+μ2)/2W1(μ1μ2)

Tenga en cuenta que lo que está escrito anteriormente ya es una especificación precisa del límite. Si uno quiere tener una ecuación de línea en la forma estándar , a continuación, coeficientes de y se puede calcular y se dará por algunas fórmulas desordenado. Apenas puedo imaginar una situación en la que esto sea necesario.y=ax+bab

Ahora apliquemos esta fórmula al ejemplo de Iris. Para cada par de clases encuentro un punto medio y trazo una línea perpendicular a :W1(μiμj)

LDA del conjunto de datos de Iris, límites de decisión

Tres líneas se cruzan en un punto, como debería haberse esperado. Los límites de decisión están dados por rayos a partir del punto de intersección:

LDA del conjunto de datos de Iris, límites de decisión final

Tenga en cuenta que si el número de clases es , entonces habrá pares de clases y, por lo tanto, muchas líneas, todas intersectando en un enredo enredado. Para dibujar una buena imagen como la de Hastie et al., Uno necesita mantener solo los segmentos necesarios, y es un problema algorítmico separado en sí mismo (no relacionado con LDA de ninguna manera, porque uno no necesita hacerlo) la clasificación; para clasificar un punto, verifique la distancia de Mahalanobis a cada clase y elija el que tenga la distancia más baja, o use una LDA en serie o en pares).K2K(K1)/2

En dimensiones, la fórmula permanece exactamente igual : el límite es ortogonal a y pasa a través de . Sin embargo, en dimensiones más altas esto ya no es una línea, sino un hiperplano de dimensiones . Con fines ilustrativos, uno simplemente puede proyectar el conjunto de datos a los dos primeros ejes discriminantes, y así reducir el problema al caso 2D (que creo que es lo que Hastie et al. Hicieron para producir esa figura).D>2W1(μ1μ2)(μ1+μ2)/2D1

Apéndice

¿Cómo ver que el límite es una línea recta ortogonal a ? Aquí hay varias formas posibles de obtener este resultado:W1(μ1μ2)

  1. La manera elegante: induce métrica de Mahalanobis en el avión; el límite debe ser ortogonal a en esta métrica, QED.W1μ1μ2

  2. La forma gaussiana estándar: si ambas clases se describen mediante distribuciones gaussianas, entonces la probabilidad logarítmica de que un punto pertenece a la clase es proporcional a . En el límite, las probabilidades de pertenecer a las clases y son iguales; anótelo, simplifíquelo e inmediatamente obtendrá , QEDxk(xμk)W1(xμk)12xW1(μ1μ2)=const

  3. La forma laboriosa pero intuitiva. Imagine que es una matriz de identidad, es decir, todas las clases son esféricas. Entonces la solución es obvia: el límite es simplemente ortogonal a . Si las clases no son esféricas, entonces uno puede hacerlas esféricamente. Si la descomposición propia de es , entonces matriz hará el truco (ver, por ejemplo, aquí ). Entonces, después de aplicar , el límite es ortogonal a . Si tomamos este límite, lo transformamos de nuevo conμ 1 - μ 2 W W = U D US = D - 1 / 2 US S ( μ 1 - μ 2 ) S - 1 SS ( μ 1 - μ 2 ) SWμ1μ2WW=UDUS=D1/2USS(μ1μ2)S1 y pregunte qué es ahora ortogonal, la respuesta (izquierda como ejercicio) es: to . Al conectar la expresión para , obtenemos QED.SS(μ1μ2)S

ameba dice Reinstate Monica
fuente
No he estado estudiando tu respuesta. Parece sofisticado y puede ser correcto. ¿Qué tiene el enfoque práctico y más fácil de "puntos de espolvorear, clasificar y luego deducir límites" que describí en un comentario? ¿Su enfoque es comparable con sus resultados (que obviamente son correctos)? ¿Qué piensas?
ttnphns
1
@ttnphns: La única parte técnica de mi respuesta (una lista numerada con 3 elementos) es proporcionar algunas pruebas y se puede omitir de forma segura. ¡El resto, creo, no es particularmente sofisticado! ¿Tal vez debería mover esa parte "extra" hacia abajo, como un apéndice? Con respecto a sus comentarios: creo que este es un enfoque válido, y me gusta el aspecto ASCII del "mapa territorial" de SPSS. Tal vez podría mover sus comentarios a una respuesta separada (y dar una imagen ejemplar del mapa de SPSS allí), creo que sería útil para futuras referencias. Los resultados deberían ser, por supuesto, equivalentes.
ameba dice Reinstate Monica
@ttnphns: Resulta que Hastie et al. usó exactamente el método que describió aquí para trazar sus figuras, incluido el reproducido en el OP. Encontré una nota al pie que decía exactamente eso (y actualicé mi respuesta, citando al principio).
ameba dice Reinstate Monica
Waouh! excelente respuesta (¡3 años más tarde!) ¿Puedo preguntar cómo llegó a dibujar los segmentos en este problema en particular?
Xavier Bourret Sicotte