Estoy tratando de tener una idea de cómo LDA 'encaja' dentro de otras técnicas de aprendizaje supervisado. Ya he leído algunas de las publicaciones de LDA-esque aquí sobre LDA. Ya estoy familiarizado con el perceptrón, pero solo estoy aprendiendo LDA ahora.
¿Cómo 'encaja' LDA en la familia de algoritmos de aprendizaje supervisado? ¿Cuáles podrían ser sus inconvenientes frente a esos otros métodos, y para qué podría usarse mejor? ¿Por qué usar LDA, cuando uno podría usar, por ejemplo, el perceptrón, por ejemplo?
Respuestas:
Como AdamO sugiere en el comentario anterior, realmente no puede hacerlo mejor que leer el Capítulo 4 de Los Elementos del Aprendizaje Estadístico (que llamaré HTF) que compara LDA con otros métodos de clasificación lineal, dando muchos ejemplos, y también discute el uso de LDA como una técnica de reducción de dimensiones en la línea de PCA que, como señala ttnphns, es bastante popular.
Desde el punto de vista de la clasificación, creo que la diferencia clave es esta. Imagina que tienes dos clases y quieres separarlas. Cada clase tiene una función de densidad de probabilidad. La mejor situación posible sería si conociera estas funciones de densidad, porque entonces podría predecir a qué clase pertenecería un punto evaluando las densidades específicas de la clase en ese punto.
Algunos tipos de clasificadores funcionan al encontrar una aproximación a las funciones de densidad de las clases. LDA es uno de estos; supone que las densidades son multivariadas normales con la misma matriz de covarianza. Esta es una suposición sólida, pero si es aproximadamente correcta, obtienes un buen clasificador. Muchos otros clasificadores también adoptan este tipo de enfoque, pero intentan ser más flexibles que asumir la normalidad. Por ejemplo, vea la página 108 de HTF.
Por otro lado, en la página 210, HTF advierte:
Otro enfoque es simplemente buscar un límite entre las dos clases, que es lo que hace el perceptrón. Una versión más sofisticada de esto es la máquina de vectores de soporte. Estos métodos también se pueden combinar con la adición de características a los datos mediante una técnica llamada kernelization. Esto no funciona con LDA porque no conserva la normalidad, pero no es un problema para un clasificador que solo está buscando un hiperplano de separación.
La diferencia entre LDA y un clasificador que busca un hiperplano de separación es como la diferencia entre una prueba t y alguna alternativa no paramérica en las estadísticas ordinarias. El último es más robusto (para los valores atípicos, por ejemplo), pero el primero es óptimo si se cumplen sus supuestos.
Una observación más: podría valer la pena mencionar que algunas personas pueden tener razones culturales para usar métodos como LDA o regresión logística, que pueden deletrear obligatoriamente tablas ANOVA, pruebas de hipótesis y tranquilizar cosas como esas. LDA fue inventada por Fisher; El perceptrón era originalmente un modelo para una neurona humana o animal y no tenía conexión con las estadísticas. También funciona a la inversa; algunas personas pueden preferir métodos como las máquinas de vectores de soporte porque tienen el tipo de crédito inconformista de vanguardia que los métodos del siglo XX simplemente no pueden igualar. No significa que estén mejor. (Un buen ejemplo de esto se discute en Machine Learning for Hackers , si no recuerdo mal).
fuente
Para intuición, considere este caso:
La línea representa el "límite óptimo" entre las dos clases o y x.
LDA intenta encontrar un hiperplano que minimice la varianza entre clústeres y maximice la varianza dentro del clúster, y luego toma el límite para ser ortogonal a ese hiperplano. Aquí, esto probablemente no funcionará porque los grupos tienen una gran variación en la misma dirección.
Un perceptrón, por otro lado, puede tener una mejor oportunidad de encontrar un buen hiperplano de separación.
Sin embargo, en el caso de las clases que tienen una distribución gaussiana, el LDA probablemente funcionará mejor, ya que el perceptrón solo encuentra un hiperplano de separación que sea consistente con los datos, sin dar garantías sobre qué hiperplano elige (podría haber un número infinito de hiperplanos consistentes). Sin embargo, las versiones más sofisticadas del perceptrón pueden elegir un hiperplano con algunas propiedades óptimas, como maximizar el margen entre las clases (esto es esencialmente lo que hacen las máquinas de vectores de soporte).
También tenga en cuenta que tanto LDA como perceptron se pueden extender a límites de decisión no lineales a través del truco del kernel .
fuente
Una de las mayores diferencias entre LDA y los otros métodos es que es solo una técnica de aprendizaje automático para datos que se supone que se distribuyen normalmente. Eso puede ser excelente en el caso de datos faltantes o truncamiento donde puede usar el algoritmo EM para maximizar las probabilidades en circunstancias muy extrañas o interesantes. Advertencia: porque las especificaciones erróneas del modelo, como los datos multimodales, pueden conducir a predicciones de bajo rendimiento donde el agrupamiento de K-medias hubiera sido mejor. Los datos multimodales también se pueden tener en cuenta con EM para detectar variables latentes o agrupamiento en LDA.
Por ejemplo, suponga que está buscando medir la probabilidad de desarrollar un diagnóstico positivo de SIDA en 5 años según el recuento de CD4. Supongamos además que no conoce el valor de un biomarcador específico que afecta en gran medida los recuentos de CD4 y está asociado con una mayor inmunosupresión. Los recuentos de CD4 por debajo de 400 están por debajo del límite inferior de detección en los ensayos más asequibles. El algoritmo EM nos permite calcular iterativamente la asignación de LDA y biomarcadores y las medias y covarianza para CD4 para el DF no truncado.
fuente