LDA vs. perceptrón

9

Estoy tratando de tener una idea de cómo LDA 'encaja' dentro de otras técnicas de aprendizaje supervisado. Ya he leído algunas de las publicaciones de LDA-esque aquí sobre LDA. Ya estoy familiarizado con el perceptrón, pero solo estoy aprendiendo LDA ahora.

¿Cómo 'encaja' LDA en la familia de algoritmos de aprendizaje supervisado? ¿Cuáles podrían ser sus inconvenientes frente a esos otros métodos, y para qué podría usarse mejor? ¿Por qué usar LDA, cuando uno podría usar, por ejemplo, el perceptrón, por ejemplo?

Creatron
fuente
1
Creo que puede estar confundido acerca de lo que es el aprendizaje supervisado. K-means es un algoritmo de agrupación de aprendizaje no supervisado. Perceptron es un algoritmo de clasificación de aprendizaje supervisado que intenta encontrar un hiperplano que separe las observaciones negativas de las positivas. LDA es un método que se puede usar para la clasificación supervisada, pero se usa más comúnmente para la selección de funciones supervisadas. Consulte la respuesta de @ AdamO para conocer los supuestos del clasificador LDA.
Bitwise
@Bitwise ¡Uy! No sé por qué puse K-means allí. Sí, es un algoritmo no supervisado. Lo eliminaré en una edición.
Creatron
@Bitwise Con respecto a lo que dijiste sobre LDA y Perceptron, sí, eso es lo que me confunde. LDA intenta encontrar un hiperplano en el que proyectar sus datos, de modo que maximice la varianza entre grupos, mientras minimiza la varianza dentro del clúster. Luego, en el borde, tienes un clasificador. Perceptron hace algo similar, ya que también trata de encontrar un hiperplano óptimo para desunir los datos etiquetados. Entonces, ¿por qué usar uno sobre el otro?
Creatron

Respuestas:

15

Como AdamO sugiere en el comentario anterior, realmente no puede hacerlo mejor que leer el Capítulo 4 de Los Elementos del Aprendizaje Estadístico (que llamaré HTF) que compara LDA con otros métodos de clasificación lineal, dando muchos ejemplos, y también discute el uso de LDA como una técnica de reducción de dimensiones en la línea de PCA que, como señala ttnphns, es bastante popular.

Desde el punto de vista de la clasificación, creo que la diferencia clave es esta. Imagina que tienes dos clases y quieres separarlas. Cada clase tiene una función de densidad de probabilidad. La mejor situación posible sería si conociera estas funciones de densidad, porque entonces podría predecir a qué clase pertenecería un punto evaluando las densidades específicas de la clase en ese punto.

Algunos tipos de clasificadores funcionan al encontrar una aproximación a las funciones de densidad de las clases. LDA es uno de estos; supone que las densidades son multivariadas normales con la misma matriz de covarianza. Esta es una suposición sólida, pero si es aproximadamente correcta, obtienes un buen clasificador. Muchos otros clasificadores también adoptan este tipo de enfoque, pero intentan ser más flexibles que asumir la normalidad. Por ejemplo, vea la página 108 de HTF.

Por otro lado, en la página 210, HTF advierte:

Si la clasificación es el objetivo final, entonces aprender bien las densidades de clase separadas puede ser innecesario y, de hecho, puede ser engañoso.

Otro enfoque es simplemente buscar un límite entre las dos clases, que es lo que hace el perceptrón. Una versión más sofisticada de esto es la máquina de vectores de soporte. Estos métodos también se pueden combinar con la adición de características a los datos mediante una técnica llamada kernelization. Esto no funciona con LDA porque no conserva la normalidad, pero no es un problema para un clasificador que solo está buscando un hiperplano de separación.

La diferencia entre LDA y un clasificador que busca un hiperplano de separación es como la diferencia entre una prueba t y alguna alternativa no paramérica en las estadísticas ordinarias. El último es más robusto (para los valores atípicos, por ejemplo), pero el primero es óptimo si se cumplen sus supuestos.

Una observación más: podría valer la pena mencionar que algunas personas pueden tener razones culturales para usar métodos como LDA o regresión logística, que pueden deletrear obligatoriamente tablas ANOVA, pruebas de hipótesis y tranquilizar cosas como esas. LDA fue inventada por Fisher; El perceptrón era originalmente un modelo para una neurona humana o animal y no tenía conexión con las estadísticas. También funciona a la inversa; algunas personas pueden preferir métodos como las máquinas de vectores de soporte porque tienen el tipo de crédito inconformista de vanguardia que los métodos del siglo XX simplemente no pueden igualar. No significa que estén mejor. (Un buen ejemplo de esto se discute en Machine Learning for Hackers , si no recuerdo mal).

Flounderer
fuente
"Algunas personas podrían preferir métodos como las máquinas de vectores de soporte porque tienen el tipo de crédito inconformista de vanguardia que los métodos del siglo XX simplemente no pueden igualar". Jajaja Tan verdadero. Por cierto, tienes una habilidad especial para explicar las cosas de manera muy clara y precisa. ¡Gracias! Necesitaba un "mapa" sobre cómo encajan las cosas y me lo proporcionaste.
Creatron
2

Para intuición, considere este caso:

ingrese la descripción de la imagen aquí

La línea representa el "límite óptimo" entre las dos clases o y x.

LDA intenta encontrar un hiperplano que minimice la varianza entre clústeres y maximice la varianza dentro del clúster, y luego toma el límite para ser ortogonal a ese hiperplano. Aquí, esto probablemente no funcionará porque los grupos tienen una gran variación en la misma dirección.

Un perceptrón, por otro lado, puede tener una mejor oportunidad de encontrar un buen hiperplano de separación.

Sin embargo, en el caso de las clases que tienen una distribución gaussiana, el LDA probablemente funcionará mejor, ya que el perceptrón solo encuentra un hiperplano de separación que sea consistente con los datos, sin dar garantías sobre qué hiperplano elige (podría haber un número infinito de hiperplanos consistentes). Sin embargo, las versiones más sofisticadas del perceptrón pueden elegir un hiperplano con algunas propiedades óptimas, como maximizar el margen entre las clases (esto es esencialmente lo que hacen las máquinas de vectores de soporte).

También tenga en cuenta que tanto LDA como perceptron se pueden extender a límites de decisión no lineales a través del truco del kernel .

Bitwise
fuente
1

Una de las mayores diferencias entre LDA y los otros métodos es que es solo una técnica de aprendizaje automático para datos que se supone que se distribuyen normalmente. Eso puede ser excelente en el caso de datos faltantes o truncamiento donde puede usar el algoritmo EM para maximizar las probabilidades en circunstancias muy extrañas o interesantes. Advertencia: porque las especificaciones erróneas del modelo, como los datos multimodales, pueden conducir a predicciones de bajo rendimiento donde el agrupamiento de K-medias hubiera sido mejor. Los datos multimodales también se pueden tener en cuenta con EM para detectar variables latentes o agrupamiento en LDA.

Por ejemplo, suponga que está buscando medir la probabilidad de desarrollar un diagnóstico positivo de SIDA en 5 años según el recuento de CD4. Supongamos además que no conoce el valor de un biomarcador específico que afecta en gran medida los recuentos de CD4 y está asociado con una mayor inmunosupresión. Los recuentos de CD4 por debajo de 400 están por debajo del límite inferior de detección en los ensayos más asequibles. El algoritmo EM nos permite calcular iterativamente la asignación de LDA y biomarcadores y las medias y covarianza para CD4 para el DF no truncado.

AdamO
fuente
Gracias Adam, aunque ahora me siento más confundido. :-) ¿Cómo es LDA mejor / peor que decir, el Perceptron u otra técnica de aprendizaje supervisado? Con respecto al EM EM, lo está utilizando para decir que puede resolver el LDA, utilizando un EM EM, ¿correcto?
Creatron
1
@ Adam, me gustaría agregar para aclarar que LDA como técnica de reducción de datos no depende de la normalidad, al igual que PCA no. La normalidad dentro de LDA es una suposición para 1) pruebas estadísticas (prueba M de Box, etc.), 2) clasificación.
ttnphns
@ttnphns suponiendo que normalidad significa que LDA es una técnica de ML. ML es algo bueno. Las advertencias específicas en el ejemplo que mencioné utilizan ML para resolver problemas difíciles. Esas soluciones solo serían posibles con simulación sofisticada y / o ERRORES.
AdamO
@TheGrapeBeyond LDA maximiza la distancia de Mahal en dos grupos. SLP (perceptrón de una sola capa, o nnet) dibuja el hiperplano en el espacio de características que crea la máxima precisión de clasificación ... creo. Un buen punto de partida es leer el libro Tibs / Hastie. Puede que necesite repasar eso yo mismo.
AdamO