Estoy enseñando álgebra lineal a una clase de ingenieros, científicos sociales y programadores de computadoras. Acabamos de hacer una descomposición de valores singulares y tenemos un día extra, así que pensé en hablar sobre la relación entre la descomposición de valores singulares y el análisis de componentes principales. Tengo la parte teórica de la conferencia escrita muy bien, pero me resulta difícil encontrar buenos ejemplos para usar. Aquí están las restricciones:
Quiero mostrar fotos Idealmente, los gráficos deberían funcionar bien por sí mismos: los ejes y los puntos de datos en el diagrama de dispersión deben etiquetarse. Las palabras en inglés son mejores que los nombres de especies latinas.
La pregunta que se está estudiando debería ser interesante. La morfología del pez nigeriano, si bien es importante, no es una buena forma de captar la atención de una clase.
En contraste con el punto anterior: nada sobre las diferencias raciales humanas; nada sobre pruebas de inteligencia. Eso conduciría a una discusión animada que no tendría nada que ver con las técnicas matemáticas.
El método de análisis matemático debería ser básicamente PCA puro. El proyecto DW-NOMINATE, aunque impresionante, utiliza PCA como punto de partida, seguido de un algoritmo de escalada mucho más complicado.
Creo que esto sería fácil. Puedo pensar fácilmente en una docena de divertidos proyectos de análisis que podría hacer si tuviera tiempo para reunir los datos: tome las encuestas de Pew Research y vea si PCA recupera el eje de política social / política fiscal amado por los libertarios. Tome una docena de mediciones de las características físicas típicas de la raza canina y vea si PCA puede encontrar el grupo "perro pastor". Etcétera, etcétera ... Estoy buscando a alguien que ya haya hecho el trabajo para poder presumir.
Me temo que la línea de tiempo aquí es bastante ajustada: doy una conferencia mañana por la tarde (lunes). Pasé la mayor parte del fin de semana buscando en Google estudios de PCA en diferentes campos interesantes y descubriendo una y otra vez que no encajan bien.
Respuestas:
Hay algunas guías paso a paso en las notas de Shalizi aquí: http://www.stat.cmu.edu/~cshalizi/uADA/12/lectures/ch18.pdf , una es el conjunto de datos de automóviles de R y otro es artículos de arte y música del New York Times. (Inferir el tema de un artículo a partir de las palabras contenidas en él es un área de investigación muy activa). Si no sabe / no quiere aprender R, aún podría usar sus notas y gráficos.
Editar: olvidé decir que también hay varios buenos ejemplos en un libro de Everitt y Hothorn, que está disponible en SpringerLink. Según recuerdo, un conjunto de datos son los aviones de combate y también hay cerámica romana.
fuente
Sé que es demasiado tarde para su conferencia, pero aquí hay un ejemplo usando datos de decatlón olímpico que encontré muy útil cuando aprendí PCA. Un par de reseñas basadas en R: http://factominer.free.fr/classical-methods/principal-components-analysis.html http://www.math.vu.nl/sto/onderwijs/multivar/ College2.pdf
fuente