¿Cuál es el punto de descomposición de valores singulares?

9

No entiendo por qué la reducción en la dimensión es importante. ¿Cuál es el beneficio de tomar algunos datos y reducir su dimensión?

whuber
fuente
3
El tono de la pregunta no invita a respuestas constructivas. Por favor considere reescribir su pregunta.
Sasha
2
El punto puede ser reducir el volumen de datos necesarios para almacenar cierta información como un gasto de ligera pérdida de precisión (por ejemplo, compresión de imágenes JPEG).
Sasha
2
Gracias por tus comentarios, @Sasha. Es una pregunta razonable, así que realicé una pequeña edición para evitar la impresión de franqueza (seguramente no intencional) transmitida por la redacción original.
whuber
¡Vea stats.stackexchange.com/questions/177102/… para ver un ejemplo!
kjetil b halvorsen
Haces SVD para el modelado de temas que NO es probabilístico. Para el modelado de temas que es probabilístico, use LDA. Si NO está modelando temas, utilice PCA.
Brad

Respuestas:

18

La descomposición del valor singular (SVD) no es lo mismo que reducir la dimensionalidad de los datos. Es un método para descomponer una matriz en otras matrices que tiene muchas propiedades maravillosas a las que no entraré aquí. Para más información sobre SVD, vea la página de Wikipedia .

Reducir la dimensionalidad de sus datos a veces es muy útil. Puede ser que tenga muchas más variables que observaciones; Esto no es raro en el trabajo genómico. Puede ser que tengamos varias variables que están muy altamente correlacionadas, por ejemplo, cuando están fuertemente influenciadas por un pequeño número de factores subyacentes, y deseamos recuperar alguna aproximación a los factores subyacentes. Las técnicas de reducción de la dimensionalidad, como el análisis de componentes principales, el escalado multidimensional y el análisis de variantes canónicas, nos brindan información sobre las relaciones entre observaciones y / o variables que quizás no podamos obtener de otra manera.

Un ejemplo concreto: hace algunos años estaba analizando una encuesta de satisfacción de empleados que tenía más de 100 preguntas. Bueno, ningún gerente podrá ver más de 100 preguntas por valor de respuestas, incluso resumidas, y hacer más que adivinar lo que significa, porque quién puede decir cómo se relacionan las respuestas y qué las impulsa, realmente ? Realicé un análisis factorial sobre los datos, para el cual obtuve más de 10,000 observaciones, y obtuve cinco factores muy claros y fácilmente interpretables que podrían usarse para desarrollar puntajes específicos del gerente (uno para cada factor) que resumirían la totalidad de la encuesta de más de 100 preguntas. ¡Una solución mucho mejor que el volcado de hoja de cálculo de Excel que había sido el método anterior para informar resultados!

jbowman
fuente
Se utiliza un método llamado "SVD delgado" para la reducción de dimensionalidad. Ver Wikipedia en SVD.
cyborg
5

Con respecto a su segundo punto de la pregunta, los beneficios de la reducción de dimensionalidad para un conjunto de datos pueden ser:

  • reducir el espacio de almacenamiento necesario
  • acelerar la computación (por ejemplo, en algoritmos de aprendizaje automático), menos dimensiones significan menos computación, también menos dimensiones pueden permitir el uso de algoritmos no aptos para una gran cantidad de dimensiones
  • eliminar características redundantes, por ejemplo, no tiene sentido almacenar el tamaño de un terreno en metros cuadrados y millas cuadradas (tal vez la recopilación de datos fue defectuosa)
  • reducir la dimensión de un dato a 2D o 3D puede permitirnos trazarlo y visualizarlo, tal vez observar patrones, darnos información

Aparte de eso, más allá de PCA, SVD tiene muchas aplicaciones en procesamiento de señales, PNL y muchas más.

Clyfe
fuente
2

Echa un vistazo a esta respuesta mía. La descomposición de valores singulares es un componente clave del análisis de componentes principales , que es una técnica de análisis de datos muy útil y muy poderosa.

A menudo se usa en algoritmos de reconocimiento facial, y lo uso con frecuencia en mi trabajo diario como analista de fondos de cobertura.

Chris Taylor
fuente
1
¿No son SVD y PCA (si bien están relacionados) diferentes procedimientos?
B_Miner
2
Tienes razón. SVD es un método para obtener una solución al problema de PCA.
bayerj
1
@B_Miner Sí, por eso dije que svd es un componente clave de pca. Me centré en pca porque la pregunta se refiere a la reducción de dimensiones (para lo cual pca es apropiado y svd no lo es)
Chris Taylor
Quizás la elección de la palabra del componente fue lo que temporalmente desvió a @B_Miner. :)
cardenal