Preguntas etiquetadas con dimensionality-reduction

Se refiere a técnicas para reducir un gran número de variables o dimensiones abarcadas por los datos a un menor número de dimensiones, mientras se conserva la mayor cantidad de información posible sobre los datos. Los métodos más destacados incluyen PCA, MDS, Isomap, etc. Las dos principales subclases de técnicas: extracción de características y selección de características.

37
¿Cuándo es t-SNE engañoso?

Cita de uno de los autores: La incrustación de vecinos estocásticos distribuidos en t (t-SNE) es una técnica ( premiada ) para la reducción de la dimensionalidad que es particularmente adecuada para la visualización de conjuntos de datos de alta dimensión. Entonces suena bastante bien, pero...

33
¿Cuál es la razón intuitiva detrás de hacer rotaciones en Factor Analysis / PCA y cómo seleccionar la rotación adecuada?

Mis preguntas ¿Cuál es la razón intuitiva detrás de hacer rotaciones de factores en el análisis factorial (o componentes en PCA)? Según tengo entendido, si las variables se cargan casi por igual en los componentes (o factores) superiores, entonces obviamente es difícil diferenciar los...

29
Cómo lidiar con datos jerárquicos / anidados en el aprendizaje automático

Explicaré mi problema con un ejemplo. Suponga que desea predecir el ingreso de un individuo dados algunos atributos: {Edad, Sexo, País, Región, Ciudad}. Tienes un conjunto de datos de entrenamiento como este train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2,...

25
¿Cómo pueden los principales componentes principales retener el poder predictivo en una variable dependiente (o incluso conducir a mejores predicciones)?

Supongamos que yo estoy corriendo una regresión . ¿Por qué al seleccionar los principales componentes principales de , el modelo conserva su poder predictivo en ?Y∼XY∼XY \sim XkkkXXXYYY Entiendo que desde el punto de vista de reducción de dimensionalidad / selección de características, si son los...

23
¿Debería la reducción de dimensionalidad para la visualización considerarse un problema "cerrado", resuelto por t-SNE?

He estado leyendo mucho sobre el algoritmo -snettt para la reducción de dimensionalidad. Estoy muy impresionado con el rendimiento en los conjuntos de datos "clásicos", como MNIST, donde logra una separación clara de los dígitos ( ver artículo original ): También lo he usado para visualizar las...