¿En qué se diferencian PCA y MDS clásico? ¿Qué tal MDS versus MDS no métrico? ¿Hay algún momento en el que preferirías uno sobre el otro? ¿Cómo difieren las
Técnica que convierte las (des) similitudes observadas o calculadas entre objetos en distancias en un espacio de baja dimensión (generalmente euclidiana). Por tanto, construye dimensiones para los datos; los objetos se pueden trazar y conceptualizar en esas dimensiones
¿En qué se diferencian PCA y MDS clásico? ¿Qué tal MDS versus MDS no métrico? ¿Hay algún momento en el que preferirías uno sobre el otro? ¿Cómo difieren las
Una buena práctica común en Machine Learning es hacer la normalización de características o la estandarización de datos de las variables predictoras, eso es todo, centrar los datos restando la media y normalizarlos dividiendo por la varianza (o la desviación estándar también). Para la...
Estoy tratando de predecir el resultado de un sistema complejo utilizando redes neuronales (ANN). Los valores de resultado (dependientes) oscilan entre 0 y 10,000. Las diferentes variables de entrada tienen diferentes rangos. Todas las variables tienen distribuciones más o menos
Para el LASSO (y otros procedimientos de selección de modelos) es crucial reescalar los predictores. La recomendación general que sigo es simplemente usar una normalización de media 0 desviación estándar 1 para variables continuas. Pero, ¿qué hay que ver con los maniquíes? Por ejemplo, algunos...
He estado leyendo algunas preguntas sobre t-SNE ( t-Distributed Stochastic Neighbor Embedded ) últimamente, y también visité algunas preguntas sobre MDS ( Multidimensional Scaling ). A menudo se usan de manera análoga, por lo que parecía una buena idea hacer esta pregunta, ya que aquí hay muchas...
Comprendo t-SNE y la aproximación de Barnes-Hut es que se requieren todos los puntos de datos para que todas las interacciones de fuerza se puedan calcular al mismo tiempo y cada punto se pueda ajustar en el mapa 2d (o de dimensión inferior). ¿Hay alguna versión de t-sne que pueda manejar...
Recientemente me encontré con escalamiento multidimensional. Estoy tratando de comprender mejor esta herramienta y su papel en las estadísticas modernas. Aquí hay algunas preguntas orientadoras: ¿Qué preguntas responde? ¿Qué investigadores a menudo están interesados en usarlo? ¿Existen otras...
Utilicé randomForest para clasificar 6 comportamientos de animales (p. Ej., Estar de pie, caminar, nadar, etc.) en base a 8 variables (diferentes posturas corporales y movimiento). El MDSplot en el paquete randomForest me da este resultado y tengo problemas para interpretar el resultado. Hice un...
Quiero agrupar un conjunto de datos masivo para el que solo tengo las distancias por pares. Implementé un algoritmo k-medoids, pero está tardando demasiado en ejecutarse, así que me gustaría comenzar reduciendo la dimensión de mi problema aplicando PCA. Sin embargo, la única forma en que sé...
Estoy usando indexación semántica latente para encontrar similitudes entre documentos (¡ gracias, JMS! ) Después de la reducción de dimensiones, probé la agrupación de k-means para agrupar los documentos en grupos, lo que funciona muy bien. Pero me gustaría ir un poco más lejos y visualizar los...
Tengo un conjunto de puntos de datos en un espacio N-dimensional. Además, también tengo un centroide en este mismo espacio N-dimensional. ¿Hay algún enfoque que me permita proyectar estos puntos de datos en un espacio bidimensional mientras mantengo su información de distancia relativa en el...
De acuerdo con "Efficient Backprop" de LeCun et al (1998) , es una buena práctica normalizar todas las entradas para que estén centradas alrededor de 0 y se encuentren dentro del rango de la segunda derivada máxima. Entonces, por ejemplo, usaríamos [-0.5,0.5] para la función "Tanh". Esto es para...
Teniendo en cuenta la cantidad constante de características, Barnes-Hut t-SNE tiene una complejidad de , las proyecciones aleatorias y PCA tienen una complejidad de hace "asequibles" para conjuntos de datos muy grandes.O(nlogn)O(nlogn)O(n\log n)O(n)O(n)O(n) Por otro lado, los métodos que se basan...