Estadísticas y Big Data

13
Transformando distribuciones extremadamente sesgadas

Suponga que tengo una variable cuya distribución está sesgada positivamente en un grado muy alto, de modo que tomar el registro no será suficiente para colocarlo dentro del rango de asimetría para una distribución normal. ¿Cuáles son mis opciones en este momento? ¿Qué puedo hacer para transformar...

13
Una rutina para elegir eps y minPts para DBSCAN

DBSCAN es el algoritmo de agrupación más citado de acuerdo con cierta literatura y puede encontrar agrupaciones de formas arbitrarias basadas en la densidad. Tiene dos parámetros eps (como radio de vecindad) y minPts (como vecinos mínimos para considerar un punto como punto central) que creo que...

13
Usando BIC para estimar el número de k en KMEANS

Actualmente estoy tratando de calcular el BIC para mi conjunto de datos de juguete (ofc iris (:). Quiero reproducir los resultados como se muestra aquí (Fig. 5). Ese documento también es mi fuente para las fórmulas de BIC. Tengo 2 problemas con esto: Notación: ninin_i = número de elementos en...

13
Estado del arte en deduplicación

¿Cuáles son los métodos más avanzados en deduplicación de registros? La deduplicación también se denomina a veces: vinculación de registros, resolución de entidad, resolución de identidad, fusión / purga. Sé, por ejemplo, sobre CBLOCK [1]. Agradecería que las respuestas también incluyeran...

13
¿Por qué todas las distribuciones conocidas son unimodales?

No conozco ninguna distribución multimodal. ¿Por qué todas las distribuciones conocidas son unimodales? ¿Hay alguna distribución "famosa" que tenga más de un modo? Por supuesto, las mezclas de distribuciones son a menudo multimodales, pero me gustaría saber si existen distribuciones "no mixtas"...

13
¿Cómo interpretar las cargas de PCA?

Mientras leía sobre PCA, me encontré con la siguiente explicación: Supongamos que tenemos un conjunto de datos donde cada punto de datos representa los puntajes de un solo estudiante en una prueba de matemáticas, una prueba de física, una prueba de comprensión de lectura y una prueba de...