Ciencia de los datos

12
¿Qué es un 'antiguo nombre' de científico de datos?

Términos como 'ciencia de datos' y 'científico de datos' se usan cada vez más en estos días. Muchas empresas están contratando 'científico de datos'. Pero no creo que sea un trabajo completamente nuevo. Los datos han existido en el pasado y alguien tuvo que lidiar con los datos. Supongo que el...

12
Tarifas de aerolíneas: ¿qué análisis se debe utilizar para detectar comportamientos competitivos de fijación de precios y correlaciones de precios?

Quiero investigar el comportamiento de fijación de precios de las aerolíneas, específicamente cómo las aerolíneas reaccionan a los precios de la competencia. Como diría, mi conocimiento sobre análisis más complejos es bastante limitado. He realizado principalmente todos los métodos básicos para...

12
MinHashing vs SimHashing

Supongamos que tengo cinco conjuntos que me gustaría agrupar. Entiendo que la técnica SimHashing descrita aquí: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ podría producir tres grupos ( {A}, {B,C,D}y {E}), por ejemplo, si sus resultados fueran: A -> h01 B...

12
¿Cuántas dimensiones hay que reducir al hacer PCA?

¿Cómo elegir K para PCA? K es el número de dimensiones para proyectar hacia abajo. El único requisito es no perder demasiada información. Entiendo que depende de los datos, pero estoy buscando más una descripción general simple sobre qué características considerar al elegir...

12
¿Cómo combino dos marcos de datos en Python Pandas?

Tengo dos marcos de datos df1 y df2 y me gustaría fusionarlos en un solo marco de datos. Es como si df1 y df2 se hubieran dividido verticalmente en un solo cuadro de datos en el centro, como rasgar un trozo de papel que contiene una lista por la mitad, de modo que la mitad de las columnas van en un...

12
Importe el contenido del archivo csv en marcos de datos pyspark

¿Cómo puedo importar un archivo .csv en marcos de datos pyspark? Incluso intenté leer el archivo csv en Pandas y luego convertirlo en un marco de datos de chispa usando createDataFrame, pero todavía muestra algún error. ¿Alguien puede guiarme a través de esto? Además, por favor dígame ¿cómo puedo...

12
¿Cómo usar RBM para la clasificación?

En este momento estoy jugando con Restricted Boltzmann Machines y, dado que estoy allí, me gustaría tratar de clasificar los dígitos escritos a mano. El modelo que creé ahora es un modelo generativo bastante elegante, pero no sé cómo ir más allá. En este artículo, el autor dice que después de...