¿Cuáles son algunas de las ventajas de los almacenes de datos en columnas que los hacen más adecuados para la ciencia y el análisis de
¿Cuáles son algunas de las ventajas de los almacenes de datos en columnas que los hacen más adecuados para la ciencia y el análisis de
Estoy tratando de agrupar algunos vectores con 90 características con K-means. Como este algoritmo me pregunta la cantidad de clústeres, quiero validar mi elección con algunas buenas matemáticas. Espero tener de 8 a 10 grupos. Las características son escala Z-score. Método del codo y varianza...
Actualmente estoy trabajando con Python y Scikit para fines de clasificación, y leyendo un poco sobre GridSearch, pensé que esta era una excelente manera de optimizar los parámetros de mi estimador para obtener los mejores resultados. Mi metodología es esta: Dividir mis datos en entrenamiento /...
¿Es necesario estandarizar sus datos antes del clúster? En el ejemplo de scikit learnaproximadamente DBSCAN, aquí hacen esto en la línea: X = StandardScaler().fit_transform(X) Pero no entiendo por qué es necesario. Después de todo, la agrupación no supone una distribución particular de datos: es...
Cerrada . Esta pregunta está basada en la opinión . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que pueda ser respondida con hechos y citas editando esta publicación . Cerrado hace 5 años . No sé si...
Estoy seguro de que la ciencia de datos como se discutirá en este foro tiene varios sinónimos o al menos campos relacionados donde se analizan datos grandes. Mi pregunta particular es con respecto a la minería de datos. Tomé una clase de posgrado en minería de datos hace unos años. ¿Cuáles son las...
¿Hay alguna manera de agregar más importancia a los puntos que son más recientes al analizar datos con xgboost?
Me gustaría configurar un servidor que pueda soportar un equipo de ciencia de datos de la siguiente manera: ser un punto central para almacenar, versionar, compartir y, posiblemente, también ejecutar cuadernos Jupyter. Algunas propiedades deseadas: Diferentes usuarios pueden acceder al servidor...
Soy bastante nuevo en esto y no puedo decir que tengo una comprensión completa de los conceptos teóricos detrás de esto. Estoy tratando de calcular la divergencia de KL entre varias listas de puntos en Python. Estoy usando
¿Cómo calcular el mAP (precisión media promedio) para la tarea de detección de las tablas de clasificación de Pascal VOC? http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4 Dicho esto, en la página 11 :
Estoy buscando un documento que detalle los conceptos básicos del aprendizaje profundo. Idealmente como el curso Andrew Ng para aprendizaje profundo. ¿Sabes dónde puedo encontrar
Fondo Estoy trabajando en un conjunto de datos de series temporales de lecturas de medidores de energía. La longitud de la serie varía según el metro: para algunos tengo varios años, otros solo unos pocos meses, etc. Muchos muestran una estacionalidad significativa y, a menudo, varias capas,...
Con todo el alboroto en torno a la ciencia de datos, el aprendizaje automático y todas las historias de éxito, hay muchas expectativas tanto justificadas como demasiado infladas de los científicos de datos y sus modelos predictivos. Mi pregunta para los estadísticos, expertos en aprendizaje...
Estoy tratando de entender cómo puedo codificar variables categóricas usando la estimación de probabilidad, pero hasta ahora he tenido poco éxito. Cualquier sugerencia sería muy
Estaba leyendo sobre la solución a este desafío OTTO Kaggle y la solución del primer lugar parece usar varias transformaciones para los datos de entrada X, por ejemplo Log (X + 1), sqrt (X + 3/8), etc. ¿Hay un guía general sobre cuándo aplicar qué transformaciones de tipo a varios...
A menudo escuché a personas decir que por qué las redes neuronales convolucionales todavía se entienden mal. ¿Se sabe por qué las redes neuronales convolucionales siempre terminan aprendiendo características cada vez más sofisticadas a medida que avanzamos en las capas? ¿Qué les causó crear una...
Esto es más como una pregunta general de PNL. ¿Cuál es la entrada adecuada para entrenar una incrustación de palabras, a saber, Word2Vec? ¿Deberían todas las oraciones que pertenecen a un artículo ser un documento separado en un corpus? ¿O debería cada artículo ser un documento en dicho corpus?...
Recientemente se le preguntó a un amigo mío si los algoritmos del árbol de decisión son algoritmos lineales o no lineales en una entrevista. Traté de buscar respuestas a esta pregunta pero no pude encontrar ninguna explicación satisfactoria. ¿Alguien puede responder y explicar la solución a esta...
Solía aplicar la validación cruzada K-fold para una evaluación sólida de mis modelos de aprendizaje automático. Pero también soy consciente de la existencia del método bootstrapping para este propósito. Sin embargo, no puedo ver la principal diferencia entre ellos en términos de estimación de...
Tengo un Pandas DataFrame como este: df = pd.DataFrame({ 'Date': ['2017-1-1', '2017-1-1', '2017-1-2', '2017-1-2', '2017-1-3'], 'Groups': ['one', 'one', 'one', 'two', 'two'], 'data': range(1, 6)}) Date Groups data 0 2017-1-1 one 1 1 2017-1-1 one 2 2 2017-1-2 one 3 3 2017-1-2 two 4 4 2017-1-3...