LDA tiene dos hiperparámetros, ajustarlos cambia los temas inducidos. ¿Qué aportan los hiperparámetros alfa y beta a LDA? ¿Cómo cambia el tema si uno u otro hiperparámetro aumenta o disminuye? ¿Por qué son hiperparamters y no solo
LDA tiene dos hiperparámetros, ajustarlos cambia los temas inducidos. ¿Qué aportan los hiperparámetros alfa y beta a LDA? ¿Cómo cambia el tema si uno u otro hiperparámetro aumenta o disminuye? ¿Por qué son hiperparamters y no solo
De Keras RNN Tutorial: "Los RNN son complicados. La elección del tamaño del lote es importante, la elección de la pérdida y el optimizador es crítica, etc. Algunas configuraciones no convergen". Entonces, esta es una pregunta más general sobre cómo ajustar los hiperparámetros de un LSTM-RNN en...
Estoy trabajando en un desafío de Kaggle donde algunas variables están representadas por filas en lugar de columnas (Telstra Network Disruption). Actualmente estoy buscando el equivalente de recolectar (), separar () y difundir (), que se puede encontrar en la herramienta R
Necesito generar informes periódicos (diarios, mensuales) del panel de análisis web. Serán estáticos y no requieren interacción, así que imagine un archivo PDF como salida de destino. Los informes mezclarán tablas y gráficos (principalmente gráficos minigráficos y viñetas creados con ggplot2)....
Cerrada . Esta pregunta necesita estar más centrada . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que se centre en un problema solo editando esta publicación . Cerrado hace 4 años . Soy un...
Creo un corr()df a partir de un df original. El corr()DF salió 70 X 70 y es imposible de visualizar el mapa de calor ... sns.heatmap(df). Si trato de mostrar corr = df.corr(), la tabla no se ajusta a la pantalla y puedo ver todas las correlaciones. ¿Es una forma de imprimir todo dfsin importar su...
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Los puntos de referencia data.table no se han actualizado desde 2014. Escuché en algún lugar que Pandasahora es más rápido que data.table. ¿Es esto cierto? ¿Alguien ha hecho alguna referencia? ¿Nunca he usado Python antes pero...
Estoy tratando de construir un sistema de recomendación usando filtrado colaborativo. Tengo la [user, movie, rating]información habitual . Me gustaría incorporar una función adicional como 'idioma' o 'duración de la película'. No estoy seguro de qué técnicas podría utilizar para tal problema. Por...
La siguiente función de predicción también proporciona valores -ve, por lo que no puede haber probabilidades. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst,...
Tengo un conjunto de datos como el siguiente. Quiero eliminar todos los caracteres después del carácter ©. ¿Cómo puedo hacer eso en R? data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <-...
Cerrado. Esta pregunta está fuera de tema . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que sea sobre el tema de Data Science Stack Exchange. Cerrado hace 5 años . Recientemente tuve una...
La contribución a los proyectos de código abierto suele ser una buena forma de obtener algo de práctica para los novatos y probar una nueva área para científicos y analistas de datos con experiencia. ¿Qué proyectos aportas? Proporcione alguna introducción + enlace en
¿Hay algún paquete de aprendizaje automático para R que pueda hacer uso de la GPU para mejorar la velocidad de entrenamiento (algo así como theano del mundo python)? Veo que hay un paquete llamado gputools que permite la ejecución de código en la gpu, pero estoy buscando una biblioteca más...
Trabajo en una oficina donde SQL Server es la columna vertebral de todo lo que hacemos, desde el procesamiento de datos hasta la limpieza y el mung. Mi colega se especializa en escribir funciones complejas y procedimientos almacenados para procesar metódicamente los datos entrantes para que puedan...
Si tengo un conjunto de datos de entrenamiento y entreno un Clasificador Naive Bayes en él y tengo un valor de atributo que tiene probabilidad cero. ¿Cómo manejo esto si luego quiero predecir la clasificación en los nuevos datos? El problema es que si hay un cero en el cálculo, todo el producto se...
No soy un experto en autoencoders o redes neuronales de ninguna manera, así que perdóname si esta es una pregunta tonta. Con el fin de reducir la dimensión o visualizar grupos en datos de alta dimensión, podemos usar un autoencoder para crear una representación bidimensional (con pérdida) al...
En primer lugar, este término suena muy oscuro. De todos modos ... Soy un programador de software. Uno de los idiomas que puedo codificar es Python. Hablando de datos, puedo usar SQL y puedo hacer Data Scraping. Lo que descubrí hasta ahora después de leer tantos artículos en los que Data Science...
¿Existen reglas generales (o reglas reales) relacionadas con la cantidad mínima, máxima y "razonable" de celdas LSTM que debo usar? Específicamente me relaciono con BasicLSTMCell de TensorFlow y la num_unitspropiedad. Suponga que tengo un problema de clasificación definido por: t - number of time...
Actualmente estoy trabajando con un gran conjunto de datos de reclamos de seguro de salud que incluye algunos reclamos de laboratorio y farmacia. Sin embargo, la información más consistente en el conjunto de datos está compuesta por códigos de diagnóstico (ICD-9CM) y de procedimiento (CPT, HCSPCS,...
Voy a clasificar documentos de texto no estructurados, es decir, sitios web de estructura desconocida. El número de clases a las que estoy clasificando es limitado (en este momento, creo que no hay más de tres). ¿Alguien tiene una sugerencia de cómo podría comenzar? ¿Es factible aquí el enfoque de...