Preguntas etiquetadas con r

19

¿A qué contribuyen los hiperparámetros alfa y beta en la asignación de Dirichlet latente?

LDA tiene dos hiperparámetros, ajustarlos cambia los temas inducidos. ¿Qué aportan los hiperparámetros alfa y beta a LDA? ¿Cómo cambia el tema si uno u otro hiperparámetro aumenta o disminuye? ¿Por qué son hiperparamters y no solo

topic-model lda parameter

18

Búsqueda de hiperparámetros para LSTM-RNN usando Keras (Python)

De Keras RNN Tutorial: "Los RNN son complicados. La elección del tamaño del lote es importante, la elección de la pérdida y el optimizador es crítica, etc. Algunas configuraciones no convergen". Entonces, esta es una pregunta más general sobre cómo ajustar los hiperparámetros de un LSTM-RNN en...

python neural-network deep-learning keras hyperparameter

18

¿hay alguna herramienta de ordenamiento de datos para python / pandas similar a la herramienta R tidyr?

Estoy trabajando en un desafío de Kaggle donde algunas variables están representadas por filas en lugar de columnas (Telstra Network Disruption). Actualmente estoy buscando el equivalente de recolectar (), separar () y difundir (), que se puede encontrar en la herramienta R

r python dataset data-cleaning pandas

17

¿Qué utilizas para generar un tablero en R?

Necesito generar informes periódicos (diarios, mensuales) del panel de análisis web. Serán estáticos y no requieren interacción, así que imagine un archivo PDF como salida de destino. Los informes mezclarán tablas y gráficos (principalmente gráficos minigráficos y viñetas creados con ggplot2)....

r visualization

16

¿Cómo autoaprender la ciencia de datos? [cerrado]

Cerrada . Esta pregunta necesita estar más centrada . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que se centre en un problema solo editando esta publicación . Cerrado hace 4 años . Soy un...

beginner self-study

16

agrandar el mapa de calor marino

Creo un corr()df a partir de un df original. El corr()DF salió 70 X 70 y es imposible de visualizar el mapa de calor ... sns.heatmap(df). Si trato de mostrar corr = df.corr(), la tabla no se ajusta a la pantalla y puedo ver todas las correlaciones. ¿Es una forma de imprimir todo dfsin importar su...

visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

16

¿Los pandas ahora son más rápidos que data.table?

https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Los puntos de referencia data.table no se han actualizado desde 2014. Escuché en algún lugar que Pandasahora es más rápido que data.table. ¿Es esto cierto? ¿Alguien ha hecho alguna referencia? ¿Nunca he usado Python antes pero...

python r pandas data data.table

16

Recomienda películas con funciones adicionales mediante el filtrado colaborativo

Estoy tratando de construir un sistema de recomendación usando filtrado colaborativo. Tengo la [user, movie, rating]información habitual . Me gustaría incorporar una función adicional como 'idioma' o 'duración de la película'. No estoy seguro de qué técnicas podría utilizar para tal problema. Por...

python r recommender-system

16

¿Cómo predecir probabilidades en xgboost?

La siguiente función de predicción también proporciona valores -ve, por lo que no puede haber probabilidades. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst,...

machine-learning r predictive-modeling decision-trees

15

eliminar cadenas después de cierto carácter en un texto dado

Tengo un conjunto de datos como el siguiente. Quiero eliminar todos los caracteres después del carácter ©. ¿Cómo puedo hacer eso en R? data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <-...

r data-cleaning

15

Ciencia de datos sin conocimiento de un tema específico, ¿vale la pena seguir como carrera? [cerrado]

Cerrado. Esta pregunta está fuera de tema . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que sea sobre el tema de Data Science Stack Exchange. Cerrado hace 5 años . Recientemente tuve una...

education beginner career

15

Proyectos de ciencia de datos de código abierto para contribuir

La contribución a los proyectos de código abierto suele ser una buena forma de obtener algo de práctica para los novatos y probar una nueva área para científicos y analistas de datos con experiencia. ¿Qué proyectos aportas? Proporcione alguna introducción + enlace en

beginner open-source

15

R: aprendizaje automático en GPU

¿Hay algún paquete de aprendizaje automático para R que pueda hacer uso de la GPU para mejorar la velocidad de entrenamiento (algo así como theano del mundo python)? Veo que hay un paquete llamado gputools que permite la ejecución de código en la gpu, pero estoy buscando una biblioteca más...

machine-learning r gpu

14

¿Las bibliotecas modernas de R y / o Python hacen que SQL sea obsoleto?

Trabajo en una oficina donde SQL Server es la columna vertebral de todo lo que hacemos, desde el procesamiento de datos hasta la limpieza y el mung. Mi colega se especializa en escribir funciones complejas y procedimientos almacenados para procesar metódicamente los datos entrantes para que puedan...

python r data-cleaning data sql

14

¿Cómo manejar un factor cero en el cálculo del clasificador Naive Bayes?

Si tengo un conjunto de datos de entrenamiento y entreno un Clasificador Naive Bayes en él y tengo un valor de atributo que tiene probabilidad cero. ¿Cómo manejo esto si luego quiero predecir la clasificación en los nuevos datos? El problema es que si hay un cero en el cálculo, todo el producto se...

classification naive-bayes-classifier

13

¿Por qué los codificadores automáticos para reducción de dimensiones son simétricos?

No soy un experto en autoencoders o redes neuronales de ninguna manera, así que perdóname si esta es una pregunta tonta. Con el fin de reducir la dimensión o visualizar grupos en datos de alta dimensión, podemos usar un autoencoder para crear una representación bidimensional (con pérdida) al...

neural-network dimensionality-reduction autoencoder

13

Soy programador, ¿cómo entro en el campo de la ciencia de datos?

En primer lugar, este término suena muy oscuro. De todos modos ... Soy un programador de software. Uno de los idiomas que puedo codificar es Python. Hablando de datos, puedo usar SQL y puedo hacer Data Scraping. Lo que descubrí hasta ahora después de leer tantos artículos en los que Data Science...

beginner career

12

¿Cuántas celdas LSTM debo usar?

¿Existen reglas generales (o reglas reales) relacionadas con la cantidad mínima, máxima y "razonable" de celdas LSTM que debo usar? Específicamente me relaciono con BasicLSTMCell de TensorFlow y la num_unitspropiedad. Suponga que tengo un problema de clasificación definido por: t - number of time...

rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

12

Predecir la próxima afección médica a partir de afecciones pasadas en los datos de reclamos

Actualmente estoy trabajando con un gran conjunto de datos de reclamos de seguro de salud que incluye algunos reclamos de laboratorio y farmacia. Sin embargo, la información más consistente en el conjunto de datos está compuesta por códigos de diagnóstico (ICD-9CM) y de procedimiento (CPT, HCSPCS,...

machine-learning r

12

Clasificación de texto no estructurado

Voy a clasificar documentos de texto no estructurados, es decir, sitios web de estructura desconocida. El número de clases a las que estoy clasificando es limitado (en este momento, creo que no hay más de tres). ¿Alguien tiene una sugerencia de cómo podría comenzar? ¿Es factible aquí el enfoque de...

machine-learning classification text-mining beginner