Ciencia de los datos

16

¿Cuál es la diferencia entre fit () y fit_generator () en Keras?

¿Cuál es la diferencia entre fit()y fit_generator()en Keras? ¿Cuándo debo usar fit()vs

deep-learning keras

16

¿Cómo autoaprender la ciencia de datos? [cerrado]

Cerrada . Esta pregunta necesita estar más centrada . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que se centre en un problema solo editando esta publicación . Cerrado hace 4 años . Soy un...

beginner self-study

16

¿Cómo elegir las características para una red neuronal?

Sé que no hay una respuesta clara para esta pregunta, pero supongamos que tengo una gran red neuronal, con muchos datos y quiero agregar una nueva característica en la entrada. La "mejor" forma sería probar la red con la nueva función y ver los resultados, pero ¿existe algún método para probar si...

machine-learning neural-network feature-selection feature-extraction

16

¿Los pandas ahora son más rápidos que data.table?

https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Los puntos de referencia data.table no se han actualizado desde 2014. Escuché en algún lugar que Pandasahora es más rápido que data.table. ¿Es esto cierto? ¿Alguien ha hecho alguna referencia? ¿Nunca he usado Python antes pero...

python r pandas data data.table

16

¿Cómo aumentar la precisión de los clasificadores?

Estoy usando el ejemplo de OpenCV letter_recog.cpp para experimentar en árboles aleatorios y otros clasificadores. Este ejemplo tiene implementaciones de seis clasificadores: árboles aleatorios, impulso, MLP, kNN, Bayes ingenuos y SVM. Se utiliza el conjunto de datos de reconocimiento de letras UCI...

machine-learning classification svm accuracy random-forest

16

¿Qué es un puntaje LB en aprendizaje automático?

Estaba leyendo un artículo en los blogs de kaggle. En repetidas ocasiones, el autor menciona 'puntaje LB' y 'ajuste LB') como una métrica para la efectividad del aprendizaje automático (junto con el puntaje de validación cruzada (CV)). Con una investigación sobre el significado de 'LB', pasé...

machine-learning accuracy

16

Usos de la base de datos NoSQL en ciencia de datos

¿Cómo se pueden usar las bases de datos NoSQL como MongoDB para el análisis de datos? ¿Cuáles son las características en ellos que pueden hacer que el análisis de datos sea más rápido y

bigdata nosql mongodb

16

Recomienda películas con funciones adicionales mediante el filtrado colaborativo

Estoy tratando de construir un sistema de recomendación usando filtrado colaborativo. Tengo la [user, movie, rating]información habitual . Me gustaría incorporar una función adicional como 'idioma' o 'duración de la película'. No estoy seguro de qué técnicas podría utilizar para tal problema. Por...

python r recommender-system

16

¿Qué más ofrece TensorFlow a los keras?

Soy consciente de que Keras sirve como una interfaz de alto nivel para TensorFlow. Pero me parece que los keras pueden hacer muchas funcionalidades por sí mismos (entrada de datos, creación de modelos, capacitación, evaluación). Además, parte de la funcionalidad de TensorFlow se puede portar...

keras tensorflow

16

Método de puntuación RandomForestClassifier OOB

¿La implementación aleatoria del bosque en scikit-learn utiliza la precisión media como método de puntuación para estimar el error de generalización con muestras fuera de bolsa? Esto no se menciona en la documentación, pero el método score () informa la precisión media. Tengo un conjunto de datos...

random-forest scikit-learn

16

agrandar el mapa de calor marino

Creo un corr()df a partir de un df original. El corr()DF salió 70 X 70 y es imposible de visualizar el mapa de calor ... sns.heatmap(df). Si trato de mostrar corr = df.corr(), la tabla no se ajusta a la pantalla y puedo ver todas las correlaciones. ¿Es una forma de imprimir todo dfsin importar su...

visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

16

¿Cuál es la razón detrás de tomar la transformación de registro de pocas variables continuas?

He estado haciendo un problema de clasificación y he leído el código y los tutoriales de muchas personas. Una cosa que he notado es que muchas personas toman np.logo logde variables continuas como loan_amounto applicant_incomeetc. Solo quiero entender la razón detrás de esto. ¿Ayuda a mejorar la...

machine-learning python classification scikit-learn

16

Extrae la mayoría de las partes informativas del texto de los documentos.

¿Hay algún artículo o discusión sobre la extracción de parte del texto que contenga la mayor parte de la información sobre el documento actual? Por ejemplo, tengo un gran corpus de documentos del mismo dominio. Hay partes del texto que contienen la información clave de la que habla un solo...

nlp text-mining

16

Biblioteca de Python para regresión segmentada (también conocida como regresión por partes)

Estoy buscando una biblioteca de Python que pueda realizar una regresión segmentada (también conocida como regresión por partes) . Ejemplo

python linear-regression library software-recommendation

16

Sobreajuste de redes neuronales convolucionales. La deserción no ayuda

Estoy jugando un poco con convnets. Específicamente, estoy usando el conjunto de datos kaggle cats-vs-dogs que consta de 25000 imágenes etiquetadas como gato o perro (12500 cada una). Me las arreglé para lograr una precisión de clasificación de alrededor del 85% en mi conjunto de pruebas, sin...

neural-network deep-learning convnet image-recognition dropout

16

¿Cómo obtener predicciones con predict_generator en la transmisión de datos de prueba en Keras?

En el blog de Keras sobre capacitación de redes de comunicación desde cero , el código muestra solo la red que se ejecuta en datos de capacitación y validación. ¿Qué pasa con los datos de prueba? ¿Los datos de validación son los mismos que los datos de prueba (creo que no)? Si hubiera una carpeta...

machine-learning python deep-learning keras confusion-matrix

16

¿Por qué necesitamos descartar una variable ficticia?

Aprendí que, para crear un modelo de regresión, tenemos que ocuparnos de las variables categóricas convirtiéndolas en variables ficticias. Como ejemplo, si, en nuestro conjunto de datos, hay una variable como la ubicación: Location ---------- Californian NY Florida Tenemos que convertirlos...

machine-learning regression categorical-data

16

Selección de características vs extracción de características. ¿Cuál usar cuando?

La extracción de características y la selección de características esencialmente reducen la dimensionalidad de los datos, pero la extracción de características también hace que los datos sean más separables, si tengo razón. ¿Qué técnica se preferiría sobre la otra y cuándo? Estaba pensando, dado...

feature-selection feature-extraction dimensionality-reduction

16

¿Qué tipos de problemas de aprendizaje son adecuados para las máquinas de vectores de soporte?

¿Cuáles son las características o propiedades que indican que se puede abordar un determinado problema de aprendizaje utilizando máquinas de vectores de soporte? En otras palabras, ¿qué es lo que, cuando ves un problema de aprendizaje, te hace decir "oh, definitivamente debería usar SVM para...

machine-learning svm supervised-learning unsupervised-learning

16

¿Qué es el peso y el sesgo en el aprendizaje profundo?

Estoy empezando a aprender Machine learning del sitio web de Tensorflow. He desarrollado una comprensión muy rudimentaria del flujo que sigue un programa de aprendizaje profundo (este método me hace aprender rápido en lugar de leer libros y artículos grandes). Hay algunas cosas confusas que he...

machine-learning deep-learning tensorflow