Preguntas etiquetadas con apache-hadoop

38

¿Necesito aprender Hadoop para ser un científico de datos?

Un aspirante a científico de datos aquí. No sé nada sobre Hadoop, pero como he estado leyendo sobre Data Science y Big Data, veo muchas conversaciones sobre Hadoop. ¿Es absolutamente necesario aprender Hadoop para ser un científico de

bigdata apache-hadoop

30

¿Cuáles son los casos de uso de Apache Spark vs Hadoop?

Con Hadoop 2.0 y YARN, Hadoop supuestamente ya no está vinculado solo a soluciones de reducción de mapas. Con ese avance, ¿cuáles son los casos de uso para Apache Spark vs Hadoop teniendo en cuenta que ambos se sientan encima de HDFS? He leído la documentación de introducción de Spark, pero tengo...

apache-hadoop distributed knowledge-base

16

agrandar el mapa de calor marino

Creo un corr()df a partir de un df original. El corr()DF salió 70 X 70 y es imposible de visualizar el mapa de calor ... sns.heatmap(df). Si trato de mostrar corr = df.corr(), la tabla no se ajusta a la pantalla y puedo ver todas las correlaciones. ¿Es una forma de imprimir todo dfsin importar su...

visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

15

¿Cuál es la diferencia entre Hadoop y noSQL?

Escuché sobre muchas herramientas / marcos para ayudar a las personas a procesar sus datos (entorno de big data). Uno se llama Hadoop y el otro es el concepto noSQL. ¿Cuál es la diferencia en el punto de procesamiento? ¿Son

nosql tools processing apache-hadoop

12

Compensaciones entre Storm y Hadoop (MapReduce)

¿Alguien puede decirme amablemente sobre las compensaciones involucradas al elegir entre Storm y MapReduce en Hadoop Cluster para el procesamiento de datos? Por supuesto, aparte del obvio, que Hadoop (procesamiento a través de MapReduce en un Hadoop Cluster) es un sistema de procesamiento por...

bigdata efficiency apache-hadoop distributed

12

¿Amazon RedShift reemplaza a Hadoop por ~ 1XTB de datos?

Hay mucha publicidad alrededor de Hadoop y su ecosistema. Sin embargo, en la práctica, donde muchos conjuntos de datos están en el rango de terabytes, ¿no es más razonable usar Amazon RedShift para consultar grandes conjuntos de datos, en lugar de perder tiempo y esfuerzo construyendo un clúster...

apache-hadoop map-reduce aws

11

¿Pueden los algoritmos de reducción de mapas escritos para MongoDB ser portados a Hadoop más tarde?

En nuestra empresa, tenemos una base de datos MongoDB que contiene una gran cantidad de datos no estructurados, en los que necesitamos ejecutar algoritmos de reducción de mapas para generar informes y otros análisis. Tenemos dos enfoques para seleccionar para implementar los análisis...

scalability apache-hadoop map-reduce mongodb

11

¿Hay algún buen modelo de lenguaje listo para usar para Python?

Estoy creando prototipos de una aplicación y necesito un modelo de lenguaje para calcular la perplejidad en algunas oraciones generadas. ¿Hay algún modelo de lenguaje entrenado en Python que pueda usar fácilmente? Algo simple como model = LanguageModel('en') p1 = model.perplexity('This is a well...

python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

10

¿Cuáles son las restricciones de memoria de R?

Al revisar el " Modelo predictivo aplicado ", un revisor declara : Una crítica que tengo de la pedagogía del aprendizaje estadístico (SL) es la ausencia de consideraciones de rendimiento de cómputo en la evaluación de diferentes técnicas de modelado. Con su énfasis en bootstrapping y validación...

apache-hadoop r

10

Los mejores idiomas para la informática científica [cerrado]

Cerrada . Esta pregunta necesita estar más centrada . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que se centre en un problema solo editando esta publicación . Cerrado hace 5 años . Parece que la...

efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

10

¿Cómo hacer lotes de productos internos en Tensorflow?

Tengo dos tensor a:[batch_size, dim] b:[batch_size, dim]. Quiero hacer un producto interno para cada par en el lote, generando c:[batch_size, 1], dónde c[i,0]=a[i,:].T*b[i,:].

tensorflow scikit-learn svm cross-validation feature-selection bayesian machine-learning decision-trees parameter-estimation neural-network convnet neural-network regularization visualization machine-learning similarity python pandas indexing r data-cleaning machine-learning predictive-modeling data-cleaning recommender-system python sequential-pattern-mining software-recommendation r visualization gaussian distribution machine-learning data-mining bigdata apache-hadoop predictive-modeling logistic-regression sampling machine-learning regression feature-selection mongodb neural-network inception machine-learning classification dataset databases logistic-regression deep-learning backpropagation classification data-mining multilabel-classification text-mining data-cleaning unsupervised-learning anomaly-detection python r python pandas

8

Error en cascada en la tormenta de Apache

Revisando la presentación y el material de Summingbird por Twitter, una de las razones que se mencionan para usar los clústeres de Storm y Hadoop juntos en Summingbird es que el procesamiento a través de Storm produce una cascada de errores. Para evitar esta cascada de errores y su acumulación, el...

bigdata apache-hadoop

8

Ciencia de datos y modelo de programación MapReduce de Hadoop

¿Cuáles son las diferentes clases de problemas de ciencia de datos que se pueden resolver utilizando el modelo de programación

apache-hadoop map-reduce