Preguntas etiquetadas con apache-spark

21

Fusionar múltiples marcos de datos en fila en PySpark

Tengo 10 marcos de datos pyspark.sql.dataframe.DataFrame, obtenidos de randomSplitcomo (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)Ahora quiero unir 9 tden un solo marco de datos, ¿cómo debo hacer eso? Ya lo he intentado...

16

agrandar el mapa de calor marino

Creo un corr()df a partir de un df original. El corr()DF salió 70 X 70 y es imposible de visualizar el mapa de calor ... sns.heatmap(df). Si trato de mostrar corr = df.corr(), la tabla no se ajusta a la pantalla y puedo ver todas las correlaciones. ¿Es una forma de imprimir todo dfsin importar su...

visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

13

Cómo calcular la media de una columna de marco de datos y encontrar el 10% superior

Soy muy nuevo en Scala y Spark, y estoy trabajando en algunos ejercicios hechos por mí mismo usando estadísticas de béisbol. Estoy usando una clase de caso para crear un RDD y asignar un esquema a los datos, y luego lo estoy convirtiendo en un DataFrame para poder usar SparkSQL para seleccionar...

apache-spark scala

12

Reemplace todos los valores numéricos en un marco de datos pyspark por un valor constante

Considere un marco de datos pyspark que consta de elementos 'nulos' y elementos numéricos. En general, los elementos numéricos tienen valores diferentes. ¿Cómo es posible reemplazar todos los valores numéricos del marco de datos por un valor numérico constante (por ejemplo, por el valor 1)?...

python apache-spark

11

Cómo convertir datos categóricos a datos numéricos en Pyspark

Estoy usando el cuaderno Ipython para trabajar con aplicaciones pyspark. Tengo un archivo CSV con muchas columnas categóricas para determinar si el ingreso cae por debajo o por encima del rango de 50k. Me gustaría realizar un algoritmo de clasificación tomando todas las entradas para determinar el...

python apache-spark categorical-data pyspark

11

Problema con IPython / Jupyter en Spark (alias no reconocido)

Estoy trabajando en la configuración de un conjunto de máquinas virtuales para experimentar con Spark antes de gastar salir y gastar dinero en construir un clúster con algún hardware. Nota rápida: Soy un académico con experiencia en aprendizaje automático aplicado y trabajo un poco más en ciencia...

python apache-spark pyspark ipython

10

Spark, dividiendo de manera óptima un solo RDD en dos

Tengo un gran conjunto de datos que necesito dividir en grupos de acuerdo con parámetros específicos. Quiero que el trabajo se procese de la manera más eficiente posible. Puedo imaginar dos formas de hacerlo Opción 1 : crear un mapa a partir del RDD original y filtrar def customMapper(record):...

apache-spark pyspark

10

Análisis de registro del servidor utilizando machine learning

Me asignaron esta tarea para analizar los registros del servidor de nuestra aplicación que contiene registros de excepciones, registros de eventos, registros de base de datos, etc. Soy nuevo en el aprendizaje automático, utilizamos Spark con búsqueda elástica y Sparks MLlib (o PredictionIO) .Un...

machine-learning predictive-modeling apache-spark

10

¿Cuándo elegir regresión lineal o árbol de decisión o regresión de bosque aleatorio? [cerrado]

Cerrada . Esta pregunta necesita estar más centrada . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que se centre en un problema solo editando esta publicación . Cerrado hace 4 años . Estoy...

machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

10

¿Cuándo caduca el caché para un RDD en pyspark?

Usamos .cache()en RDD para el almacenamiento en caché persistente de un conjunto de datos. Mi preocupación es cuándo expirará este almacenamiento en caché. dt = sc.parallelize([2, 3, 4, 5,

apache-spark pyspark

10

Spark ALS: recomendación para nuevos usuarios

La pregunta ¿Cómo pronostico la calificación de un nuevo usuario en un modelo ALS capacitado en Spark? (Nuevo = no visto durante el tiempo de entrenamiento) El problema Estoy siguiendo el tutorial oficial de Spark ALS

apache-spark recommender-system pyspark

10

Relación entre convolución en matemáticas y CNN

He leído la explicación de la convolución y la entiendo hasta cierto punto. ¿Alguien puede ayudarme a entender cómo esta operación se relaciona con la convolución en redes neuronales convolucionales? ¿Es el filtro como una función gque aplica

machine-learning neural-network deep-learning cnn convolution machine-learning ensemble-modeling machine-learning classification data-mining clustering machine-learning feature-selection convnet pandas graphs ipython machine-learning apache-spark multiclass-classification naive-bayes-classifier multilabel-classification machine-learning data-mining dataset data-cleaning data machine-learning data-mining statistics correlation machine-learning data-mining dataset data-cleaning data beginner career python r visualization machine-learning data-mining nlp stanford-nlp dataset linear-regression time-series correlation anomaly-detection ensemble-modeling data-mining machine-learning python data-mining recommender-system machine-learning cross-validation model-selection scoring prediction sequential-pattern-mining categorical-data python tensorflow image-recognition statistics machine-learning data-mining predictive-modeling data-cleaning preprocessing classification deep-learning tensorflow machine-learning algorithms data keras categorical-data reference-request loss-function classification logistic-regression apache-spark prediction naive-bayes-classifier beginner nlp word2vec vector-space-models scikit-learn decision-trees data programming

9

Calcular similitud de coseno en Apache Spark

Tengo un DataFrame con IDF de ciertas palabras calculadas. Por ejemplo (10,[0,1,2,3,4,5],[0.413734499590671,0.4244680552337798,0.4761400657781007, 1.4004620708967006,0.37876590175292424,0.48374466516332]) .... and so on Ahora proporcione una consulta Q, puedo calcular el TF-IDF de esta...

machine-learning nlp apache-spark cosine-distance

8

Cómo ejecutar una aplicación pyspark en el símbolo del sistema de Windows 8

Tengo un script de Python escrito con Spark Context y quiero ejecutarlo. Intenté integrar IPython con Spark, pero no pude hacerlo. Entonces, traté de configurar la ruta de chispa [Carpeta de instalación / bin] como una variable de entorno y llamé al comando spark-submit en el indicador de cmd. Creo...

python apache-spark pyspark ipython

8

Clase no balanceada: class_weight para algoritmos ML en Spark MLLib

En python sklearn, hay múltiples algoritmos (por ejemplo, regresión, bosque aleatorio ... etc.) que tienen el parámetro class_weight para manejar datos no balanceados. Sin embargo, no encuentro dicho parámetro para los algoritmos MLLib. ¿Existe un plan para implementar class_weight para algún...

machine-learning apache-spark unbalanced-classes weighted-data