Preguntas etiquetadas con pandas

73

Diferencia entre isna () e isnull () en pandas

He estado usando pandas por bastante tiempo. Pero, no entendí cuál es la diferencia entre isna()y isnull()en los pandas. Y, lo que es más importante, cuál usar para identificar los valores faltantes en el marco de datos. ¿Cuál es la diferencia básica subyacente de cómo se detecta un valor como nao...

python pandas dataframe

69

¿Por qué la gente prefiere Pandas a SQL?

He estado usando SQL desde 1996, por lo que puedo estar sesgado. He usado MySQL y SQLite 3 ampliamente, pero también he usado Microsoft SQL Server y Oracle. La gran mayoría de las operaciones que he visto con Pandas se pueden hacer más fácilmente con SQL. Esto incluye filtrar un conjunto de datos,...

pandas sql

42

ValueError: la entrada contiene NaN, infinito o un valor demasiado grande para dtype ('float32')

Obtuve ValueError al predecir datos de prueba usando un modelo RandomForest. Mi código: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) El...

python random-forest pandas

35

Cálculo y visualización de la matriz de correlación con pandas

Tengo un marco de datos de pandas con varias entradas, y quiero calcular la correlación entre los ingresos de algún tipo de tiendas. Hay una serie de tiendas con datos de ingresos, clasificación del área de actividad (teatro, tiendas de ropa, comida ...) y otros datos. Intenté crear un nuevo marco...

python statistics visualization pandas

33

Abrir un archivo de 20GB para análisis con pandas

Actualmente estoy tratando de abrir un archivo con pandas y python para fines de aprendizaje automático, sería ideal para mí tenerlos a todos en un DataFrame. Ahora el archivo es de 18 GB y mi RAM es de 32 GB, pero sigo recibiendo errores de memoria. Desde su experiencia, ¿es posible? Si no,...

python bigdata pandas anaconda

31

Convierta una lista de listas en un marco de datos de pandas

Estoy tratando de convertir una lista de listas que se parece a la siguiente en un marco de datos de Pandas [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', 10100000, '...

pandas

29

¿Por qué xgboost es mucho más rápido que sklearn GradientBoostingClassifier?

Estoy tratando de entrenar un modelo de aumento de gradiente en más de 50k ejemplos con 100 características numéricas. XGBClassifiermaneja 500 árboles en 43 segundos en mi máquina, mientras que GradientBoostingClassifiermaneja solo 10 árboles (!) en 1 minuto y 2 segundos :( No me molesté en tratar...

scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

25

¿Hay una manera directa de ejecutar pandas.DataFrame.isin en paralelo?

Tengo un programa de modelado y puntaje que hace un uso intensivo de la DataFrame.isinfunción de los pandas, buscando en las listas de Facebook "me gusta" registros de usuarios individuales para cada uno de unos pocos miles de páginas específicas. Esta es la parte del programa que consume más...

performance python pandas parallel

23

¿Cómo comparo columnas en diferentes marcos de datos?

Me gustaría comparar una columna de un df con otras df. Las columnas son nombres y apellidos. Me gustaría comprobar si una persona en un marco de datos está en

pandas dataframe

21

Cómo sumar valores agrupados por dos columnas en pandas

Tengo un Pandas DataFrame como este: df = pd.DataFrame({ 'Date': ['2017-1-1', '2017-1-1', '2017-1-2', '2017-1-2', '2017-1-3'], 'Groups': ['one', 'one', 'one', 'two', 'two'], 'data': range(1, 6)}) Date Groups data 0 2017-1-1 one 1 1 2017-1-1 one 2 2 2017-1-2 one 3 3 2017-1-2 two 4 4 2017-1-3...

python pandas dataframe

19

¿Cómo llenar el valor faltante basado en otras columnas en el marco de datos de Pandas?

Supongamos que tengo un marco de datos de 5 * 3 en el que la tercera columna contiene un valor perdido 1 2 3 4 5 NaN 7 8 9 3 2 NaN 5 6 NaN Espero generar valor para la regla basada en el valor perdido que el primer producto segunda columna 1 2 3 4 5 20 <--4*5 7 8 9 3 2 6 <-- 3*2 5 6 30...

pandas

18

¿hay alguna herramienta de ordenamiento de datos para python / pandas similar a la herramienta R tidyr?

Estoy trabajando en un desafío de Kaggle donde algunas variables están representadas por filas en lugar de columnas (Telstra Network Disruption). Actualmente estoy buscando el equivalente de recolectar (), separar () y difundir (), que se puede encontrar en la herramienta R

r python dataset data-cleaning pandas

17

¿Cómo contar el número de valores faltantes en cada fila en el marco de datos de Pandas?

¿Cómo puedo obtener el número de valores faltantes en cada fila en el marco de datos de Pandas? Me gustaría dividir el marco de datos en diferentes marcos de datos que tengan el mismo número de valores faltantes en cada fila. ¿Cualquier

python pandas

16

¿En qué parte del flujo de trabajo debemos tratar los datos faltantes?

Estoy construyendo un flujo de trabajo para crear modelos de aprendizaje automático (en mi caso, usando Python pandasy sklearnpaquetes) a partir de datos extraídos de una base de datos muy grande (aquí, Vertica a través de SQL y pyodbc), y un paso crítico en ese proceso implica que faltan valores...

machine-learning python pandas scikit-learn

16

¿Los pandas ahora son más rápidos que data.table?

https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Los puntos de referencia data.table no se han actualizado desde 2014. Escuché en algún lugar que Pandasahora es más rápido que data.table. ¿Es esto cierto? ¿Alguien ha hecho alguna referencia? ¿Nunca he usado Python antes pero...

python r pandas data data.table

16

agrandar el mapa de calor marino

Creo un corr()df a partir de un df original. El corr()DF salió 70 X 70 y es imposible de visualizar el mapa de calor ... sns.heatmap(df). Si trato de mostrar corr = df.corr(), la tabla no se ajusta a la pantalla y puedo ver todas las correlaciones. ¿Es una forma de imprimir todo dfsin importar su...

visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

14

Pandas Dataframe a DMatrix

Estoy tratando de ejecutar xgboost en scikit learn. Y solo uso Pandas para cargar datos en el marco de datos. ¿Cómo se supone que debo usar pandas df con xgboost? Estoy confundido por la rutina DMatrix requerida para ejecutar xgboost

scikit-learn pandas xgboost

13

Convierta una columna de pandas de int a tipo de datos de marca de tiempo

Tengo un marco de datos que, entre otras cosas, contiene una columna de la cantidad de milisegundos pasados desde 1970-1-1. Necesito convertir esta columna de ints en datos de fecha y hora, por lo que finalmente puedo convertirla en una columna de datos de fecha y hora agregando la serie de...

python time-series data-cleaning pandas

13

Ventajas del marco de datos de pandas para la base de datos relacional regular

En Data Science, muchos parecen estar usando marcos de datos de pandas como el almacén de datos. ¿Cuáles son las características de los pandas que lo convierten en un almacén de datos superior en comparación con las bases de datos relacionales normales como MySQL , que se utilizan para almacenar...

pandas databases

12

¿Cuántas celdas LSTM debo usar?

¿Existen reglas generales (o reglas reales) relacionadas con la cantidad mínima, máxima y "razonable" de celdas LSTM que debo usar? Específicamente me relaciono con BasicLSTMCell de TensorFlow y la num_unitspropiedad. Suponga que tengo un problema de clasificación definido por: t - number of time...

rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning