Preguntas etiquetadas con pandas

pandas es una biblioteca de python para la manipulación y análisis de datos de panel, por ejemplo, series de tiempo multidimensionales y conjuntos de datos transversales que se encuentran comúnmente en estadísticas, resultados de ciencias experimentales, econometría o finanzas.

73
Diferencia entre isna () e isnull () en pandas

He estado usando pandas por bastante tiempo. Pero, no entendí cuál es la diferencia entre isna()y isnull()en los pandas. Y, lo que es más importante, cuál usar para identificar los valores faltantes en el marco de datos. ¿Cuál es la diferencia básica subyacente de cómo se detecta un valor como nao...

69
¿Por qué la gente prefiere Pandas a SQL?

He estado usando SQL desde 1996, por lo que puedo estar sesgado. He usado MySQL y SQLite 3 ampliamente, pero también he usado Microsoft SQL Server y Oracle. La gran mayoría de las operaciones que he visto con Pandas se pueden hacer más fácilmente con SQL. Esto incluye filtrar un conjunto de datos,...

33
Abrir un archivo de 20GB para análisis con pandas

Actualmente estoy tratando de abrir un archivo con pandas y python para fines de aprendizaje automático, sería ideal para mí tenerlos a todos en un DataFrame. Ahora el archivo es de 18 GB y mi RAM es de 32 GB, pero sigo recibiendo errores de memoria. Desde su experiencia, ¿es posible? Si no,...

31
Convierta una lista de listas en un marco de datos de pandas

Estoy tratando de convertir una lista de listas que se parece a la siguiente en un marco de datos de Pandas [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', 10100000, '...

29
¿Por qué xgboost es mucho más rápido que sklearn GradientBoostingClassifier?

Estoy tratando de entrenar un modelo de aumento de gradiente en más de 50k ejemplos con 100 características numéricas. XGBClassifiermaneja 500 árboles en 43 segundos en mi máquina, mientras que GradientBoostingClassifiermaneja solo 10 árboles (!) en 1 minuto y 2 segundos :( No me molesté en tratar...

16
¿Los pandas ahora son más rápidos que data.table?

https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Los puntos de referencia data.table no se han actualizado desde 2014. Escuché en algún lugar que Pandasahora es más rápido que data.table. ¿Es esto cierto? ¿Alguien ha hecho alguna referencia? ¿Nunca he usado Python antes pero...

16
agrandar el mapa de calor marino

Creo un corr()df a partir de un df original. El corr()DF salió 70 X 70 y es imposible de visualizar el mapa de calor ... sns.heatmap(df). Si trato de mostrar corr = df.corr(), la tabla no se ajusta a la pantalla y puedo ver todas las correlaciones. ¿Es una forma de imprimir todo dfsin importar su...

14
Pandas Dataframe a DMatrix

Estoy tratando de ejecutar xgboost en scikit learn. Y solo uso Pandas para cargar datos en el marco de datos. ¿Cómo se supone que debo usar pandas df con xgboost? Estoy confundido por la rutina DMatrix requerida para ejecutar xgboost

12
¿Cuántas celdas LSTM debo usar?

¿Existen reglas generales (o reglas reales) relacionadas con la cantidad mínima, máxima y "razonable" de celdas LSTM que debo usar? Específicamente me relaciono con BasicLSTMCell de TensorFlow y la num_unitspropiedad. Suponga que tengo un problema de clasificación definido por: t - number of time...