Preguntas etiquetadas con dataframe

434

Cómo filtrar el marco de datos de Pandas usando 'in' y 'not in' como en SQL

¿Cómo puedo lograr los equivalentes de SQL INy NOT IN? Tengo una lista con los valores requeridos. Aquí está el escenario: df = pd.DataFrame({'countries':['US','UK','Germany','China']}) countries = ['UK','China'] # pseudo-code: df[df['countries'] not in countries] Mi forma actual de hacer esto...

412

UnicodeDecodeError al leer el archivo CSV en Pandas con Python

Estoy ejecutando un programa que procesa 30,000 archivos similares. Un número aleatorio de ellos se detiene y produce este error ... File "C:\Importer\src\dfman\importer.py", line 26, in import_chr data = pd.read_csv(filepath, names=fields) File

python pandas csv dataframe unicode

404

Importe múltiples archivos csv en pandas y concatene en un DataFrame

Me gustaría leer varios archivos csv de un directorio en pandas y concatenarlos en un gran DataFrame. Sin embargo, no he podido resolverlo. Esto es lo que tengo hasta ahora: import glob import pandas as pd # get data file names path =r'C:\DRO\DCL_rawdata_files' filenames = glob.glob(path +...

python pandas csv dataframe concatenation

399

Cambiar los nombres de columna de un marco de datos

Tengo un marco de datos llamado "newprice" (ver más abajo) y quiero cambiar los nombres de columna en mi programa en R. > newprice Chang. Chang. Chang. 1 100 36 136 2 120 -33 87 3 150 14 164 De hecho, esto es lo que estoy

r dataframe rename

395

Selección de una fila de series / marco de datos de pandas por índice entero

Tengo curiosidad por saber por qué df[2]no es compatible, mientras que df.ix[2]y df[2:3]ambos funcionan. In [26]: df.ix[2] Out[26]: A 1.027680 B 1.514210 C -1.466963 D -0.162339 Name: 2000-01-03 00:00:00 In [27]: df[2:3] Out[27]: A B C D 2000-01-03 1.02768 1.51421 -1.466963

python pandas dataframe indexing

370

La construcción de pandas DataFrame a partir de valores en variables proporciona "ValueError: si usa todos los valores escalares, debe pasar un índice"

Esta puede ser una pregunta simple, pero no puedo entender cómo hacerlo. Digamos que tengo dos variables de la siguiente manera. a = 2 b = 3 Quiero construir un DataFrame a partir de esto: df2 = pd.DataFrame({'A':a,'B':b}) Esto genera un error: ValueError: si usa todos los valores...

python pandas dataframe scalar

369

El valor de verdad de una serie es ambiguo. Utilice a.empty, a.bool (), a.item (), a.any () o a.all ()

Tener problemas para filtrar mi marco de datos de resultados con una orcondición. Quiero que mi resultado dfextraiga todos los varvalores de columna que estén por encima de 0.25 y por debajo de -0.25. Esta lógica a continuación me da un valor de verdad ambiguo, sin embargo, funciona cuando divido...

python pandas dataframe boolean filtering

368

Cómo aplicar una función a dos columnas del marco de datos Pandas

Supongamos que tengo un dfque tiene columnas de 'ID', 'col_1', 'col_2'. Y defino una función: f = lambda x, y : my_function_expression. Ahora quiero aplicar la fa df's dos columnas 'col_1', 'col_2'para calcular elemento gota una nueva columna 'col_3', algo así como: df['col_3'] =...

python pandas dataframe

366

Extraer columnas específicas de un marco de datos

Tengo un marco de datos R con 6 columnas, y quiero crear un nuevo marco de datos que solo tenga tres de las columnas. Suponiendo mi trama de datos es df, y quiero columnas de extracto A, By E, este es el único comando que puedo averiguar: data.frame(df$A,df$B,df$E) ¿Hay una forma más compacta...

r dataframe r-faq

357

Cómo sumar una variable por grupo

Tengo un marco de datos con dos columnas. La primera columna contiene categorías como "Primero", "Segundo", "Tercero", y la segunda columna tiene números que representan la cantidad de veces que vi los grupos específicos de "Categoría". Por ejemplo: Category Frequency First 10 First 15 First...

r dataframe aggregate r-faq

352

Convierta columnas data.frame de factores a caracteres

Tengo un marco de datos. Vamos a llamarlo bob: > head(bob) phenotype exclusion GSM399350 3- 4- 8- 25- 44+ 11b- 11c- 19- NK1.1- Gr1- TER119- GSM399351 3- 4- 8- 25- 44+ 11b- 11c- 19- NK1.1- Gr1- TER119- GSM399352 3- 4- 8- 25- 44+ 11b- 11c- 19- NK1.1- Gr1- TER119- GSM399353 3- 4- 8- 25+ 44+ 11b-...

r dataframe

344

¿Cómo obtener un valor de una celda de un marco de datos?

He construido una condición que extrae exactamente una fila de mi marco de datos: d2 = df[(df['l_ext']==l_ext) & (df['item']==item) & (df['wn']==wn) & (df['wd']==1)] Ahora me gustaría tomar un valor de una columna en particular: val = d2['col_name'] Pero como resultado obtengo un...

python pandas dataframe

336

Convierta una lista de marcos de datos en un marco de datos

Tengo un código que en un lugar termina con una lista de marcos de datos que realmente quiero convertir en un solo marco de datos grandes. Recibí algunos consejos de una pregunta anterior que intentaba hacer algo similar pero más complejo. Aquí hay un ejemplo de lo que estoy comenzando (esto se...

list r dataframe

333

Muestra de filas aleatorias en el marco de datos

Estoy luchando por encontrar la función adecuada que devuelva un número específico de filas recogidas al azar sin reemplazo de un marco de datos en lenguaje R? ¿Puede alguien

r dataframe sample r-faq

329

pandas: filtrar filas de DataFrame con encadenamiento de operador

La mayoría de las operaciones en pandasque se puede lograr con el encadenamiento de operador ( groupby, aggregate, apply, etc.), pero la única manera que he encontrado para las filas de filtro es a través de la indexación de soporte de la normalidad df_filtered = df[df['column'] == value] Esto no...

python pandas dataframe

325

Pandas: cómo aplanar un índice jerárquico en columnas

Tengo un marco de datos con un índice jerárquico en el eje 1 (columnas) (de una groupby.aggoperación): USAF WBAN year month day s_PC s_CL s_CD s_CNT tempf sum sum sum sum amax amin 0 702730 26451 1993 1 1 1 0 12 13 30.92 24.98 1 702730 26451 1993 1 2 0 0 13 13 32.00 24.98 2 702730 26451 1993 1...

python pandas dataframe

324

¿Cómo creo muestras de prueba y entrenamiento a partir de un marco de datos con pandas?

Tengo un conjunto de datos bastante grande en forma de un marco de datos y me preguntaba cómo podría dividir el marco de datos en dos muestras aleatorias (80% y 20%) para capacitación y

python python-2.7 pandas dataframe

320

Pandas read_csv low_memory y dtype opciones

Cuando llame df = pd.read_csv('somefile.csv') Yo obtengo: /Users/josh/anaconda/envs/py27/lib/python2.7/site-packages/pandas/io/parsers.py:1130: DtypeWarning: Las columnas (4,5,7,16) tienen tipos mixtos. Especifique la opción dtype al importar o establezca low_memory = False. ¿Por qué está...

python parsing numpy pandas dataframe

317

Cómo almacenar un marco de datos usando Pandas

En este momento estoy importando un CSVmarco de datos bastante grande cada vez que ejecuto el script. ¿Existe una buena solución para mantener ese marco de datos constantemente disponible entre ejecuciones para que no tenga que pasar todo el tiempo esperando que se ejecute el

python pandas dataframe

314

Creación condicional de pandas de una columna de serie / marco de datos

Tengo un marco de datos en la línea de abajo: Type Set 1 A Z 2 B Z 3 B X 4 C Y Quiero agregar otra columna al marco de datos (o generar una serie) de la misma longitud que el marco de datos (= igual número de registros / filas) que establece un color verde si Set = 'Z' y 'rojo' si Set = de lo...

python pandas numpy dataframe