Pandas DataFrame a la lista de diccionarios

166

Tengo el siguiente DataFrame:

cliente item1 item2 item3
1 tomate de leche de manzana
2 papas de naranja con agua
3 chips de jugo de mango

que quiero traducir a la lista de diccionarios por fila

rows = [{'customer': 1, 'item1': 'apple', 'item2': 'milk', 'item3': 'tomato'},
    {'customer': 2, 'item1': 'water', 'item2': 'orange', 'item3': 'potato'},
    {'customer': 3, 'item1': 'juice', 'item2': 'mango', 'item3': 'chips'}]
Mohamad Ibrahim
fuente
2
¡Bienvenido a Stack Overflow! Sangué su muestra de código en 4 espacios para que se procese correctamente; consulte la ayuda de edición para obtener más información sobre el formato.
ByteHamster

Respuestas:

189

Editar

Como John Galt menciona en su respuesta , probablemente deberías usarlo df.to_dict('records'). Es más rápido que transponer manualmente.

In [20]: timeit df.T.to_dict().values()
1000 loops, best of 3: 395 µs per loop

In [21]: timeit df.to_dict('records')
10000 loops, best of 3: 53 µs per loop

Respuesta original

Uso df.T.to_dict().values(), como a continuación:

In [1]: df
Out[1]:
   customer  item1   item2   item3
0         1  apple    milk  tomato
1         2  water  orange  potato
2         3  juice   mango   chips

In [2]: df.T.to_dict().values()
Out[2]:
[{'customer': 1.0, 'item1': 'apple', 'item2': 'milk', 'item3': 'tomato'},
 {'customer': 2.0, 'item1': 'water', 'item2': 'orange', 'item3': 'potato'},
 {'customer': 3.0, 'item1': 'juice', 'item2': 'mango', 'item3': 'chips'}]
ComputerFellow
fuente
2
¿Cuál sería la solución en el caso de un marco de datos que contenga para cada Cliente muchas filas?
Aziz
2
Cuando uso df.T.to_dict().values(), también pierdo el orden de clasificación
Hussain,
Al abrir un archivo csv a la lista de dictados, obtengo el doble de velocidad conunicodecsv.DictReader
radtek 9/18
220

Uso df.to_dict('records'): proporciona la salida sin tener que transponer externamente.

In [2]: df.to_dict('records')
Out[2]:
[{'customer': 1L, 'item1': 'apple', 'item2': 'milk', 'item3': 'tomato'},
 {'customer': 2L, 'item1': 'water', 'item2': 'orange', 'item3': 'potato'},
 {'customer': 3L, 'item1': 'juice', 'item2': 'mango', 'item3': 'chips'}]
Cero
fuente
2
¿Cómo lo cambiaría para incluir el valor del índice en cada entrada de la lista resultante?
Gabriel L. Oliveira
55
@ GabrielL.Oliveira puede hacer df.reset_index (). To_dict ('records')
Wei Ma
¿El orden de las columnas está reservado en cada caso, es decir, la entrada enésima de la lista resultante siempre es también la enésima columna?
Cleb
@Cleb son i.e. is the nth entry in the resulting list always also the nth column?enésima columna o enésima fila?
Nauman Naeem
14

Como una extensión a la respuesta de John Galt :

Para el siguiente DataFrame,

   customer  item1   item2   item3
0         1  apple    milk  tomato
1         2  water  orange  potato
2         3  juice   mango   chips

Si desea obtener una lista de diccionarios, incluidos los valores de índice, puede hacer algo como,

df.to_dict('index')

Que genera un diccionario de diccionarios donde las claves del diccionario principal son valores de índice. En este caso particular,

{0: {'customer': 1, 'item1': 'apple', 'item2': 'milk', 'item3': 'tomato'},
 1: {'customer': 2, 'item1': 'water', 'item2': 'orange', 'item3': 'potato'},
 2: {'customer': 3, 'item1': 'juice', 'item2': 'mango', 'item3': 'chips'}}
Hossain Muctadir
fuente
1

Si está interesado en seleccionar solo una columna, esto funcionará.

df[["item1"]].to_dict("records")

Lo siguiente NO funcionará y producirá un TypeError: tipo no compatible:. Creo que esto se debe a que está tratando de convertir una serie a un dict y no un Data Frame a un dict.

df["item1"].to_dict("records")

Tenía el requisito de seleccionar solo una columna y convertirla en una lista de dictados con el nombre de la columna como clave y me quedé atascado en esto por un momento, así que pensé en compartirlo.

Joe Rivera
fuente