Grupo de pandas por suma acumulativa

Question 1

Me gustaría agregar una columna de suma acumulativa a mi marco de datos Pandas para que:

name | day       | no
-----|-----------|----
Jack | Monday    | 10
Jack | Tuesday   | 20
Jack | Tuesday   | 10
Jack | Wednesday | 50
Jill | Monday    | 40
Jill | Wednesday | 110

se convierte en:

Jack | Monday     | 10  | 10
Jack | Tuesday    | 30  | 40
Jack | Wednesday  | 50  | 90
Jill | Monday     | 40  | 40
Jill | Wednesday  | 110 | 150

Probé varios combos de df.groupbyy df.agg(lambda x: cumsum(x))sin éxito.

Question 2

Esto debería hacerlo, necesita groupby()dos veces:

df.groupby(['name', 'day']).sum() \
  .groupby(level=0).cumsum().reset_index()

Explicación:

print(df)
   name        day   no
0  Jack     Monday   10
1  Jack    Tuesday   20
2  Jack    Tuesday   10
3  Jack  Wednesday   50
4  Jill     Monday   40
5  Jill  Wednesday  110

# sum per name/day
print( df.groupby(['name', 'day']).sum() )
                 no
name day           
Jack Monday      10
     Tuesday     30
     Wednesday   50
Jill Monday      40
      Wednesday  110

# cumulative sum per name/day
print( df.groupby(['name', 'day']).sum() \
         .groupby(level=0).cumsum() )
                 no
name day           
Jack Monday      10
     Tuesday     40
     Wednesday   90
Jill Monday      40
     Wednesday  150

El marco de datos resultante de la primera suma se indexa por 'name'y por 'day'. Puedes verlo imprimiendo

df.groupby(['name', 'day']).sum().index

Al calcular la suma acumulada, desea hacerlo por 'name', correspondiente al primer índice (nivel 0).

Por último, utilice reset_indexpara que se repitan los nombres.

df.groupby(['name', 'day']).sum().groupby(level=0).cumsum().reset_index()

   name        day   no
0  Jack     Monday   10
1  Jack    Tuesday   40
2  Jack  Wednesday   90
3  Jill     Monday   40
4  Jill  Wednesday  150

Question 3

Esto funciona en pandas 0.16.2

In[23]: print df
        name          day   no
0      Jack       Monday    10
1      Jack      Tuesday    20
2      Jack      Tuesday    10
3      Jack    Wednesday    50
4      Jill       Monday    40
5      Jill    Wednesday   110
In[24]: df['no_cumulative'] = df.groupby(['name'])['no'].apply(lambda x: x.cumsum())
In[25]: print df
        name          day   no  no_cumulative
0      Jack       Monday    10             10
1      Jack      Tuesday    20             30
2      Jack      Tuesday    10             40
3      Jack    Wednesday    50             90
4      Jill       Monday    40             40
5      Jill    Wednesday   110            150

Question 4

Modificación a la respuesta de @ Dmitry. Esto es más simple y funciona en pandas 0.19.0:

print(df) 

 name        day   no
0  Jack     Monday   10
1  Jack    Tuesday   20
2  Jack    Tuesday   10
3  Jack  Wednesday   50
4  Jill     Monday   40
5  Jill  Wednesday  110

df['no_csum'] = df.groupby(['name'])['no'].cumsum()

print(df)
   name        day   no  no_csum
0  Jack     Monday   10       10
1  Jack    Tuesday   20       30
2  Jack    Tuesday   10       40
3  Jack  Wednesday   50       90
4  Jill     Monday   40       40
5  Jill  Wednesday  110      150

Question 5

Deberías usar

df['cum_no'] = df.no.cumsum()

http://pandas.pydata.org/pandas-docs/version/0.19.2/generated/pandas.DataFrame.cumsum.html

Otra forma de hacerlo

import pandas as pd
df = pd.DataFrame({'C1' : ['a','a','a','b','b'],
           'C2' : [1,2,3,4,5]})
df['cumsum'] = df.groupby(by=['C1'])['C2'].transform(lambda x: x.cumsum())
df

Question 6

En lugar de df.groupby(by=['name','day']).sum().groupby(level=[0]).cumsum() (ver arriba) también puede hacer undf.set_index(['name', 'day']).groupby(level=0, as_index=False).cumsum()

df.groupby(by=['name','day']).sum() en realidad, solo mueve ambas columnas a un MultiIndex
as_index=False significa que no necesita llamar a reset_index después

Question 7

data.csv:

name,day,no
Jack,Monday,10
Jack,Tuesday,20
Jack,Tuesday,10
Jack,Wednesday,50
Jill,Monday,40
Jill,Wednesday,110

Código:

import numpy as np
import pandas as pd

df = pd.read_csv('data.csv')
print(df)
df = df.groupby(['name', 'day'])['no'].sum().reset_index()
print(df)
df['cumsum'] = df.groupby(['name'])['no'].apply(lambda x: x.cumsum())
print(df)

Salida:

   name        day   no
0  Jack     Monday   10
1  Jack    Tuesday   20
2  Jack    Tuesday   10
3  Jack  Wednesday   50
4  Jill     Monday   40
5  Jill  Wednesday  110
   name        day   no
0  Jack     Monday   10
1  Jack    Tuesday   30
2  Jack  Wednesday   50
3  Jill     Monday   40
4  Jill  Wednesday  110
   name        day   no  cumsum
0  Jack     Monday   10      10
1  Jack    Tuesday   30      40
2  Jack  Wednesday   50      90
3  Jill     Monday   40      40
4  Jill  Wednesday  110     150

Answer 1

93

Me gustaría agregar una columna de suma acumulativa a mi marco de datos Pandas para que:

name | day       | no
-----|-----------|----
Jack | Monday    | 10
Jack | Tuesday   | 20
Jack | Tuesday   | 10
Jack | Wednesday | 50
Jill | Monday    | 40
Jill | Wednesday | 110

se convierte en:

Jack | Monday     | 10  | 10
Jack | Tuesday    | 30  | 40
Jack | Wednesday  | 50  | 90
Jill | Monday     | 40  | 40
Jill | Wednesday  | 110 | 150

Probé varios combos de df.groupbyy df.agg(lambda x: cumsum(x))sin éxito.

python pandas kc2819
fuente

¿Está realmente seguro de que desea la agregación durante los días de la semana? Eso pierde el índice, y también la suma acumulada tiene menos sentido si hay varias semanas. Las respuestas de dmitry-andreev y @vjayky calculan cumsum durante la secuencia de días para cada nombre. Piense en cómo podría extenderse esto si también hubiera una columna de fecha, por la que las entradas podrían ordenarse antes de agrupar y agregar.

Elias Hasle

Answer 2

¿Está realmente seguro de que desea la agregación durante los días de la semana? Eso pierde el índice, y también la suma acumulada tiene menos sentido si hay varias semanas. Las respuestas de dmitry-andreev y @vjayky calculan cumsum durante la secuencia de días para cada nombre. Piense en cómo podría extenderse esto si también hubiera una columna de fecha, por la que las entradas podrían ordenarse antes de agrupar y agregar.

Elias Hasle

Answer 3

89

Esto debería hacerlo, necesita groupby()dos veces:

df.groupby(['name', 'day']).sum() \
  .groupby(level=0).cumsum().reset_index()

Explicación:

print(df)
   name        day   no
0  Jack     Monday   10
1  Jack    Tuesday   20
2  Jack    Tuesday   10
3  Jack  Wednesday   50
4  Jill     Monday   40
5  Jill  Wednesday  110

# sum per name/day
print( df.groupby(['name', 'day']).sum() )
                 no
name day           
Jack Monday      10
     Tuesday     30
     Wednesday   50
Jill Monday      40
      Wednesday  110

# cumulative sum per name/day
print( df.groupby(['name', 'day']).sum() \
         .groupby(level=0).cumsum() )
                 no
name day           
Jack Monday      10
     Tuesday     40
     Wednesday   90
Jill Monday      40
     Wednesday  150

El marco de datos resultante de la primera suma se indexa por 'name'y por 'day'. Puedes verlo imprimiendo

df.groupby(['name', 'day']).sum().index

Al calcular la suma acumulada, desea hacerlo por 'name', correspondiente al primer índice (nivel 0).

Por último, utilice reset_indexpara que se repitan los nombres.

df.groupby(['name', 'day']).sum().groupby(level=0).cumsum().reset_index()

   name        day   no
0  Jack     Monday   10
1  Jack    Tuesday   40
2  Jack  Wednesday   90
3  Jill     Monday   40
4  Jill  Wednesday  150

CT Zhu
fuente

3

Gracias por la respuesta. Sin embargo, tuve algunas consultas: 1. ¿Puede explicar qué significa "nivel = [0]"? 2. Además, como puede ver, antes tenía números de fila en su marco de datos y estos números de fila desaparecen una vez que hace la suma acumulativa. ¿Hay alguna forma de recuperarlos?

user3694373

5

1), el número de índice tiene que ir, ya que los cumsums son de varias filas, como el segundo número, 40, es 10 + 20 + 10, ¿qué valor de índice debería obtener? 1, 2 o 3? Entonces, sigamos usando namey daycomo multiIndex, que tiene más sentido ( reset_index()para obtener un intíndice, si lo desea). 2), el level=[0]medio groupbyes operar por el 1er nivel de MultiIndex, a saber, la columna name.

CT Zhu

Gracias CT. Entendí eso más tarde e intenté reset_index () para resolver mi problema. ¡Gracias por la explicación detallada!

user3694373

4

Hay un error sutil: el primer valor groupby()predeterminado para ordenar las claves, por lo que si agrega una fila Jack-Thursday en la parte inferior del conjunto de datos de entrada, obtendrá resultados inesperados. Y como groupby()puedo trabajar con nombres de nivel, me parece df.groupby(['name', 'day'], sort=False).sum().groupby(by='name').cumsum().reset_index()menos críptico.

Nickolay

¿Cómo se cambia el nombre de la columna?

Jonathan Lam

Answer 4

3

Gracias por la respuesta. Sin embargo, tuve algunas consultas: 1. ¿Puede explicar qué significa "nivel = [0]"? 2. Además, como puede ver, antes tenía números de fila en su marco de datos y estos números de fila desaparecen una vez que hace la suma acumulativa. ¿Hay alguna forma de recuperarlos?

user3694373

Answer 5

5

1), el número de índice tiene que ir, ya que los cumsums son de varias filas, como el segundo número, 40, es 10 + 20 + 10, ¿qué valor de índice debería obtener? 1, 2 o 3? Entonces, sigamos usando namey daycomo multiIndex, que tiene más sentido ( reset_index()para obtener un intíndice, si lo desea). 2), el level=[0]medio groupbyes operar por el 1er nivel de MultiIndex, a saber, la columna name.

CT Zhu

Answer 6

Gracias CT. Entendí eso más tarde e intenté reset_index () para resolver mi problema. ¡Gracias por la explicación detallada!

user3694373

Answer 7

4

Hay un error sutil: el primer valor groupby()predeterminado para ordenar las claves, por lo que si agrega una fila Jack-Thursday en la parte inferior del conjunto de datos de entrada, obtendrá resultados inesperados. Y como groupby()puedo trabajar con nombres de nivel, me parece df.groupby(['name', 'day'], sort=False).sum().groupby(by='name').cumsum().reset_index()menos críptico.

Nickolay

Answer 8

¿Cómo se cambia el nombre de la columna?

Jonathan Lam

Answer 9

47

Esto funciona en pandas 0.16.2

In[23]: print df
        name          day   no
0      Jack       Monday    10
1      Jack      Tuesday    20
2      Jack      Tuesday    10
3      Jack    Wednesday    50
4      Jill       Monday    40
5      Jill    Wednesday   110
In[24]: df['no_cumulative'] = df.groupby(['name'])['no'].apply(lambda x: x.cumsum())
In[25]: print df
        name          day   no  no_cumulative
0      Jack       Monday    10             10
1      Jack      Tuesday    20             30
2      Jack      Tuesday    10             40
3      Jack    Wednesday    50             90
4      Jill       Monday    40             40
5      Jill    Wednesday   110            150

Dmitry Andreev
fuente

Mostrar cómo volver a agregarlo al df es realmente útil. Intenté usar una transformación, pero eso no funcionó bien con cumsum ().

zerovector

2

Tenga en cuenta que esta respuesta (parece equivalente a la solución más simple de @vjayky ) no se agrega por namey dayantes de calcular la suma acumulada por name(nota: hay 2 filas para Jack + Tuesday en el resultado). Esto es lo que lo hace más simple que la respuesta de CT Zhu .

Nickolay

Answer 10

Mostrar cómo volver a agregarlo al df es realmente útil. Intenté usar una transformación, pero eso no funcionó bien con cumsum ().

zerovector

Answer 11

2

Tenga en cuenta que esta respuesta (parece equivalente a la solución más simple de @vjayky ) no se agrega por namey dayantes de calcular la suma acumulada por name(nota: hay 2 filas para Jack + Tuesday en el resultado). Esto es lo que lo hace más simple que la respuesta de CT Zhu .

Nickolay

Answer 12

39

Modificación a la respuesta de @ Dmitry. Esto es más simple y funciona en pandas 0.19.0:

print(df) 

 name        day   no
0  Jack     Monday   10
1  Jack    Tuesday   20
2  Jack    Tuesday   10
3  Jack  Wednesday   50
4  Jill     Monday   40
5  Jill  Wednesday  110

df['no_csum'] = df.groupby(['name'])['no'].cumsum()

print(df)
   name        day   no  no_csum
0  Jack     Monday   10       10
1  Jack    Tuesday   20       30
2  Jack    Tuesday   10       40
3  Jack  Wednesday   50       90
4  Jill     Monday   40       40
5  Jill  Wednesday  110      150

vjayky
fuente

2

Esta parece ser la solución más simple si no necesita la agregación de dos pasos , como se solicita en la pregunta.

Nickolay

La única parte que no me gusta particularmente es que convirtió mi int dtype en un flotador.

Chris Farr

Esta debería ser la respuesta aceptada para el cumsum en la parte grupal. @ChrisFarr Parece que ya no se convierte para flotar para mí a partir de pandas 1.0.3.

Louis Yang

Answer 13

2

Esta parece ser la solución más simple si no necesita la agregación de dos pasos , como se solicita en la pregunta.

Nickolay

Answer 14

La única parte que no me gusta particularmente es que convirtió mi int dtype en un flotador.

Chris Farr

Answer 15

Esta debería ser la respuesta aceptada para el cumsum en la parte grupal. @ChrisFarr Parece que ya no se convierte para flotar para mí a partir de pandas 1.0.3.

Louis Yang

Answer 16

8

Deberías usar

df['cum_no'] = df.no.cumsum()

http://pandas.pydata.org/pandas-docs/version/0.19.2/generated/pandas.DataFrame.cumsum.html

Otra forma de hacerlo

import pandas as pd
df = pd.DataFrame({'C1' : ['a','a','a','b','b'],
           'C2' : [1,2,3,4,5]})
df['cumsum'] = df.groupby(by=['C1'])['C2'].transform(lambda x: x.cumsum())
df

sushmit
fuente

3

Esto calcula un total acumulado global, en lugar de una suma separada para cada grupo por separado. Así que a Jill-Monday se le asigna un valor de 130 ( 90como la suma de todos los valores de Jack, + 40, el valor de Jill-Monday).

Nickolay

@Nickolay acaba de agregar otra respuesta, avíseme si funciona

sushmit

No estoy seguro de si calcula el total

acumulado

¿Por qué uso lambda x: x.cumsum () aquí, en lugar de pandas.series.cumsum ()?

Jinhua Wang

Answer 17

3

Esto calcula un total acumulado global, en lugar de una suma separada para cada grupo por separado. Así que a Jill-Monday se le asigna un valor de 130 ( 90como la suma de todos los valores de Jack, + 40, el valor de Jill-Monday).

Nickolay

Answer 18

@Nickolay acaba de agregar otra respuesta, avíseme si funciona

sushmit

Answer 19

No estoy seguro de si calcula el total

acumulado

Answer 20

¿Por qué uso lambda x: x.cumsum () aquí, en lugar de pandas.series.cumsum ()?

Jinhua Wang

Answer 21

7

En lugar de df.groupby(by=['name','day']).sum().groupby(level=[0]).cumsum() (ver arriba) también puede hacer undf.set_index(['name', 'day']).groupby(level=0, as_index=False).cumsum()

df.groupby(by=['name','day']).sum() en realidad, solo mueve ambas columnas a un MultiIndex
as_index=False significa que no necesita llamar a reset_index después

Christoph
fuente

Gracias por publicar esto, ¡me ayudó a entender lo que está pasando aquí! Tenga en cuenta que groupby().sum()no solo está moviendo ambas columnas a MultiIndex, sino que también resume los dos valores para Jack + Tuesday. Y as_index=Falseno parece tener ningún efecto en este caso, ya que el índice ya se estableció antes de groupby. Y dado que groupby().cumsum()extrae el nombre / día de las columnas del marco de datos, debe agregar la columna numérica resultante al marco de datos original (como sugirieron vjayky y Dmitry), o mover el nombre / día al índice, y luego reiniciar_index.

Nickolay

Answer 22

Gracias por publicar esto, ¡me ayudó a entender lo que está pasando aquí! Tenga en cuenta que groupby().sum()no solo está moviendo ambas columnas a MultiIndex, sino que también resume los dos valores para Jack + Tuesday. Y as_index=Falseno parece tener ningún efecto en este caso, ya que el índice ya se estableció antes de groupby. Y dado que groupby().cumsum()extrae el nombre / día de las columnas del marco de datos, debe agregar la columna numérica resultante al marco de datos original (como sugirieron vjayky y Dmitry), o mover el nombre / día al índice, y luego reiniciar_index.

Nickolay

Answer 23

data.csv:

name,day,no
Jack,Monday,10
Jack,Tuesday,20
Jack,Tuesday,10
Jack,Wednesday,50
Jill,Monday,40
Jill,Wednesday,110

Código:

import numpy as np
import pandas as pd

df = pd.read_csv('data.csv')
print(df)
df = df.groupby(['name', 'day'])['no'].sum().reset_index()
print(df)
df['cumsum'] = df.groupby(['name'])['no'].apply(lambda x: x.cumsum())
print(df)

Salida:

   name        day   no
0  Jack     Monday   10
1  Jack    Tuesday   20
2  Jack    Tuesday   10
3  Jack  Wednesday   50
4  Jill     Monday   40
5  Jill  Wednesday  110
   name        day   no
0  Jack     Monday   10
1  Jack    Tuesday   30
2  Jack  Wednesday   50
3  Jill     Monday   40
4  Jill  Wednesday  110
   name        day   no  cumsum
0  Jack     Monday   10      10
1  Jack    Tuesday   30      40
2  Jack  Wednesday   50      90
3  Jill     Monday   40      40
4  Jill  Wednesday  110     150

Grupo de pandas por suma acumulativa

Respuestas: