Crear una nueva columna basada en la condición if-elif-else

Question 1

Tengo un DataFrame df:

Quiero crear una nueva columna según los siguientes criterios:

si fila A == B: 0

si filaA > B: 1

si fila A < B: -1

así que dada la tabla anterior, debería ser:

    A    B    C
a   2    2    0
b   3    1    1
c   1    3   -1

Para los if elsecasos típicos que hago np.where(df.A > df.B, 1, -1), ¿los pandas proporcionan una sintaxis especial para resolver mi problema con un paso (sin la necesidad de crear 3 columnas nuevas y luego combinar el resultado)?

Question 2

Para formalizar algunos de los enfoques expuestos anteriormente:

Cree una función que opere en las filas de su marco de datos así:

def f(row):
    if row['A'] == row['B']:
        val = 0
    elif row['A'] > row['B']:
        val = 1
    else:
        val = -1
    return val

Luego, aplíquelo a su marco de datos pasando la axis=1opción:

In [1]: df['C'] = df.apply(f, axis=1)

In [2]: df
Out[2]:
   A  B  C
a  2  2  0
b  3  1  1
c  1  3 -1

Por supuesto, esto no está vectorizado, por lo que el rendimiento puede no ser tan bueno cuando se escala a una gran cantidad de registros. Aún así, creo que es mucho más legible. Especialmente viniendo de un fondo SAS.

Editar

Aquí está la versión vectorizada

df['C'] = np.where(
    df['A'] == df['B'], 0, np.where(
    df['A'] >  df['B'], 1, -1))

Question 3

df.loc[df['A'] == df['B'], 'C'] = 0
df.loc[df['A'] > df['B'], 'C'] = 1
df.loc[df['A'] < df['B'], 'C'] = -1

Fácil de resolver mediante indexación. La primera línea de código se lee así, si la columna Aes igual a la columna B, cree y establezca la columna Cigual a 0.

Question 4

Para esta relación en particular, puede utilizar np.sign:

>>> df["C"] = np.sign(df.A - df.B)
>>> df
   A  B  C
a  2  2  0
b  3  1  1
c  1  3 -1

Question 5

Digamos que el anterior es su marco de datos original y desea agregar una nueva columna 'antigua'

Si la edad es mayor de 50 años, la consideramos mayor = sí en caso contrario Falso

paso 1: obtener los índices de las filas cuya antigüedad sea mayor a 50

row_indexes=df[df['age']>=50].index

paso 2: usando .loc podemos asignar un nuevo valor a la columna

df.loc[row_indexes,'elderly']="yes"

lo mismo para la edad menor de 50

row_indexes=df[df['age']<50].index

df[row_indexes,'elderly']="no"

Answer 1

100

Tengo un DataFrame df:

Quiero crear una nueva columna según los siguientes criterios:

si fila A == B: 0

si filaA > B: 1

si fila A < B: -1

así que dada la tabla anterior, debería ser:

    A    B    C
a   2    2    0
b   3    1    1
c   1    3   -1

Para los if elsecasos típicos que hago np.where(df.A > df.B, 1, -1), ¿los pandas proporcionan una sintaxis especial para resolver mi problema con un paso (sin la necesidad de crear 3 columnas nuevas y luego combinar el resultado)?

python pandas conditional loco
fuente

Simplemente podría definir una función y pasar esto applyy establecer axis=1funcionaría, no estoy seguro de poder pensar en una operación que le dé lo que desea

EdChum

Su solución implica crear 3 columnas y combinarlas en 1 columna, ¿o tiene algo diferente en mente?

Nutship

Sigues diciendo "creando 3 columnas", pero no estoy seguro de a qué te refieres.

DSM

1

@DSM ha respondido a esta pregunta, pero me refiero a algo como df['C']=df.apply(myFunc(row), axis=1)donde myFunc hace lo que quieres, esto no implica la creación de '3 columnas'

EdChum

1

Posible duplicado de la creación condicional

Georgy

Answer 2

Simplemente podría definir una función y pasar esto applyy establecer axis=1funcionaría, no estoy seguro de poder pensar en una operación que le dé lo que desea

EdChum

Answer 3

Su solución implica crear 3 columnas y combinarlas en 1 columna, ¿o tiene algo diferente en mente?

Nutship

Answer 4

Sigues diciendo "creando 3 columnas", pero no estoy seguro de a qué te refieres.

DSM

Answer 5

1

@DSM ha respondido a esta pregunta, pero me refiero a algo como df['C']=df.apply(myFunc(row), axis=1)donde myFunc hace lo que quieres, esto no implica la creación de '3 columnas'

EdChum

Answer 6

1

Posible duplicado de la creación condicional

Georgy

Answer 7

146

Para formalizar algunos de los enfoques expuestos anteriormente:

Cree una función que opere en las filas de su marco de datos así:

def f(row):
    if row['A'] == row['B']:
        val = 0
    elif row['A'] > row['B']:
        val = 1
    else:
        val = -1
    return val

Luego, aplíquelo a su marco de datos pasando la axis=1opción:

In [1]: df['C'] = df.apply(f, axis=1)

In [2]: df
Out[2]:
   A  B  C
a  2  2  0
b  3  1  1
c  1  3 -1

Por supuesto, esto no está vectorizado, por lo que el rendimiento puede no ser tan bueno cuando se escala a una gran cantidad de registros. Aún así, creo que es mucho más legible. Especialmente viniendo de un fondo SAS.

Editar

Aquí está la versión vectorizada

df['C'] = np.where(
    df['A'] == df['B'], 0, np.where(
    df['A'] >  df['B'], 1, -1))

Zelazny7
fuente

1

Gracias, estoy comenzando con pandas y esto fue muy útil +1

nutship

4

¿Qué pasa si quiero pasar otro parámetro junto con la fila en la función? Si lo hago, dice fila no definida ..

prashanth manohar

3

Tienes que usar el argsparámetro de la .applyfunción: pandas.pydata.org/pandas-docs/stable/generated/…

Zelazny7

1

Soy un antiguo usuario de SAS que está aprendiendo Python, ¡y definitivamente hay una curva de aprendizaje! :-) Por ejemplo, el código anterior podría escribirse en SAS como: data df; set df; if A=B then C=0; else if A>B then C=1; else C=-1; run;Muy elegante y simple.

RobertF

1

Una respuesta bien definida

Sahil Nagpal

Answer 8

1

Gracias, estoy comenzando con pandas y esto fue muy útil +1

nutship

Answer 9

4

¿Qué pasa si quiero pasar otro parámetro junto con la fila en la función? Si lo hago, dice fila no definida ..

prashanth manohar

Answer 10

3

Tienes que usar el argsparámetro de la .applyfunción: pandas.pydata.org/pandas-docs/stable/generated/…

Zelazny7

Answer 11

1

Soy un antiguo usuario de SAS que está aprendiendo Python, ¡y definitivamente hay una curva de aprendizaje! :-) Por ejemplo, el código anterior podría escribirse en SAS como: data df; set df; if A=B then C=0; else if A>B then C=1; else C=-1; run;Muy elegante y simple.

RobertF

Answer 12

1

Una respuesta bien definida

Sahil Nagpal

Answer 13

df.loc[df['A'] == df['B'], 'C'] = 0
df.loc[df['A'] > df['B'], 'C'] = 1
df.loc[df['A'] < df['B'], 'C'] = -1

Fácil de resolver mediante indexación. La primera línea de código se lee así, si la columna Aes igual a la columna B, cree y establezca la columna Cigual a 0.

Answer 14

17

Para esta relación en particular, puede utilizar np.sign:

>>> df["C"] = np.sign(df.A - df.B)
>>> df
   A  B  C
a  2  2  0
b  3  1  1
c  1  3 -1

DSM
fuente

Answer 15

Digamos que el anterior es su marco de datos original y desea agregar una nueva columna 'antigua'

Si la edad es mayor de 50 años, la consideramos mayor = sí en caso contrario Falso

paso 1: obtener los índices de las filas cuya antigüedad sea mayor a 50

row_indexes=df[df['age']>=50].index

paso 2: usando .loc podemos asignar un nuevo valor a la columna

df.loc[row_indexes,'elderly']="yes"

lo mismo para la edad menor de 50

row_indexes=df[df['age']<50].index

df[row_indexes,'elderly']="no"

Crear una nueva columna basada en la condición if-elif-else

Respuestas: