Considere un marco de datos pyspark que consta de elementos 'nulos' y elementos numéricos. En general, los elementos numéricos tienen valores diferentes. ¿Cómo es posible reemplazar todos los valores numéricos del marco de datos por un valor numérico constante (por ejemplo, por el valor 1)? ¡Gracias por adelantado!
Ejemplo para el marco de datos pyspark:
El resultado debería ser:
python
apache-spark
solo nosotros
fuente
fuente
Respuestas:
El uso
lit
convertiría todos los valores de la columna al valor dado.Para hacerlo solo para valores no nulos de dataframe, tendría que filtrar los valores no nulos de cada columna y reemplazar su valor.
when
puede ayudarte a lograr esto.Esto resultaría en:
Además, si desea reemplazar esos valores nulos con algún otro valor también, puede usarlos
otherwise
en combinación conwhen
. Digamos que quieres imputar0
allí:Esto resultaría en:
fuente
Según su problema, creo que podría ser más fácil usar iluminado . Prueba esto-
¡Espero eso ayude!
fuente
Esto sería más fácil si tiene varias columnas:
fuente