Estoy trabajando en un desafío de Kaggle donde algunas variables están representadas por filas en lugar de columnas (Telstra Network Disruption). Actualmente estoy buscando el equivalente de recolectar (), separar () y difundir (), que se puede encontrar en la herramienta R tidyr.
18
Respuestas:
Comenzaría con la función melt () en pandas. Escribí un artículo al respecto:
https://www.ibm.com/developerworks/community/blogs/jfp/entry/Tidy_Data_In_Python?lang=en
fuente
R
gather()
esencialmente va de ancho a largo. Entonces,pandas.wide_to_long()
,gather
función elegante en Python.fuente
Traté de imitar sintácticamente el paquete tidyr en python en un paquete llamado tidypython. Lo hice compatible con el paquete dplython, que incluye el uso del operador >> para encadenar comandos.
No se ha probado completamente, pero debería funcionar bastante bien:
https://github.com/durrantmm/tidypython
Avísame si te funciona.
fuente