J'ai besoin de créer une colonne basée sur une condition sur Dask Dataframe. En Pandas, il est assez simple: tandis que dans Dask, je dois faire la même chose comme ci-dessous: p> questions: P> >
3 Réponses :
Vous pouvez simplement utiliser: et ensuite: p> malheureusement je n'ai malheureusement pas une réponse à la deuxième question ou Je ne comprends pas ... p> p>
Réponses:
Qu'est-ce que tu fais maintenant, c'est presque ok. Vous n'avez pas besoin d'appeler calcul code> jusqu'à ce que vous soyez prêt pour votre réponse finale. P>
ddf['col'] = ddf.shop_week.apply(f)
Les dataframes Dask sont mutables par défaut ou sont publiés par courrier électronique de la version 0.10.2?
Dans la version la plus récente de Dask, version 0.10.2, Dask.Dataframes Assignation de colonne Support
Merci pour la réponse @mrocklin
Une meilleure approche peut retirer la colonne sous la forme d'une matrice de Dask, puis effectuez des opérations imbriquées dans lesquelles code> avant de l'ajouter à la Dataframe:
import dask.array as da
x = ddf['shop_week'].to_dask_array()
df['TEST_VAR'] = \
da.where(x == 200607, 'THIS',
da.where(x == 200608, 'NOT THIS',
da.where(x == 200609, 'THAT', 'NONE')))
df['TEST_VAR'].compute()