0
votes

comparer des valeurs de ligne à l'ensemble du cadre de données

J'ai besoin de savoir combien de lignes dans un fichier de données correspondent à certaines conditions de chaque ligne.

Par exemple, pour chaque ligne, j'ai besoin de compter combien de lignes ont le même type et ont un temps de départ inférieur à l'heure de début. de la ligne et avoir et mettre fin à la fin de l'heure de fin de la ligne. xxx

Dans ce cas pour la rangée 0, le nombre doit être 1 car la rangée 3 est la même Tapez, il commence à 3 qui est inférieur à 5 et se termine à 14, ce qui est supérieur à 10.

La sortie doit être la suivante: xxx i Je fais cela en utilisant Lambda: xxx

mais cela prend beaucoup de temps, et je veux faire la même analyse pour un Dataframe qui est exponentiellement plus grand. < / p>

python pandas

1 commentaires

Veuillez également publier la sortie souhaitée pour rendre la question plus claire

3 Réponses :

2
votes

 np. (moins | plus grand | égal) .outer  code>   Attention à la complexité de la mémoire  SUB>  P> 
 array([1, 0, 0, 0])

0 commentaires

2
votes

Vous pouvez d'abord utiliser groupby () code> de sorte que vous ne comparez que dans "Type" qui réduirait votre espace de recherche ainsi qu'une comparaison de booléens supplémentaire (c'est-à-dire (df ["Type '] == x [0]))

import pandas

df = pandas.DataFrame({'type':['A','B','A','A'], 'start':[5,3,10,3], 'end':[10,7,15,14]})

def get_count(df_type):
    return df_type.apply(lambda x:sum((x['start']>df_type['start'])&(x['end']<df_type['end'])), axis=1)
df['count'] = df.groupby('type').apply(get_count).reset_index(drop=True)

2 commentaires

Merci, ça marche génial! Pour mon cas de test, c'est au moins 50 fois plus vite.

Vous pouvez appliquer la solution de @ user3483203 à l'intérieur GET_COUNT ainsi que pour de meilleures performances.

0
votes

Votre version originale n'a pas fonctionné pour moi, mais cela a fait: XXX

Je pense que la réponse de User3483203 est bonne mais, comme indiqué, pourrait être une question en termes de mémoire. Voici une autre façon qui devrait être un peu plus rapide que ce que vous avez: xxx

0 commentaires

comparer des valeurs de ligne à l'ensemble du cadre de données

np. (moins | plus grand | égal) .outer code> Attention à la complexité de la mémoire SUB> P> array([1, 0, 0, 0])

`np. (moins | plus grand | égal) .outer code> Attention à la complexité de la mémoire SUB> P> array([1, 0, 0, 0])`