2
votes

Sélectionnez où un sous-ensemble de colonnes dans un pandas DataFrame correspond à un tuple

C'est un problème simple auquel je n'arrive pas à trouver une solution élégante. J'essaie de sélectionner les lignes d'un bloc de données où deux des colonnes forment une paire à partir d'une liste séparée.

Par exemple:

def with_set_index(df, pairs):
    return df.set_index(['a','b']).loc[pairs].dropna()

def with_tuple_isin(df, pairs):
    return df[df[['a','b']].apply(tuple,1).isin(pairs)]

def with_array_views(df, pairs):
    def view1D(a, b): # a, b are arrays
        a = np.ascontiguousarray(a)
        b = np.ascontiguousarray(b)
        void_dt = np.dtype((np.void, a.dtype.itemsize * a.shape[1]))
        return a.view(void_dt).ravel(), b.view(void_dt).ravel()

    A, B = view1D(df[['a','b']].values, np.asarray(pairs))
    return df[np.isin(A, B)]

def with_broadcasting(df, pairs):
    return df[(df[['a','b']].values[:,None] == pairs).all(2).any(1)]

%timeit with_set_index(df, pairs)
# 7.35 ms Â± 119 Âµs per loop (mean Â± std. dev. of 7 runs, 100 loops each)

%timeit with_tuple_isin(df, pairs)
# 1.89 ms Â± 24.4 Âµs per loop (mean Â± std. dev. of 7 runs, 1000 loops each)

%timeit with_array_views(df, pairs)
# 917 Âµs Â± 17.9 Âµs per loop (mean Â± std. dev. of 7 runs, 1000 loops each)

%timeit with_broadcasting(df, pairs)
# 879 Âµs Â± 8.85 Âµs per loop (mean Â± std. dev. of 7 runs, 1000 loops each)

Dans cet exemple, mon list paires contient la combinaison de df.a et df.b aux lignes 4 et 6. Ce que je voudrais, c'est une manière propre d'obtenir la trame de données donnée par df.iloc [[4, 6],:] .

Y a-t-il un pandas ou numpy code> moyen de le faire sans boucler explicitement sur pairs?

Comparaison de réponses

La solution utilisant la diffusion est à la fois propre et rapide, aussi bien comme évolutif très bien.

import pandas as pd

df = pd.DataFrame({'a': range(8), 'b': range(8), 'c': list('zyxwvuts')})
pairs = [(4, 4), (5, 6), (6, 6), (7, 9)]

# The data has an arbitrary number of columns, but I just want
# to match 'a' and 'b'
df
    a   b   c
0   0   0   z
1   1   1   y
2   2   2   x
3   3   3   w
4   4   4   v
5   5   5   u
6   6   6   t
7   7   7   s

python pandas numpy

0 commentaires

3 Réponses :

4
votes

tuple avec isin

df[df[['a','b']].apply(tuple,1).isin(pairs)]
Out[686]: 
   a  b  c
4  4  4  v
6  6  6  t

0 commentaires

2
votes

Un vectorisé basé sur des tableaux -

In [269]: df[(df[['a','b']].values[:,None] == pairs).all(2).any(1)]
Out[269]: 
   a  b  c
4  4  4  v
6  6  6  t

Sortie pour un échantillon donné -

In [263]: out
Out[263]: 
   a  b  c
4  4  4  v
6  6  6  t

Si vous cherchez un compact / version propre, nous pouvons également tirer parti de la diffusion -

# https://stackoverflow.com/a/45313353/ @Divakar
def view1D(a, b): # a, b are arrays
    a = np.ascontiguousarray(a)
    b = np.ascontiguousarray(b)
    void_dt = np.dtype((np.void, a.dtype.itemsize * a.shape[1]))
    return a.view(void_dt).ravel(),  b.view(void_dt).ravel()

A,B = view1D(df[['a','b']].values,np.asarray(pairs))
out = df[np.isin(A,B)]

0 commentaires

1
votes

Essayez ceci:

df.set_index(['a','b' Often).loc[pairs .dropna()

1 commentaires

Très simple mais il n'est plus pris en charge. Le message d'erreur est le suivant: KeyError: 'La transmission de list-likes à .loc ou [] avec des étiquettes manquantes n'est plus prise en charge, voir pandas.pydata.org/pandas-docs/stable/user_guide/... '