2
votes

Comment appliquer une méthode à une trame de données Pandas

J'ai ce dataframe

   Col1

0  1000

1  2000 

a = z['Col1'].str.split('(').str[-1].str.split().str[0].apply(pd.to_numeric,errors='coerce')

Je voudrais le convertir en

   Col1  Col2

0  1000  3000

1  2000  4000

Je sais créer un dataframe (avec des index ) pour 1 colonne, mais pas pour plusieurs colonnes

Ce code produit ce résultat

   Col1              Col2

0  A (1000 EUR)  C ( 3000 USD)

1  B (2000 CHF)  D ( 4000 GBP)

comment puis-je modifier le code ci-dessus pour ajouter également col2 (idéalement utilisant la vectorisation plutôt que l'itération) (donc idéalement je ne voudrais pas avoir à entrer le même code pour chaque colonne)

python pandas dataframe

0 commentaires

4 Réponses :

4
votes

Vous pouvez utiliser str.extract sur chaque colonne et utilisez pd.concat pour construire un nouveau dataframe à partir du résultat:

x = np.concatenate([df[col].str.extract(r'(?<=\()\s*(\d+)') for col in df], axis=1)
pd.DataFrame(x, columns=df.columns)

   Col1  Col2
0  1000  3000
1  2000  4000

1 commentaires

pas besoin d'appliquer ici. Je suis d'accord là-dessus.

1
votes

Vous pouvez utiliser la apply une fonction> pour appliquer votre opération à tous les éléments des deux lignes.

# creates your dataframe
df = pd.DataFrame({'Col1':['A (1000 EUR)','B (2000 CHF)'], 'Col2':['C (3000 USD)', 'D (4000 GBP)']})

# use the apply function to  apply your code to all elements of both columns
df = df.apply(lambda x: x.str.split('(').str[-1].str.split().str[0].apply(pd.to_numeric,errors='coerce'))

Fait l'affaire pour moi

0 commentaires

3
votes

J'utiliserais df.applymap . La différence avec df.apply est que df.apply prend une série entière (ligne ou colonne) comme argument et applique une fonction où df.applymap code> prend chaque élément du DataFrame et applique une fonction. Essayez ceci:

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2 entries, 0 to 1
Data columns (total 2 columns):
Col1    2 non-null int64
Col2    2 non-null int64
dtypes: int64(2)
memory usage: 48.0 bytes
None

  print (df) 
    Col1  Col2
0  1000  3000
1  2000  4000
  df.info () 
 df = df.applymap(lambda x: pd.to_numeric(str(x).split('(')[1].split()[0], errors='coerce'))

1 commentaires

très intéressant, comme celui-ci aussi. +1

0
votes

Vous pouvez utiliser la méthode applymap d'un dataframe pandas. Cela ressemblerait à quelque chose comme:

import re

function_to_apply = lambda x: re.search("[0-9]+", x).group()
your_dataframe.applymap(function_to_apply)

Quelque chose comme ça fonctionnerait dans votre cas, et serait certainement un peu plus simple!

2 commentaires

J'aime ce que vous avez fait avec re . Vous devez cependant utiliser df.applymap dans ce cas! Voir ma réponse ci-dessus.

Merci, et bonne prise, je modifierai en conséquence!