6
votes

Groupe Python par array A et résumez le tableau B - Performance

donné deux matrices non commandées de mêmes longueurs A et B:

def unique_Unutbu(a,b):

    x=np.bincount(a,weights=b)
    aResult = np.unique(a)
    bResult = x[aResult]

python performance numpy group-by sorting

1 commentaires

Je voulais dire que vous ne pouvez pas supposer que la liste A est triée.

3 Réponses :

2
votes

Que diriez-vous de cette approche:

aResult = pdf.keys()
bResult = pdf.values()

4 commentaires

Vous pouvez utiliser defaultDict (int), c'est plus propre.

Merci! Je ne le savais pas. Réponse mise à jour :)

J'aime l'approche, c'est joli. Malheureusement, il semble être plus lent que «Approche 1» surtout pour de longs tableaux ...

@HELGA: J'ai réécrit la mise en œuvre de Pablo en Cython en utilisant Unorded_map . ~ 10-30 fois plus vite.

5
votes

si a est composé d'intens <2 ** 31-1 (c'est-à-dire si a a des valeurs pouvant correspondre dans dtype int32 ), alors vous pouvez utiliser np.bincount avec des poids: xxx

np.unique (a) retourne [3 5 7] , le résultat apparaît donc dans une commande différente: xxx

un problème potentiel avec l'utilisation de np.bincount est-ce qu'il est Retourne un tableau dont la longueur est égale à la valeur maximale dans A . Si A contient même un élément de valeur près de 2 * 31 31-1, alors bincount devrait allouer une matrice de taille 8 * (2 ** 31 -1) octets (ou 16 gib).

donc np.bincount peut être la solution la plus rapide pour les tableaux A qui ont une grande longueur , mais pas de gros valeurs. Pour les tableaux A qui ont une petite longueur (et de grosses valeurs), à l'aide d'un collections.defaultdict serait probablement plus rapide.

EDIT: voir < a href = "https://stackoverflow.com/questions/7538382/python-group-by-array-a-and-summarize-Array-b-performance/7539307#7539307"> JF Stabilite de Sebastian pour une solution autour de la restriction des valeurs entière et des gros valeurs.



                                                                    
                                    
                                    
                                        1 commentaires
                                        
                                                                                            
                                                     Mesures  Show  NP.Bincount ()  Effectue même contre  Solutions à base de Crython .


                        
                                            
                            
                                
                                    6
 votes
                                
                            
                            
                                
                                     APPROCHE D'ICI SIMPRIMÉS DE  @ Unutbu's One : 
import numpy as np

def f(a, b):
    result_a, inv_ndx = np.unique(a, return_inverse=True)
    result_b = np.bincount(inv_ndx, weights=b)
    return result_a, result_b

                                

                                                                    
                                    
                                    
                                        0 commentaires


            
                
		    
                    Articles qui pourrait vous intéresser :
                                            
                            Python: ConnectionError: HTTPSConnectionPool (hôte = 'api.foursquare-com', port = 443)                        
                        
                                            
                            L'exécution de Flask sous Windows n'exécute pas la commande d'exécution de flask                        
                        
                                            
                            Chatbot installé mais obtention d'une erreur lors de l'importation de ChatBot                        
                        
                                            
                            Administrateur Django: __str__ a renvoyé une non-chaîne (type int)