6
votes

Django (?) Vraiment lent avec de grands ensembles de données après avoir fait du profilage de Python

Je comparais un ancien script PHP de mien par rapport à la version plus récente, Fanier Django et le PHP One, avec une crèche complète de HTML et tout fonctionnait plus rapidement. Beaucoup plus vite au point que quelque chose doit être faux sur le Django un.

Premier, un contexte: j'ai une page qui croit des rapports de données de vente. Les données peuvent être filtrées par un certain nombre de choses mais sont principalement filtrées par date. Cela rend un peu difficile de le mettre en cache car les possibilités de résultats sont presque infinies. Il y a beaucoup de chiffres et de calculs réalisés, mais il n'a jamais été un problème de manipuler dans PHP.

mises à jour:

Après quelques tests supplémentaires, rien dans mon point de vue qui cause le ralentissement. Si je suis simplement numérique-crançrant les données et de cracher 5 rangées de HTML rendu, ce n'est pas si lent (encore plus lent que PHP), mais si je rendu beaucoup de données, c'est très lent.
Chaque fois que j'ai dirigé un grand rapport (par exemple, toutes les ventes de l'année), l'utilisation de la machine de la machine va à 100%. Je ne sais pas si cela signifie beaucoup. J'utilise mod_python et Apache. Peut-être que le passage à WSGI peut aider?
Mes tags de modèle indiquant le processus de sous-totaux / totaux de 0,1 seconde à 1 seconde pour des ensembles vraiment volumineux. Je les appelle environ 6 fois dans le rapport afin qu'ils ne parlent pas comme le plus gros problème.
MAINTENANT, j'ai dirigé un profileur Python et est revenu avec ces résultats: xxx
tokenize.py sort sur le dessus, ce qui peut avoir un sens comme Je fais beaucoup de formatage de nombre. Décimal.py a du sens puisque le rapport est essentiellement des chiffres de 90%. Je n'ai aucune idée de ce que la méthode intégrée correspond à est que je ne fais aucune regex ou similaire dans mon propre code (quelque chose que Django fait?) La chose la plus proche est que j'utilise iTerTools Ifilter. < / p>
Il semble que ce soient les principaux coupables et si je pouvais trouver comment réduire le temps de traitement de ceux-ci, j'aurais une page beaucoup plus rapide.
Est-ce que quelqu'un a des suggestions sur Comment puis-je commencer à réduire cela? Je ne sais pas vraiment comment je voudrais résoudre ce problème les problèmes de Tokenize / décimal sans simplement les retirer.
Mise à jour: j'ai rencontré des tests avec / sans filtres sur la plupart des données et les temps de résultat sont venus De même, ce dernier étant un peu plus rapide, mais pas beaucoup à être la cause de la question. Qu'est-ce qui se passe exactement dans tokenize.py?


                        
                        
                            
                                                                    django
                                                                    python
                                                                    optimization
                                                            
                        
                                                    
                            
                            
                                4 commentaires
                                
                                                                            Il est impossible de suggérer quelque chose d'utile sans votre code de vue et votre guidage de profilage.
                                        
                                                                            Alex: Mon point de vue est assez simple. Il tire une liste initiale d'entrées, puis si le rapport est modifié, il ajoute des filtres. C'est vraiment ça. Mon modèle regroupe ensuite le jeu de données en deux sections puis en boucle tout, appelant des templateTags le long du chemin (mais j'ai chronométré les étiquettes de modèle à exécuter dans 0,1 -> 0,5 seconde. Ces modèles sont les sous-totales / totaux du rapport. de sorte que le temps d'exécution est correct sur d'énormes ensembles de données.)
                                        
                                                                            @Bartek: Veuillez ne pas commenter votre propre question. C'est votre question, vous pouvez le mettre à jour pour contenir tous les faits pertinents.
                                        
                                                                            Essayez d'extraire le problème du système de modèles: Écrivez un bit de code autonome pour interroger les enregistrements et imprimer les résultats de manière plus simple mais avec les mêmes données. Si cela est toujours lent, ajoutez-le à la question afin que nous puissions voir ce que vous faites. Si c'est rapide, vous avez un peu réduit le problème sur le problème.



                                    
                    4 Réponses :
                    
                                            
                            
                                
                                    6
 votes
                                
                            
                            
                                
                                     Il y a beaucoup de choses à assumer de votre problème car vous n'avez aucun type d'échantillon de code. 

 Voici mes hypothèses: vous utilisez les outils et modèles d'ormes intégrés de Django (c.-à-d. Sales-Data = ModelObj.Objects (). Tous (). Tous ()) et sur le côté PHP, vous traitez avec des requêtes directes SQL et fonctionnent avec une requête_sey. 

 Django fait beaucoup de type de convertissage et de coulée vers des types de données provenant d'une requête de base de données dans l'objet ORM / Model et le gestionnaire associé (objets () par défaut). 

 En PHP, vous contrôlez les conversions et savez exactement comment lancer d'un type de données à un autre, vous économisez du temps d'exécution en fonction de cette question seule. 

 Je recommanderais d'essayer de déplacer une partie de ce numéro de fantaisie Travailler dans la base de données, en particulier si vous effectuez un traitement basé sur les enregistrements - Les bases de données mangent ce type de traitement du petit-déjeuner. Dans Django, vous pouvez envoyer un SQL cru à la base de données:  http://docs.djangoproject.com/fr/dev/topics/db/sql/#topics-db-sql  

 J'espère que cela au moins peut vous faire pointer dans la bonne direction ...                                 

                                                                    
                                    
                                    
                                        5 commentaires
                                        
                                                                                            
                                                    Merci. Vous avez raison, cela a du sens. Je voyais des requêtes exécutant bien et avec des matières basses, donc je n'ai donc jamais envisagé cela. Le problème est bien sûr que l'ormes est charmante et conserve le code beaucoup plus propre dans des cas comme celle-ci, donc j'aimerais avoir à ne pas avoir à descendre cette route si possible. Le traitement du numéro que je fais n'est pas complexe (ajoutez ces trois chiffres, multipliez-le), puis je les émettons simplement de les émettre à l'aide du | IntCommA et | Floatformat: 2 filtres Django, donc je ne suis pas sûr que ce soit au cœur de la question.                                                
                                                
                                                                                            
                                                    Le problème que vous pouvez rencontrer concernant l'ajout de chiffres, la multiplication des nombres est la quantité d'enregistrements. Si vous conservez le nombre d'enregistrements retournés plus bas, il réduira la mémoire de la mémoire et le temps nécessaire pour traiter ces données. Gardez cela à l'esprit: vous ne pouvez pas faire une application plus rapidement, vous ne pouvez que le faire faire moins de travail.                                                
                                                
                                                                                            
                                                    Malheureusement dans certains cas graves, l'utilisateur souhaite un rapport de données de vente annuelles et je ne peux pas vraiment garder les enregistrements plus bas. .. :)                                                
                                                
                                                                                            
                                                    Je ne pense pas non plus que votre goulot d'étranglement de la performance soit dans le moteur de modèle. Vous pouvez utiliser certaines des minuteries autour des appels clés à votre vue pour essayer de trouver les portions les plus lentes du code Python et d'améliorer à partir de là.                                                
                                                
                                                                                            
                                                    J'ai fait des tests très basiques à l'aide du module Time et il n'y avait rien dans mes tags de visualisation ou de modèle qui dépassaient d'énormes délais de traitement. Encore plus de preuve que le rendu peut être le problème est que si je sélectionne un filtre "totalisant uniquement" pour mon rapport, qui, selon vous, ne montrera que des totaux, il affichera beaucoup plus rapidement. Pour que ma page frappe le premier templatetag pour les sous-totaux, il faut environ 10 secondes lorsque je montre toutes les données.                                                
                                                
                                                                                    
                                    
                                                            
                        
                        
                                            
                            
                                
                                    2
 votes
                                
                            
                            
                                
                                     "Tokenize.py sort sur le dessus, ce qui peut avoir un sens, car je fais un formatage de nombreux nombres." 

 n'a aucun sens du tout. 

 voir  http://docs.python.org/library/tokenize.htmlled/a >. 


   Le module Tokenize fournit un lexical
  Scanner pour le code source Python,
  mis en œuvre dans Python 


 Tokenize Sortez sur le dessus signifie que vous avez une analyse de code dynamique. 

 AFAIK (faire une recherche sur le référentiel Django) Django n'utilise pas de jeton. Donc, cela quitte votre programme de faire une sorte d'instanciation de code dynamique. Ou, vous ne profilez que le programme  premier  Votre programme est chargé, analysé et exécuté, menant à de fausses hypothèses sur l'emplacement du temps. 

 Vous devriez  pas  Calculer dans les tags de modèle - c'est lent. Cela implique une méta-évaluation complexe de la balise de modèle. Vous devriez faire tous les calculs en vue de Python simple et bas sur le dessus. Utilisez les modèles uniquement pour la présentation. 

 En outre, si vous faites constamment des requêtes, des filtres, des sommes et de quoi, vous avez un entrepôt de données. Obtenez un livre sur la conception de l'entrepôt de données et suivez les modèles de conception de données de données. 

 Vous devez avoir une table de fait centrale, entourée de tables de dimensions. C'est très très efficace. 

 Les sommes, les parts de groupe, etc., sont peut être effectuée sous forme  par défaut  opérations en python. Vrac récupérez toutes les lignes, construisant le dictionnaire avec les résultats souhaités. Si cela est trop lent, vous devez utiliser des techniques d'entreposage de données de sauvegarder des sommes persistantes et des groupes séparés de vos faits à grain fin. Cela implique souvent de sortir de l'orme Django et d'utiliser des fonctions SMDBMS telles que des vues ou des tables de données dérivées.                                 


                                                                    
                                    
                                    
                                        1 commentaires
                                        
                                                                                            
                                                    Pouvez-vous me dire pourquoi je ne devrais pas effectuer de calculs (ajout de base aux numéros de résumage) dans TemplateTags? Après votre message, j'ai en quelque sorte imaginé un moyen plus efficace de faire ce que font mes templateTags, ce qui est un peu utile, mais ils ne sont toujours pas le goulot d'étranglement. Au moins, il va raser quelques secondes de temps de traitement :) merci                                                
                                                
                                                                                    
                                    
                                                            

                        

                        
                                            
                            
                                
                                    2
 votes
                                
                            
                            
                                
                                     Lorsque vous traitez avec de grands ensembles de données, vous pouvez également économiser beaucoup de CPU et de mémoire en utilisant le  valsequeryset  qui accède aux résultats de la requête plus directement au lieu de créer une instance d'objet de modèle pour chaque ligne du résultat. 
 Il ressemble un peu à ceci:   xxx                                  

                                                                    
                                    
                                    
                                        0 commentaires
                                        
                                                                                    
                                    
                                                            
                        
                        
                                            
                            
                                
                                    1
 votes
                                
                            
                            
                                
                                     Dans un tel scénario, la base de données est souvent le goulot d'étranglement. En outre, l'utilisation d'un orj pourrait entraîner des requêtes SQL sous-optimales. 

 Comme certains ont signalé, il n'est pas possible de dire ce que la probem est vraiment, juste avec les informations que vous avez fournies. 

 Je peux juste vous donner des conseils généraux: 


 Si votre vue travaille avec des objets de modèle connexes, envisagez d'utiliser  SELECT_Related () . Cette méthode simple pourrait accélérer considérablement les requêtes générées par l'orèse considérablement. 
 Utilisez le  Débogou le middleware  pour voir quelles requêtes SQL sont générées par vos vues et quelle heure ils ont pris pour exécuter. 


 PS: Juste Fyi, j'avais une fois une vue assez simple qui était très lente. Après avoir installé le  Débogou Middleware  J'ai vu qu'environ 500! Les requêtes SQL ont été exécutées dans cette vue unique. Il suffit d'utiliser  SELECT_Related ()  a apporté cela à 5 requêtes et la vue effectuée comme prévu.                                 

                                                                    
                                    
                                    
                                        0 commentaires


            
                
		    
                    Articles qui pourrait vous intéresser :
                                            
                            Administrateur Django: __str__ a renvoyé une non-chaîne (type int)                        
                        
                                            
                            DoesNotExist at / blog / postComment La requête correspondante de publication n'existe pas                        
                        
                                            
                            NGINX docker-compose - Hôte introuvable dans nuxt en amont: 3000                        
                        
                                            
                            django admin - Comment ajouter du javascript à la fin d'un fichier