7
votes

Lorsque vous accédez à des caractères individuels dans une chaîne de Perl, est un substrateur ou un fractionnement à un tableau plus rapidement?

J'écris un script Perl dans lequel j'ai besoin de boucler sur chaque caractère d'une chaîne. Il y a beaucoup de chaînes et chacun coûte 100 caractères (ce sont des séquences d'ADN courtes, au cas où vous vous demandez).

Alors, est-il plus rapide d'utiliser substr pour extraire chaque caractère un à la fois, ou est-il plus rapide de divisé la chaîne dans un tableau, puis itérale sur le tableau?

Pendant que j'attends une réponse, je suppose que je vais aller lire sur la façon de comparer les choses à Perl.


                        
                        
                            
                                                                    string
                                                                    performance
                                                                    perl
                                                                    character
                                                            
                        
                                                    
                            
                            
                                4 commentaires
                                
                                                                            Qu'est-ce que vous essayez de faire exactement? Donnez un exemple de ce que vous voulez faire avec les personnages. Habituellement, il existe de meilleurs moyens de faire des choses que  substr  ou  divisée . Aussi, voir  perdoc.perl.org/benchmark.html 

                                        
                                                                            Ma réponse à la branche va être "ça n'a pas d'importance" - Obtenez votre script d'abord travailler, puis réfléchissez à l'optimisation. Au moins initialement, la méthode "la plus rapide" est celle qui est la plus facile à écrire sans bugs.
                                        
                                                                            Je me soucierai généralement de l'optimiser cela, mais je dois traiter environ 400 000 000 séquences. Je compose essentiellement la distribution de caractères à chaque position, donc j'ai vraiment besoin des caractères individuels.
                                        
                                                                            +1 pour lire sur la façon de comparer cela. Lequel est plus rapide risque de dépendre de ce que vous faites avec les données plutôt que d'avoir une réponse générale.



                                    
                    3 Réponses :
                    
                                            
                            
                                
                                    4
 votes
                                
                            
                            
                                
                                     Voici ce que je ferais au lieu d'essayer d'essayer de choisir entre  substr  et  split :  xxx  
 mise à jour:   Ma curiosité a eu le meilleur de moi. Voici un indice de référence:   xxx  
 sortie:   xxx                                  


                                                                    
                                    
                                    
                                        1 commentaires
                                        
                                                                                            
                                                    Je me sens comme un nerd pour avoir visionné cette réponse comme une lettre d'amour pour Perl (TMTOWTDI). :)                                                
                                                
                                                                                    
                                    
                                                            

                        

                        
                                            
                            
                                
                                    9
 votes
                                
                            
                            
                                
                                     Cela dépend vraiment de ce que vous faites avec vos données - mais hé, vous dirigez la bonne façon avec votre dernière question! Ne devinez pas, référence. 
 Perl fournit le  Benchmark  module pour exactement ce genre de chose et l'utiliser est vraiment assez simple. Voici un petit exemple de code pour commencer avec:   xxx  
 et un résultat d'échantillon:   xxx  
 est surprenant que le substrateur est étonnamment vite. :)                                  

                                                                    
                                    
                                    
                                        3 commentaires
                                        
                                                                                            
                                                    Oui, mon indice de référence montre également que le sous-traitant est le gagnant après 1 million de manières de chaque méthode. En tant que bonus, j'ai eu des tâches ménagères effectuées pendant qu'il courait.                                                
                                                
                                                                                            
                                                    N'OUBLIEZ pas  VEC :  $ hist {$ _} {Vec $ ADN, $ _, 8} ++ pour 0. $ Longueur  => -3% de  substraire  dans mon repère.                                                

                                                
                                                                                            
                                                    Fait intéressant,  Déballez 'c *'  est effectivement plus lent que  divisé  (-15% que  substr ) - Je me demande pourquoi.                                                

                                                
                                                                                    

                                    

                                                            

                        

                        
                                            
                            
                                
                                    3
 votes
                                
                            
                            
                                
                                     J'ai un exemple dans  Mastering Perl  traiter avec ce problème. Voulez-vous créer un groupe de stagiaires individuels, chacun qui porte autour de la mémoire de mémoire d'un scalaire Perl ou stockez tout dans une seule chaîne pour réduire la mémoire, mais peut-être faire plus de travail. Vous dites que vous en avez beaucoup, alors laissez-les alors que des chaînes simples pourraient travailler beaucoup mieux pour vous si vous êtes inquiet pour la mémoire. 

  Mastering Perl  a également quelques chapitres traitant de l'analyse comparative et du profilage, si vous êtes curieux de celles-ci. 

 Ether dit de l'obtenir d'abord et de vous soucier du reste plus tard. Une partie de cela est de cacher les opérations derrière une interface orientée vers une tâche. Un joli module orienté objet peut le faire pour vous. Si vous n'aimez pas l'implication, vous le modifiez. Cependant, les programmes au niveau supérieur n'ont pas à changer car l'interface reste la même.                                 


                                                                    
                                    
                                    
                                        1 commentaires
                                        
                                                                                            
                                                    Les scripts de référence plus ou moins ont eu la bonne idée de la façon dont j'ai besoin d'utiliser les personnages: en tant que indices dans un hachage. J'ai écrit mon propre script de référence, mais tout le monde me frappe ici. J'ai eu les mêmes résultats. La mémoire n'est pas un problème car je traite les cordes une à la fois et que chacun n'est que 100 caractères.


            
                
		    
                    Articles qui pourrait vous intéresser :
                                            
                            Compter toutes les sous-chaînes Palindrome dans une chaîne                        
                        
                                            
                            Pangram utilisant hashset en java                        
                        
                                            
                            La conversion POJO en JSON ne fonctionne pas pour la variable String commençant par "is"                        
                        
                                            
                            Comment décaler des caractères dans une chaîne? - Défi Hackerrank

Lorsque vous accédez à des caractères individuels dans une chaîne de Perl, est un substrateur ou un fractionnement à un tableau plus rapidement?

mise à jour: Ma curiosité a eu le meilleur de moi. Voici un indice de référence: xxx sortie: xxx

`mise à jour: Ma curiosité a eu le meilleur de moi. Voici un indice de référence: xxx sortie: xxx`