11
votes

Split Grand fichier texte CSV basé sur la valeur de la colonne

J'ai des fichiers CSV qui ont plusieurs colonnes triés. Par exemple, je pourrais avoir des lignes comme ceci: xxx

Je voudrais diviser le fichier en fonction de la 3e colonne, par exemple. Mettez des entrées PCXS et PCP dans leurs propres fichiers appelés plXs.csv et pcp.csv. Étant donné que le fichier est prédéfini, toutes les entrées PLXS sont avant les entrées PCP et ainsi de suite.

Je finis généralement à faire des choses comme ceci en C ++ car c'est la langue que je connais le mieux, Mais dans ce cas, mon fichier CSV d'entrée est plusieurs gigaoctets et trop volumineux pour charger en mémoire en C ++.

Quelqu'un peut-il montrer comment cela peut être accompli? Les solutions PERL / PYTHON / PHP / BASH sont toutes d'accord, ils doivent simplement être capables de gérer le fichier énorme sans utilisation excessive de mémoire.

text csv split large-data

1 commentaires

Avez-vous parcouru du tout? Plusieurs questions connexes sur ce site dans toutes les langues ci-dessus et plus encore. Vous pouvez rechercher: Site: Stackoverflow.com CSV Split par valeur ou une autre variante. bonne chance



                                    
                    6 Réponses :
                    
                                            
                            
                                
                                    1
 votes
                                
                            
                            
                                
                                     C ++ est bien si vous le savez mieux. Pourquoi voudriez-vous essayer de charger tout ce qui est en mémoire? 

 Étant donné que la sortie dépend de la colonne en cours de lecture, vous pouvez facilement stocker des tampons pour les fichiers de sortie et utiliser l'enregistrement dans le fichier approprié au fur et à mesure que vous traitez, car vous allez conserver l'empreinte de mémoire relativement petite. 

 Je fais cela (même en Java) pour prendre des extraits massifs d'une base de données. Les enregistrements sont enfoncés dans un flux de tampon de fichier et tout ce qui est de la mémoire est nettoyé afin que l'empreinte du programme ne pousse jamais au-delà de ce qu'elle commence initialement à. 

 voler par le siège de mon pantalon pseudo-code: 


 Créez une liste pour contenir vos tampons de fichier de sortie 
 Ouvrir le flux sur le fichier et commencez à lire dans le contenu d'une ligne à la fois 
 Avons-nous rencontré un enregistrement qui a un flux de fichiers ouvert pour son type de contenu? 


 oui -

 Obtenez le flux de fichiers stocké 
 stocker l'enregistrement dans ce fichier 
 rincer le flux 
 
 non -

 Créez un flux et enregistrez-le dans notre liste de flux 
 stocker l'enregistrement sur le flux 
 rincer le flux 
 
 
 Rinse Répéter ... 


 poursuit essentiellement ce traitement jusqu'à la fin du fichier. 

 Depuis que nous ne stockons jamais plus que des pointeurs vers les ruisseaux et que nous rinçons dès que nous écrivons dans les ruisseaux, nous n'avons jamais rien de résident dans la mémoire de l'application, autre que d'un enregistrement du fichier d'entrée. Ainsi, l'empreinte est gagnée.                                 

                                                                    
                                    
                                    
                                        1 commentaires
                                        
                                                                                            
                                                    +1: C ++ n'est pas le problème. Chargement de l'ensemble du fichier en mémoire est le problème.                                                
                                                
                                                                                    
                                    
                                                            
                        
                        
                                            
                            
                                
                                    0
 votes
                                
                            
                            
                                
                                     Une solution alternative serait de charger le CSV dans un  SOLR  Index, puis générez le CSV fichiers basés sur vos critères de recherche personnalisés. 

 Voici un HOWTO de base: 

  Créer un rapport et télécharger sur serveur pour le téléchargement < / a>                                 


                                                                    
                                    
                                    
                                        0 commentaires
                                        
                                                                                    
                                    
                                                            

                        

                        
                                            
                            
                                
                                    36
 votes
                                
                            
                            
                                
                                     Voici une ancienne école One Dower pour vous (remplacez simplement le >>  code> avec >  code> pour tronquer les fichiers de sortie chaque exécution): 
HDR=$(head -1 input.csv); for fn in $(tail -n+2 input.csv | cut -f3 -d, | sort -u); do echo $HDR > $fn.csv; done

                                

                                                                    
                                    
                                    
                                        9 commentaires
                                        
                                                                                            
                                                    c'est génial :) Ce serait encore mieux si nous pouvions conserver les en-têtes                                                
                                                
                                                                                            
                                                    Il n'y avait pas d'en-têtes dans l'original. Peut-être que vous pouvez poser une question différente?                                                
                                                
                                                                                            
                                                    Cela m'a aidé - mais d'améliorer - l'exemple d'en-têtes peut être simplifié en utilisant  nr == 1 {hdr = 0 $; Suivant}  Ensuite, vous n'avez pas besoin de vérifier NR sur les modèles suivants, car vous ne pouvez pas accéder à ces modèles et ne pas être NR> 1 en raison de la règle de commande d'AWK. De l'homme Page:  Chaque modèle du programme doit ensuite être évalué dans l'ordre d'occurrence et l'action associée à chaque modèle correspondant à l'enregistrement actuel exécuté.                                                 

                                                
                                                                                            
                                                    Aussi une amélioration mineure - le modèle de nom de fichier  {fn = 3 $ ".csv"}  doit se produire après le modèle NR == 1, car il n'est utilisé que par des motifs qui suivent.                                                

                                                
                                                                                            
                                                    Merci pour les commentaires, @Phil. Je ne crois pas qu'un profileur montrerait une modification ou une amélioration après vos suggestions et je crois que les intentions explicites appuyées par les constructions de langue  AWK  AWK  (que vous avez utilement incluse et que je me sens aussi très clair) . 1. Aucune modification logique en ajoutant  Suivant . Supprimer des directives explicites AWK qui définissent intentionnellement le but d'un bloc de code constituerait un anti-motif de la citation que vous avez fournie. 2. Réorganiser les modèles que vous faites référence dans le programme change Aucun plan d'exécution de code, alors n'hésitez pas à modifier votre copie!                                                

                                                
                                                                                            
                                                    Bonjour Sean, profilant Ceci utilisant --Profile montre que votre version teste le motif et l'exécute - Création du nom de fichier N + 1 fois, lorsque la mine appelle N fois. Notez que, comme il n'y a pas de modèle à tester dans ma version, chaque "test" doit donc être plus rapide. Le résultat de l'utilisation de  Suivant  est que les modèles suivants sont testés n Times, alors que sans  Suivant  N + 1 tests se produisent. Évidemment, le nombre d'exécutions du corps de motif restent les mêmes, cependant que j'ai simplifié chaque motif, chaque test nécessite moins de travail dans le cas du tableau P et aucun test n'est requis pour écrire la ligne de sortie.                                                

                                                
                                                                                            
                                                    Bien sûr, j'accepte que certains susceptibles de ressentir la perte de la clarté de s'appuyer sur les règles de commande des schémas, ne valent pas ces échanges assez modestes - cela dépend de la taille des données d'entrée et de la complexité du traitement par ligne. Je trouve personnellement qu'il est moins encombré de retirer les tests de motif quand ils ne sont pas nécessaires - mais je vis cela à partir d'un point de vue du manuel, mon script est légèrement et manifestement en profilant, plus efficace.                                                
                                                
                                                                                            
                                                    J'apprécie votre pédantisme et votre persévérance, @Phil. Je suis également impressionné par ce que vous envisagez de «accélérations assez modestes». J'attends avec impatience ce que vous pouvez faire avec la mise en œuvre de la réponse acceptée ici, en C ++!                                                
                                                
                                                                                            
                                                    LOL - Touche ... bien ce serait certainement une question différente! Mais mon pédantisme découle de penser à la manière dont le C sous-jacent fonctionnerait. Un awk bien écrit ne testerait sûrement pas un manque de prédicat des motifs?                                                
                                                
                                                                                    

                                    

                                                            

                        

                        
                                            
                            
                                
                                    0
 votes
                                
                            
                            
                                
                                     Si les trois premières colonnes de votre fichier n'ont pas cité des virgules, une simple doublure est la suivante: 
cat file | perl -e 'while(<>){@a=split(/,/,$_,4);$key=$a[2];open($f{$key},">$key.csv") unless $f{$key};print {$f{$key}} $_;} for $key (keys %f) {close $f{$key}}'

                                

                                                                    
                                    
                                    
                                        1 commentaires
                                        
                                                                                            
                                                    En fait, je remarque juste que cela est essentiellement la même réponse que celle de Sean Summers ci-dessous.                                                
                                                
                                                                                    
                                    
                                                            
                        
                        
                                            
                            
                                
                                    1
 votes
                                
                            
                            
                                
                                    a,b,c,d,e,f,g,h,i,j,k,l
19980102,,PLXS,10032,Q,A,,,15.12500,15.00000,15.12500,2
19980105,,PLXS,10032,Q,A,,,14.93750,14.75000,14.93750,2
19980106,,PLXS,10032,Q,A,,,14.56250,14.56250,14.87500,2

                                

                                                                    
                                    
                                    
                                        0 commentaires
                                        
                                                                                    
                                    
                                                            
                        
                        
                                            
                            
                                
                                    0
 votes
                                
                            
                            
                                
                                     S'il n'y a pas de ligne d'en-tête dans le fichier d'entrée  xxx  
 s'il y a une ligne d'en-tête qui doit être transmise sur les fichiers écartés   xxx                                  

                                                                    
                                    
                                    
                                        0 commentaires


                
		    
                    Articles qui pourrait vous intéresser :
                                            
                            Flutter Comment créer un widget de texte réactif?                        
                        
                                            
                            Comment copier du texte dans le presse-papiers en React-Native?                        
                        
                                            
                            Reformatage d'un fichier texte en utilisant awk et coupé en une seule ligne                        
                        
                                            
                            Centrer verticalement le texte dans TextField Flutter