0
votes

Supprimer les mots en double consécutifs d'un fichier à l'aide de AWK ou SED

Mon fichier d'entrée ressemble ci-dessous:

awk '{for (i=1;i<=NF;i++) if (!a[$i]++) printf("%s ",$i,FS)}{printf("\n")}' input.txt

awk unix

5 commentaires

Qu'est-ce que vrai! @ # Vrai% & sortie? vrai% vrai% vrai% ? true! vrai $ vrai ^ ? ou vrai, vrai rohith ? La question générale - que faire cette chose qui sépare des mots répétés? Note latérale: je pense que c'est difficile.


                                        
                                                                            Avez-vous essayé d'utiliser la commande  uniq ?

                                        
                                                                            Qu'est-ce qui constitue un duplicata?
                                        
                                                                            Il n'y a aucun moyen d'utiliser UNIQ sur des "mots". Vous devriez avoir des mots sur des lignes séparées.
                                        
                                                                            Qu'en est-il des paires séparées par une nouvelle ligne? Sont-ils à remplacer?



                                    
                    6 Réponses :
                    
                                            
                            
                                
                                    1
 votes
                                
                            
                            
                                
                                     Ce n'est pas exactement ce que vous avez montré en sortie, mais est proche d'utiliser  gnu-awk :  xxx  
   xxx                                  


                                                                    
                                    
                                    
                                        0 commentaires
                                        
                                                                                    
                                    
                                                            

                        

                        
                                            
                            
                                
                                    0
 votes
                                
                            
                            
                                
                                     Selon votre entrée attendue, cela pourrait fonctionner:  xxx  
  ([A-ZA-Z0-9 _-] +)  = mots qui pourraient être répétés .  
  (*) \ 1  = Vérifiez si le mot précédent est répété après un espace.  
  S / ([.,; ]) / \ 1 / g  = Supprime des espaces supplémentaires avant la ponctuation (vous pouvez ajouter des caractères à ce groupe).  
  S / / / g  = Supprime Double espaces.  
 Ceci fonctionne avec GNU SED.                                  


                                                                    
                                    
                                    
                                        0 commentaires
                                        
                                                                                    
                                    
                                                            

                        

                        
                                            
                            
                                
                                    5
 votes
                                
                            
                            
                                
                                     avec GNU AWK pour le 4ème Arg à scinder (): 
$ cat tst.awk
{
    n = split($0,words,/[^[:alpha:]]+/,seps)
    prev = ""
    for (i=1; i<=n; i++) {
        word = words[i]
        if (word != prev) {
            printf "%s%s", seps[i-1], word
        }
        prev = word
    }
    print ""
}

$ awk -f tst.awk file
â€œtrue, rohith Rohith;
cold burn, and fact and fact good?â€

                                

                                                                    
                                    
                                    
                                        1 commentaires
                                        
                                                                                            
                                                    C'est une utilisation exceptionnelle des "SEPS" dans SPLIT (). Très intelligent.                                                
                                                
                                                                                    
                                    
                                                            
                        
                        
                                            
                            
                                
                                    3
 votes
                                
                            
                            
                                
                                     correspond à la même correspondance de la même arrière-plan dans SED:  xxx  
 Comment ça marche:  

 : l  - Créez une étiquette  l  pour passer à. Voir  TL  ci-dessous. 
  s  - substitut


  /  
  \ (^ \ | [^ [: alpha:]] \)  - correspondre au début de la ligne ou du caractère non alphabétique. C'est ainsi que la partie suivante correspond à l'ensemble du mot, non seulement suffixe. 
  \ ([[[[alpha:]]] \ {1, \ \ \ \ \ \ \)  - correspond à un mot - un ou plusieurs caractères alphabétiques. 
  [^ [: alpha:]]] \ {1, \}  - correspond à un non-mot - un ou plusieurs caractères non alphabétiques. 
  \ 2  - correspond à la même chose que dans la seconde  \ (... \ \)  - c'est-à-dire. correspondre au mot. 
  \ ($ \ | [^ [^ [^ [: alpha:]] \)  - correspond à la fin de la ligne ou correspond à un caractère non alphabétique. C'est donc nous correspondons à l'ensemble du deuxième mot, non seulement son préfixe. 
  /  
  \ 1 \ 2 \ 3  - Substituez-le pour      
  /  
  g  - substituer globalement. Mais, parce que la regex ne reviendra jamais, elle substituera 2 mots à la fois. 
 
  tl  - Aller à l'étiquette  l  si la commande  s  s  réussite. Ceci est ici, de sorte que quand il y a 3 mots la même chose, comme  vrai vrai vrai , ils sont correctement remplacés par un seul  true . .
  sans le  \ (^ \ | [^ [| [: alpha:]] \)  et  \ ($ \ [^ [| [^ [: ALPHA:]] \) , sans eux par exemple  vrai rue  serait substitué par  true , car le suffixe  RUE RUE  correspondrait.  
 Vous trouverez ci-dessous mon autre solution, qui suppriment également des mots répétés entre les lignes.  
 Ma première solution était avec  UNIQ . Donc, je vais d'abord transformer l'entrée en paires avec le format    . Puis exécutez-le via  uniq -f1  avec ignorer le premier champ, puis convertissez-le. Ce sera très lent:   xxx  
 mais j'ai remarqué que  sed  fait un bon travail pour jeton de la saisie - il place zéro octets entre chacun jetons de mot et de mots. Donc, je pourrais facilement lire le flux. Je peux ignorer des mots répétés en awk en lisant zéro ruisseau séparé dans GNU awk et en comparant le dernier mot lisé:   xxx  
 à la place de zéro octet quelque chose d'unique pourrait être utilisé comme séparateur d'enregistrement. , par exemple  ^  caractère, de cette façon, il pourrait être utilisé avec une version non-GNU AWK, testée avec Mawk disponible sur RÉPL. Raccourci le script en utilisant des noms de variables plus courts ici:   xxx  
  Testé sur REPL . La sortie des extraits:   xxx                                  


                                                                    
                                    
                                    
                                        4 commentaires
                                        
                                                                                            
                                                    Cela vous dérangerait-il de détailler l'expression SED que vous écrivez dès le début de votre réponse?                                                
                                                
                                                                                            
                                                     rs = '^'  signifie que l'enregistrement est divisé à chaque caractère  ^ , mais il n'y a aucune raison particulière de penser  ^  ne peut pas apparaître dans le Entrée, vous feriez mieux d'utiliser du caractère de contrôle, car c'est probablement moins susceptible d'apparaître .. N'utilisez jamais une variable nommée  l  BTW car il ressemble beaucoup trop au nombre  1 < / code> et donc obscosser votre code.                                                

                                                
                                                                                            
                                                    @RVBarreto Il y a une explication complète des points ci-dessous, j'ai essayé de l'expliquer. Peut-être que je pourrais essayer de mieux expliquer?                                                
                                                
                                                                                            
                                                    @Kamilcuk qui était parfait!                                                
                                                
                                                                                    

                                    

                                                            

                        

                        
                                            
                            
                                
                                    1
 votes
                                
                            
                            
                                
                                    :~$ sed -E 's/(\w+) *\1/\1/g' sample.txt
â€œtrue, rohith Rohith;
cold burn, and fact and fact good?â€

                                

                                                                    
                                    
                                    
                                        0 commentaires
                                        
                                                                                    
                                    
                                                            
                        
                        
                                            
                            
                                
                                    3
 votes
                                
                            
                            
                                
                                     simple  sed :  xxx                                  


                                                                    
                                    
                                    
                                        0 commentaires

Articles qui pourrait vous intéresser : Awk: extraire des lignes lorsque les colonnes sont totalisées dans une plage Suppression de plusieurs délimiteurs entre les délimiteurs extérieurs sur chaque ligne Rechercher une correspondance dans un champ et imprimer les n champs suivants bash / sed, remplace la ligne dans le fichier au même niveau d'indentation