12
votes

Comment correspondez-vous aux caractères accentués et tilde dans une expression régulière Perl (Regexp)?

Un utilisateur entre dans un ensemble de noms avec des accents et des tildes: xxx pré>

ma base de données a des noms anglicisés pour ces personnes p> xxx pré>

i Souhaitez faire une correspondance Regexp sur ces noms. P>

$string = "Renato NÃºÃ±ez, David DeJesÃºs, and Edwin EncarnaciÃ³n";
foreach my $name (@names) {
    $name =~ s|a|[Ã¡a]|;
    $name =~ s|e|[Ã©e]|;
    $name =~ s|i|[Ãi]|;
    $name =~ s|o|[Ã³o]|;
    $name =~ s|u|[Ãºu]|;
    $name =~ s|n|[Ã±n]|;
    # Originally: print "found:$name\n" if ($name =~ /$string/);
    # Corrected to:
    print "found:$name\n" if ($string =~ /$name/);
}

regex perl localization unicode

4 commentaires

Suggestion 1: opérateurs d'expression réguliers dans perldoc perlop . Je pense que vous voulez dire $ string = ~ / $ nom / nom / au lieu de $ Name = ~ / $ string / S | [Áa] | a | au lieu de s | a | [Áa] | .


                                        
                                                                            J'ai le S ||| Commander la façon dont je fais parce que je veux construire une regex de la chaîne "David Dejesus" qui correspondra au nom avec ou sans l'accent.
                                        
                                                                            Oh maintenant je vois. Vous essayez de créer une expression régulière dans  Name , de ne pas supprimer les caractères non anglicisés.

                                        
                                                                            Consultez le code que je viens d'ajouter à ma réponse pour vous montrer comment faire correspondre les chaînes qui pourraient avoir des accents en eux sans avoir à craindre de s'ils le font ou non.



                                    
                    5 Réponses :
                    
                                            
                            
                                
                                    1
 votes
                                
                            
                            
                                
                                     Il semble que vous échangez le paramètre.
Vous tapez  xxx  pré> 
 qui tentent de remplacer le modèle "A" par "[Ã¡a]"
Essayez  p>  xxx  pré> 
 échanger la correspondance et ça fonctionnera.  P> 
$string = "Renato NÃºÃ±ez, David DeJesÃºs, and Edwin EncarnaciÃ³n";
foreach my $name (@names) {
    print "found:$name\n" if ($string =~ /$name/);
}

                                

                                                                    
                                    
                                    
                                        1 commentaires
                                        
                                                                                            
                                                    Oui, j'avais $ string et $ nom inversé dans la dernière commande. Mais je ne pense pas que l'inverser S | [AA '] | A | Travaillera-t-il que cela convertira mes noms en caractères non espagnols et il ne correspondra pas à la chaîne?                                                
                                                
                                                                                    
                                    
                                                            
                        
                        
                                            
                            
                                
                                    1
 votes
                                
                            
                            
                                
                                     Je pense que vous utilisez comme étant la ficelle «Renato Núñez, David Dejesús et Edwin Encarnación» 

 Si je comprends bien, vous essayez de faire correspondre chacun des noms dans la phrase "Renato Núñez, David Dejesús et Edwin Encarnación". 

 Si tel est le cas, vous devez écrire:  $ string = ~ / $ nom / au lieu de $ NOM = ~ / $ String /                                     


                                                                    
                                    
                                    
                                        1 commentaires
                                        
                                                                                            
                                                    Oui merci. Je l'avais inversé. J'ai réparé la question maintenant.                                                
                                                
                                                                                    
                                    
                                                            

                        

                        
                                            
                            
                                
                                    1
 votes
                                
                            
                            
                                
                                     Cela pourrait être plus conforme à ce que vous essayez de faire.  XXX  
 OUT  
 
  Trouvé: Renato Nunez ~ Renato NãºÃ ¡EZ  

 Trouvé: David Dejesus ~ David Dejesús  

 Trouvé: Edwin Encarnacion ~ Edwin Encarnación                                   


                                                                    
                                    
                                    
                                        1 commentaires
                                        
                                                                                            
                                                    Je vais essayer ça. Cela ressemblait à ce que j'avais que cela n'a pas travaillé plus tôt. Cela se fait envoyer via une webform, alors peut-être que les caractères de la chaîne sont codés d'une manière ou d'une autre. Je vais devoir vérifier ça.                                                
                                                
                                                                                    
                                    
                                                            

                        

                        
                                            
                            
                                
                                    2
 votes
                                
                            
                            
                                
                                     Googling pour cela, je vois que le problème est assez courant (j'ai utilisé la requête "Perl Supprimer DiCritic"). N'oubliez pas que ce n'est pas une science «exact» (élimination des diacritiques et un texte anglicisant). Ici, il y a quelques liens: 

  http://www.ahinea.com/fr/tech/accenter- Traduire.html  

  http://search.cpan.org /~wollmers/text-undiaCritic-0.02/lib/text/undiagritic.pm  

  http://search.cpan.org/~ldachary/ Text-Unaccent-1.08 / Unaccent.pm  

 comme une suggestion, pour une méthode rapide N-sale: 


 Normaliser la chaîne dans le formulaire de normalisation D (voir cette  http: // perdoc. perl.org/5.8.9/unicode/normalize.html ). Cela changera par exemple le '' è '' à '' E '' + '' '+' '' (la tombe alliant grave, U + 0300). 
 Remplacez toutes les marques (c'est une classe Unicode) avec une chaîne vide. La regex est basée sur le  \ p {m}  (il trouvera toutes les marques) 
 Votre chaîne n'a pas de symboles avec diacritique et vous pouvez faire une comparaison "simple" 
 Mais notez que de nombreuses "lettres étranges" ont survécu: ßøœ par exemple. C'était un N-Dirty N la fin! 


 Je ne peux pas vous aider davantage parce que c'est de nombreuses années que je ne programme pas à Perl.                                 


                                                                    
                                    
                                    
                                        0 commentaires
                                        
                                                                                    
                                    
                                                            

                        

                        
                                            
                            
                                
                                    8
 votes
                                
                            
                            
                                
                                    #!/usr/bin/env perl
#
# bÃºsqueda-libre:
#
#    CÃ³mo se debiera ordenar y buscar palabras en Unicode
#    que pueden llevarse marcas diacrÃticas (o no) sin que
#    Ã©stas afecten la bÃºsqueda.  TambiÃ©n cÃ³mo cambiar el
#    el orden para que no cuente con articulos al principio
#    del los nombres, como se hace con los tÃtulos de libros &c.
#
# Tom Christiansen <tchrist@perl.com>
# Fri Mar  4 21:06:35 MST 2011
#
#############################################

use utf8;
use 5.10.1;
use strict;
use warnings; # FATAL => "all";
use autodie;
use charnames qw< :full >;

use List::Util qw< max first >;
use Unicode::Collate;

my $INCLUÃR_NINGUNOS               = 0;
my $SI_IMPORTAN_MARCAS_DIACRÃTICAS = 0;

sub sÃ_Ã³_no(_) { $_[0] ? "sÃ" : "no" }

sub encomillar(_) {
    return join $_[0] =>
        "\N{LEFT-POINTING DOUBLE ANGLE QUOTATION MARK}",
        "\N{RIGHT-POINTING DOUBLE ANGLE QUOTATION MARK}",
    ;
}

binmode(STDOUT, ":utf8");
# Ã‰sta estÃ¡ demasiada larga para la pantalla. :(
#
#    La Ciudad de Nuestra SeÃ±ora la Reina de Los Ãngeles de PorciÃºncula, California Alta
#

my @ciudades_espaÃ±olas = ordenar_a_la_espaÃ±ola(<<'LA_ÃšLTIMA' =~ /\S.*\S/g);
        Santa EulÃ lia de RonÃ§ana
        MaÃ±Ã³n
        A Pobra do CaramiÃ±al
        La AlberguerÃa de ArgaÃ±Ã¡n
        LogroÃ±o
        La Puebla del RÃo
        Villar de ArgaÃ±Ã¡n
        PiÃ±uÃ©carâ€“Gandullas
        Mantilla
        Gallegos de ArgaÃ±Ã¡n
        MadroÃ±al
        GriÃ±Ã³n
        LliÃ§Ã  dâ€™Amunt
        Valverde de AlcalÃ¡
        MontalbÃ¡n de CÃ³rdoba
        San MartÃn del CastaÃ±ar
        La PeÃ±a
        CabezÃ³n de LiÃ©bana
        DoÃ±a MencÃa
        Santa MarÃa de CayÃ³n
        BÃ³veda del RÃo Almar
        La Roca del VallÃ¨s
        Matilla de los CaÃ±os del RÃo
        Prats de LluÃ§anÃ¨s
        RibamontÃ¡n al Monte
LA_ÃšLTIMA

my $cmÃ¡x = -(2 + max map { length } @ciudades_espaÃ±olas);

my @bÃºsquedas = < {A,E,I,O,U}N AL >;
my $bmÃ¡x = -(2 + max map { length } @bÃºsquedas);

my $ordenador = new Unicode::Collate::
                    level           => $SI_IMPORTAN_MARCAS_DIACRÃTICAS ? 2 : 1,
                 ## variable        => "non-ignorable",  # blanked, non-ignorable, shifted, shift-trimmed
                    normalization   => undef,
                ;

for my $aldea (@ciudades_espaÃ±olas) {
    my $dÃ©jÃ _imprimÃ©e;
    for my $bÃºsqueda (@bÃºsquedas) {
        my @resultados = $ordenador->gmatch($aldea, $bÃºsqueda);
        next unless @resultados || $INCLUÃR_NINGUNOS;
        printf qq(%*s %s tiene %*s en %17s %s\n),
                $cmÃ¡x => !$dÃ©jÃ _imprimÃ©e++ && encomillar($aldea),
                sÃ_Ã³_no(@resultados),
                $bmÃ¡x => "/$bÃºsqueda/",
                cuÃ¡ntos_sitios(@resultados),
                enfilar(@resultados);
    }
}

sub cuÃ¡ntos_sitios {
    my @lista = @_;
    my $cantidad = @_;
    given ($cantidad) {
        when (0)  { return    "ningÃºn sitio"    }
        when (1)  { return   "un solo sitio"    }
        when (2)  { return "un par de sitios"   }
        default   { return "$cantidad sitios"   }
    }
}

sub enfilar {
    my @lista = map { encomillar } @_;

    my $separador  = "\N{COMMA}";
       $separador  = "\N{SEMICOLON}"   if first { /$separador/ } @lista;
       $separador .= "\N{SPACE}";

    given (scalar @lista) {
        when (0)  { return ""                       }
        when (1)  { return "@lista"                 }
        when (2)  { return join " y " => @lista     }
        default   { return
            join($separador  => @lista[ 0 .. ($#lista-1) ])
                     . " y $lista[$#lista]";
        }
    }
}

###################################################
# Para ordenar los elementos de la lista
# en el estilo tradicional del castellano.
#
# Tenemos en cuenta que sÃ pueden aparecerse nombres
# de ciudades que no son nombres sÃ³lo castellanos
# sino tambÃen catalanes y gallegos â€” y tal vez mÃ¡s,
# como en asturianu or aranÃ©s, pero no he pensado
# mucho es estos.
###################################################

sub ordenar_a_la_espaÃ±ola {
    my @lista = @_;

    state $ordenador_a_la_espaÃ±ola = new Unicode::Collate::

        # Si se tuviese Unicode::Collate::Locale con "es__traditional",
        # no harÃa falta este primer lÃo con su entrada especial,
        # con la excepciÃ³n de la c-cedilla, la cual aquÃ se ordena
        # como si fuese catalÃ¡n, no castellano.

        # Vamos a meter las nuevas entradas despuÃ©s de Ã©stas,
        # que son copiadas del DUCET v6.0.0.  Tuve que cambiar unos
        # valores que tenÃa este cÃ³digo desde otra versiÃ³n anterior.
        #
        # 0043  ; [.123D.0020.0008.0043] # LATIN CAPITAL LETTER C
        # 00C7  ; [.123D.0020.0008.0043][.0000.0056.0002.0327] # LATIN CAPITAL LETTER C WITH CEDILLA; QQCM
        # 004C  ; [.1330.0020.0008.004C] # LATIN CAPITAL LETTER L
        # 004E  ; [.136D.0020.0008.004E] # LATIN CAPITAL LETTER N
        # 00D1  ; [.136D.0020.0008.004E][.0000.004E.0002.0303] # LATIN CAPITAL LETTER N WITH TILDE; QQCM

        entry => <<'SALIDA',   # :)

               00E7      ; [.123E.0020.0002.0327] # c-cedilla
               0063 0327 ; [.123E.0020.0002.0327] # c-cedilla
               00C7      ; [.123E.0020.0002.0327] # C-cedilla
               0043 0327 ; [.123E.0020.0002.0327] # C-cedilla

               0063 0068 ; [.123F.0020.0002.0043] # ch
               0043 0068 ; [.123F.0020.0007.0043] # Ch
               0043 0048 ; [.123F.0020.0008.0043] # CH

               006C 006C ; [.1331.0020.0002.004C] # ll
               004C 006C ; [.1331.0020.0007.004C] # Ll
               004C 004C ; [.1331.0020.0008.004C] # LL

               00F1      ; [.136E.0020.0002.0303] # n-tilde
               006E 0303 ; [.136E.0020.0002.0303] # n-tilde
               00D1      ; [.136E.0020.0008.0303] # N-tilde
               004E 0303 ; [.136E.0020.0008.0303] # N-tilde

SALIDA

       upper_before_lower => 1,

       normalization => "NFKD",  # Â¿Y porquÃ© no?

       preprocess => sub {
           my $_ = shift;

       ###
       # no incluye los artÃculos definitivos ni indefinitivos
       ###

           s/^L\p{QMARK}//;    # puede encontrarse en el catalÃ¡n

           s{ ^

             (?:         # del castellano
                 El
               | Los
               | La
               | Las
                         # del catalÃ¡n
               | Els
               | Les
               | Sa
               | Es
                         # del gallego
               | O
               | Os
               | A
               | As
             )

             \h +

          }{}x;

        # Luego quita las palabras no-importantes interiores.

           s/\b[dl]\p{QMARK}//g;   # del catalÃ¡n

           s{
               \b
               (?:
                   el  | los | la | las | de  | del | y          # ES
                 | els | les | i  | sa  | es  | dels             # CA
                 | o   | os  | a  | as  | do  | da | dos | das   # GAL
               )
               \b
           }{}gx;

          return $_;

       },   # fin de rutina preprocesadora

  ## Â¡Fijaos que no borrÃ©is esta marca!
  ##     Este punto y coma marca el fin
  ##     de los argumentos del constructor
  ##     empezado ya muchas lineas arriba.
  ##   Ë…
       ;  # â†â†â† SÃ, Ã©se â€” dejadlo en paz o muy tristes os quedarÃ©is.
  ##   Ë„

    return $ordenador_a_la_espaÃ±ola->sort(@lista);
}

                                

                                                                    
                                    
                                    
                                        1 commentaires
                                        
                                                                                            
                                                    Merci pour cela. Je vais regarder cela plus attentivement.


            
                
		    
                    Articles qui pourrait vous intéresser :
                                            
                            Je cherche une regex qui ne permet pas plus que le caractère étoile consécutif                        
                        
                                            
                            La fonction check_time vérifie le format de l'heure d'une horloge de 12 heures                        
                        
                                            
                            Comment convertir 10 chiffres avec ce format XXX-XXX-XXXX au format formel américain qui ressemble à (XXX) XXX-XXXX en utilisant Python3 Regex sub                        
                        
                                            
                            php: vérifie si une variable a / manque de caractères particuliers