10
votes

Les expressions régulières peuvent-elles travailler avec différentes langues?

L'anglais, bien sûr, est une évidence pour regex, car c'est ce qu'il a été développé à l'origine dans / pour:

Les expressions régulières peuvent-elles comprendre ce jeu de caractères?
français entre dans certains personnages accentués que je ne suis pas sûr comment faire correspondre - c'est-à-dire è et e et e tous deux considérés comme des caractères de mots par regex?

Les expressions réglemières autonomes Comprendre CE Jeu de Caractères?
Le japonais ne contient pas ce que je sais sous forme de caractères de mots regex pour correspondre contre.

正規表現はこの文字を理解でき設定?

regex internationalization unicode

2 commentaires

Je pense que cela peut également dépendre fortement de la plate-forme sur laquelle le moteur de regex est en cours d'exécution, avez-vous eu un à l'esprit?

"Regex" ou "expression régulière" est un concept défini pour toute collection de symboles que vous voudrez peut-être appeler un alphabet. En pratique, il existe de nombreux moteurs d'expression réguliers (tous ceux que j'ai vus ajouter d'autres capacités également), dont certains gèrent probablement unicode de certaines saveurs et dont certaines ne sont probablement pas. En bref, il s'agit d'une question dépendante de la plate-forme et d'obtenir une réponse utile que vous devrez nous dire quel moteur Regex vous parlez.

8 Réponses :

1
votes

Autant que je sache, il n'y a pas de motif spécifique que vous pouvez utiliser IE [A-ZA-Z] pour correspondre à "è", mais vous pouvez toujours les associer séparément, c'est-à-dire [a-za-zè 正]

Évidemment, cela peut rendre votre regexp immense, mais vous pouvez toujours contrôler cela en ajoutant vos chaînes en variables et ne passer que les variables dans les expressions.

0 commentaires

0
votes

Il ne s'agit pas de l'expression régulière, mais du cadre qui l'exécute. Java et .net, je pense être très bon dans la manipulation d'unicode. donc "è et e tous les deux considérés comme des caractères de mots par regex" est vrai.

0 commentaires

9
votes

Réponse courte: oui .

Plus spécifiquement, cela dépend de votre moteur de regex Prise en charge des correspondances Unicode (comme décrit ici ).

De tels matchs peuvent compliquer énormément vos expressions régulières, afin que je puisse vous recommander de lire Ce Unicode Tutoriel de regex (notez également que les implémentations Unicode eux-mêmes peuvent être assez en désordre afin que vous bénéficiez également de la lecture de Article sur le fonctionnement intérieur des ensembles de caractères).

2 commentaires

Notez que Unicode n'est pas le désordre. Ce sont toutes les tentatives qui sont venues avant cela qui rend tout le problème en désordre.

Par définition dans cet article, Unicode ne peut pas être en désordre: les implémentations peuvent être.

0
votes

Cela dépend de la mise en œuvre et du jeu de caractères. En général, la réponse est "oui", mais cela peut nécessiter une configuration supplémentaire de votre part.
en Perl, par exemple, la signification des choses comme \ W est modifiée par les paramètres locaux choisis (utilisez les paramètres régionaux).

0 commentaires

1
votes

En règle générale, Regex est plus pour le texte lisible par la machine à grokking que pour le texte lisible par l'homme. Il est à bien des égards une réponse plus générale à l'ensemble du XML avec une chose de regex; Regex est de par sa nature même incapable d'analyser correctement la langue humaine, car la langue est plus complexe que ce que vous utilisez pour analyser.
Si vous voulez casser la langue humaine (anglais inclus), vous souhaitez utiliser un outil d'analyse de la langue, voire une AI, pas de simples expressions régulières.

0 commentaires

0
votes

Ce Le fil pourrait aider. Il inclut le Cours de caractères Unicode Vous pouvez utiliser dans une regex (par exemple , [Ll] est toutes des lettres minuscules, quelle que soit la langue).

2 commentaires

Utiliser dans une regex dans quel moteur? Perl? Renforcer? Java?

6.2L V8. Quel autre genre est là?

1
votes

/ [\ p {latin}] / devrait par exemple, inclure l'alphabet latin. Vous pouvez obtenir l'explication complète et la référence ici .
2 commentaires C'est un site utile, mais il se concentre sur Perl et des moteurs de regex similaires. Ce n'est pas universel. Hmm ouais, je ne suis pas sûr de quel moteur utilise le moteur, mais peut-être que c'est utile? Le moteur REGEX PERL est utilisé largement
1 votes "[\ p {l}]" Cette expression régulière contient tous les caractères qui sont lettres , de toutes les langues, majuscules et minuscules. Alors des lettres comme (a-z a-z ä ß è 正文字を理解正の文字を) mais des signes comme (,.?> :) ou d'autres personnes similaires ne sont pas. Les crochets [] signifient que cette expression est un ensemble. Si vous souhaitez un nombre illimité de lettres de cet ensemble à accepter, utilisez une astrix * après les supports, comme celui-ci: "[\ p {l}] *" Il est toujours important de vous assurer de prendre soin de l'espace blanc dans votre regex. puisque votre évaluation peut échouer à cause de l'espace blanc. 1 commentaires Je trouve aussi cette aide très complète pour différentes langues: moyen.com/@h2s1880/...

Articles qui pourrait vous intéresser : Je cherche une regex qui ne permet pas plus que le caractère étoile consécutif La fonction check_time vérifie le format de l'heure d'une horloge de 12 heures Comment convertir 10 chiffres avec ce format XXX-XXX-XXXX au format formel américain qui ressemble à (XXX) XXX-XXXX en utilisant Python3 Regex sub php: vérifie si une variable a / manque de caractères particuliers