7
votes

Ce que les classes de caractères de regex intégrées sont prises en charge Java

... lorsqu'il est utilisé dans des motifs tels que "\\ p {somecharacterclass}" .
J'ai utilisé / vu certains:

  • inférieur
  • supérieure
  • IncombinessDiaCriticalmarks
  • ASCII

    Quelle est la liste définitive de tous les caractères intégrés pris en charge classés? Où est-il documenté? Quelles sont les significations exactes?

    édité ...

    Il semble y avoir beaucoup de réponses "RTFM", se référant à la Javadoc pour modèle . C'est le premier endroit où j'ai regardé avant de poser cette question. Juste pour que tout le monde soit clair, le Javadoc for Standing ne mentionne aucune des classes énumérées ci-dessus.

    La réponse "correcte" mentionnera "l'incombinationDiaCriticalmarks" quelque part sur la page, et ne sera pas une référence vague aux "normes Unicode".


9 commentaires

Avez-vous vérifié le motif Documentation ?


@Greghewgill Oui je l'ai fait vérifier ... Es-tu? C'est là que j'ai regardé d'abord et il n'y a aucune mention de ce qui précède, pas de liens avec des pages qui ne font ni


Voir les sections intitulée "Cours de caractères POSIX", "Java.lang.Character Classes" et "Unicode Support": Les catégories prises en charge sont celles de la norme UNICODE dans la version spécifiée par la classe de caractères. Les noms de catégorie sont ceux définis dans la norme, à la fois normatif et informatif. Les noms de bloc pris en charge par modèle sont les noms de bloc valides acceptés et définis par Unicodeblock.forname.


@Greghewgill OK, cool. Donc, exactement quel est le lien vers la page qui énumère toutes ces réponses et leurs significations?


Je suis allé à unicodeblock.forname qui a conduit à Unicode.org , où j'ai trouvé Où puis-je trouver la liste définitive des blocs UNICODE? et enfin blocks.txt lui-même.


@Greghewgill que le lien est un bon début, mais cela ne définit pas ce que chaque classe signifie. La plupart sont évidents par leur nom, mais par exemple, quel est le match classes ?


Le fichier blocks.txt Note de la plage de points de code, alors obtenez ensuite le tableau de code de cette plage: unicode.org/charts/pdf/ue000000.pdf (Je ne sais pas ce que ces" balises "sont utilisées non plus.)


@Greghewgill OK, bonne réponse. Si vous postez une réponse avec cela, je l'accepterai! Merci pour votre ténacité.


@Greghewgill BTW, ces "balises" sont des caractères ASCII avec littéralement une petite étiquette de bagages sous chacune - Regardez-les ici


5 Réponses :


0
votes

La spécification est http: // docs .oracle.com / Javase / 6 / Docs / API / Java / Util / Regex / Pattern.HTML . Dans certains cas, il fait référence au TUS pour une version particulière, vous pouvez trouver ce matériau à http://unicode.org .


1 commentaires

Ouais j'ai lu modèle Javadoc avant de poster cette question. Quel est le lien exact à la page qui répertorie toutes les classes et leurs significations?






0
votes

Cette page a de bons détails pour quelques classes populaires comme: < / p>

  • \ p {l} ou \ p {lettre} : n'importe quel type de lettre de n'importe quelle langue.
  • \ p {m} ou \ p {mark} : un caractère destiné à être combiné avec un autre caractère (par exemple, des accents, des UMLAUTS, des boîtes à enfermer, etc.) .
  • \ p {n} ou \ p {numéro} : n'importe quel type de caractère numérique dans n'importe quel script.

0 commentaires