Je mesure une intrigue pour certains modèles d'extraction des valeurs de celui-ci, par ex. J'aurais quelque chose comme
<span class="filename" id="234217"><a href="http://example.com/foo">foo</a>
3 Réponses :
le scanner.usedelimiter (motif) API semble être ce que vous recherchez. Vous devriez utiliser une chaîne de motif (|) séparée. P>
Ce modèle peut être vraiment compliqué très rapidement. P>
Vous voulez dire que vous voulez faire correspondre n'importe quel élément le fichier "test.txt" contient le texte de votre question et la sortie est la suivante: p> code> avec un attribut de classe
donné code>, quel que soit les autres attributs qu'il peut avoir? C'est assez facile:
Non, je veux aussi faire correspondre d'autres motifs tels que ... (la valeur) ou
texte blockquote> (le texte) et distingue les différents modèles.
Vous avez raison de penser que cela a été fait auparavant :) Ce dont vous parlez est un problème de goûté et d'analyse et je vous suggère donc de considérer Javacc.
Il y a quelque chose d'une courbe d'apprentissage avec Javacc comme vous Apprenez à comprendre sa grammaire, alors ci-dessous est une implémentation pour vous aider à démarrer. p>
La grammaire est une version hachée de la Standard Javacc Grammaire pour HTML . Vous pouvez ajouter plus de productions pour correspondre d'autres modèles. p>
HM, cela semble être une overcilleuse, si je l'obtiens bien, je devrais également recompiler la demande si la spécification change, et non seulement ajuster un fichier de configuration et le recharger.
Je me demande si votre entrée est bien formée dans le sens XML
Pas du tout, le HTML peut être invalide