6
votes

Analyser une intrigue pour plusieurs modèles

Je mesure une intrigue pour certains modèles d'extraction des valeurs de celui-ci, par ex. J'aurais quelque chose comme

<span class="filename" id="234217"><a href="http://example.com/foo">foo</a>


2 commentaires

Je me demande si votre entrée est bien formée dans le sens XML


Pas du tout, le HTML peut être invalide


3 Réponses :


0
votes

le scanner.usedelimiter (motif) API semble être ce que vous recherchez. Vous devriez utiliser une chaîne de motif (|) séparée.

Ce modèle peut être vraiment compliqué très rapidement.


0 commentaires

5
votes

Vous voulez dire que vous voulez faire correspondre n'importe quel élément avec un attribut de classe donné , quel que soit les autres attributs qu'il peut avoir? C'est assez facile: xxx

le fichier "test.txt" contient le texte de votre question et la sortie est la suivante: xxx


1 commentaires

Non, je veux aussi faire correspondre d'autres motifs tels que ... (la valeur) ou

texte (le texte) et distingue les différents modèles.



0
votes

Vous avez raison de penser que cela a été fait auparavant :) Ce dont vous parlez est un problème de goûté et d'analyse et je vous suggère donc de considérer Javacc.

Il y a quelque chose d'une courbe d'apprentissage avec Javacc comme vous Apprenez à comprendre sa grammaire, alors ci-dessous est une implémentation pour vous aider à démarrer.

La grammaire est une version hachée de la Standard Javacc Grammaire pour HTML . Vous pouvez ajouter plus de productions pour correspondre d'autres modèles. xxx


1 commentaires

HM, cela semble être une overcilleuse, si je l'obtiens bien, je devrais également recompiler la demande si la spécification change, et non seulement ajuster un fichier de configuration et le recharger.