6
votes

Analyse HTML à partir d'une page Web

Je dois extraire des informations d'une page Web et reformater pour l'utilisateur.

Étant donné que la page Web est quelque peu régulière, j'utilise maintenant httpClient pour revenir sur la chaîne HTML en tant que chaîne et j'entraîne des soustractions dans des emplacements donnés avec les données correspondantes.

Quoi qu'il en soit, je me demande s'il y a une meilleure façon, peut-être un moyen conscient de HTML. Comment le feriez-vous?

acclamations


4 commentaires

Dupliqué possible de Java HTML Ansing


Stackoverflow.com/Questtions/4623427/html-parsing-utilisant-java < / a>


Stackoverflow.com/Questtions/4614211/java-html-parsing


Cette question pourrait être très similaire aux autres, mais elle a la légère différence d'être liée à Android qui a un ensemble différent de bibliothèques soutenues que Java.


4 Réponses :


7
votes

Idéalement, vous devez utiliser un véritable analyseur HTML. J'ai utilisé Jsoup avec succès dans le passé sur Android:

http://jsoup.org/


0 commentaires

1
votes

Nous avons utilisé httpunit le faire dans le passé.


0 commentaires

1
votes

jsoup.org est meilleur mais COBRA a également des fonctionnalités supplémentaires (CSS-Cawn et JavaScript-Cays ).


0 commentaires

3
votes

J'aime personnellement utiliser Jericho Parser: http://jericho.htmlparser.net/docs/ index.html

Il est facile à utiliser, j'ai très bien des exemples sur la page du projet et traite bien avec PURE HTML (étiquettes non claires, etc.).


0 commentaires