10
votes

Extraction de texte du corps des sites Web par exemple Extrait de l'article de l'article et du texte pas tout le texte sur le site

Je recherche des algorithmes qui permettent une extraction de texte des sites Web. Je ne veux pas dire "stript html" ou aucun des centaines de bibliothèques qui permettent cela.

Donc, par exemple, pour un article d'information, je voudrais identifier l'en-tête et tout le texte, mais pas la section des commentaires et ainsi de suite.

Y a-t-il des algorithmes pour cela? Merci!

algorithm text web-scraping text-extraction

1 commentaires

Je pense que la phrase que vous recherchez est "raclage Web"

5 Réponses :

1
votes

Qu'est-ce que vous essayez de faire s'appelle "Extraction de contenu". Il s'avère un problème étonnamment dur pour bien résoudre et de nombreuses solutions naïves font mal.

instapaper et lisibilité Les deux doivent résoudre ce problème, et vous pouvez apprendre quelque chose de regarder leurs solutions. Ils fournissent également les deux services que vous pourrez peut-être profiter - peut-être que vous pouvez leur externaliser votre problème et laisser leur API s'en occuper. :)

omettre cela, une recherche de " Extraction de contenu HTML "retourne beaucoup de résultats utiles, y compris un certain nombre de papiers sur le sujet.

0 commentaires

10
votes

Dans la littérature informatique de l'informatique Ce problème est généralement appelé la section ou la détection de la plaque de chaudière problème. Voir le rapport Détection de la batterie à l'aide de fonctions de texte peu profondes et de son lien associé < un href = "http://lingpipe-blog.com/2010/01/11/kohlschutter-fankhauser-nejdl-2010-OilerPlate-detection-due-due-stext-fsatures/" rel = "NOFOOLS NOREFERRER"> Blog < / a> post. En outre, j'ai quelques rapports et sites logiciels Bookmarked cette adresse le problème. Aussi, voir Cette Stackoverflow Question.

1 commentaires

Merci ... était d'une grande aide!

1
votes

Il existe quelques outils open source disponibles qui font des tâches d'extraction similaires d'articles. https://github.com/jiminoc/goose qui était open source par gravity.com
Il a des informations sur le wiki ainsi que la source que vous pouvez afficher. Il existe des dizaines de tests unitaires qui montrent le texte extrait de divers articles.

0 commentaires

0
votes

"Extraction de contenu" est un sujet très difficile. Il n'y a pas de normes communes pour identifier le contenu "principal de l'article" (il existe plusieurs approches pour rendre HTML plus facilement sur des robots de chansons, par exemple schema.org , mais rien de tout cela n'est utilisé très populairement).
Il s'avère donc, si vous voulez de bons résultats, il est probablement préférable de définir votre propre XPATH Sélecteurs pour chaque site Web (Actualités) que vous souhaitez gratter. Bien qu'il existe des API pour l'extraction de contenu HTML, mais comme je l'ai dit très difficile de développer un algorithme qui fonctionne pour chaque site.
Certaines API que vous pouvez utiliser:
alchemyapi.com
diffbot.com
chairerpipe-web.appot.com
aylien.com
textracto.com

0 commentaires

-2
votes

Je pense que votre meilleur shoot est d'étudier quelles informations pouvez-vous obtenir des métadonnées et écrire un bon analyseur HTML, OEMbed pourrait être une bonne standard =)
https://oembed.com/#section7

0 commentaires

Articles qui pourrait vous intéresser :
Calculer la différence dans l'échelle d'évaluation alphabétique
Complexité de Trouver tous les multiples de 3 et 5 entre 1 et 10 000 000
Ma vérification pour savoir si un graphique est un arbre binaire renvoie toujours faux
Comment trouver le nombre d'itérations de l'algorithme de recherche binaire?