Je recherche des algorithmes qui permettent une extraction de texte des sites Web. Je ne veux pas dire "stript html" ou aucun des centaines de bibliothèques qui permettent cela. P>
Donc, par exemple, pour un article d'information, je voudrais identifier l'en-tête et tout le texte, mais pas la section des commentaires et ainsi de suite. P>
Y a-t-il des algorithmes pour cela? Merci! P>
5 Réponses :
Qu'est-ce que vous essayez de faire s'appelle "Extraction de contenu". Il s'avère un problème étonnamment dur pour bien résoudre et de nombreuses solutions naïves font mal. P>
instapaper et lisibilité Les deux doivent résoudre ce problème, et vous pouvez apprendre quelque chose de regarder leurs solutions. Ils fournissent également les deux services que vous pourrez peut-être profiter - peut-être que vous pouvez leur externaliser votre problème et laisser leur API s'en occuper. :) p>
omettre cela, une recherche de " Extraction de contenu HTML "retourne beaucoup de résultats utiles, y compris un certain nombre de papiers sur le sujet. P>
Dans la littérature informatique de l'informatique Ce problème est généralement appelé la section em> ou la détection de la plaque de chaudière em> problème. Voir le rapport Détection de la batterie à l'aide de fonctions de texte peu profondes et de son lien associé < un href = "http://lingpipe-blog.com/2010/01/11/kohlschutter-fankhauser-nejdl-2010-OilerPlate-detection-due-due-stext-fsatures/" rel = "NOFOOLS NOREFERRER"> Blog < / a> post. En outre, j'ai quelques rapports et sites logiciels Bookmarked cette adresse le problème. Aussi, voir Cette Stackoverflow Question. P>
Merci ... était d'une grande aide!
Il existe quelques outils open source disponibles qui font des tâches d'extraction similaires d'articles. https://github.com/jiminoc/goose qui était open source par gravity.com p>
Il a des informations sur le wiki ainsi que la source que vous pouvez afficher. Il existe des dizaines de tests unitaires qui montrent le texte extrait de divers articles. P>
"Extraction de contenu" est un sujet très difficile. Il n'y a pas de normes communes pour identifier le contenu "principal de l'article" (il existe plusieurs approches pour rendre HTML plus facilement sur des robots de chansons, par exemple schema.org , mais rien de tout cela n'est utilisé très populairement). p>
Il s'avère donc, si vous voulez de bons résultats, il est probablement préférable de définir votre propre XPATH Sélecteurs pour chaque site Web (Actualités) que vous souhaitez gratter. Bien qu'il existe des API pour l'extraction de contenu HTML, mais comme je l'ai dit très difficile de développer un algorithme qui fonctionne pour chaque site. P>
Certaines API que vous pouvez utiliser: p>
alchemyapi.com
diffbot.com
chairerpipe-web.appot.com
aylien.com
textracto.com p>
Je pense que votre meilleur shoot est d'étudier quelles informations pouvez-vous obtenir des métadonnées et écrire un bon analyseur HTML, OEMbed pourrait être une bonne standard =) P>
Je pense que la phrase que vous recherchez est "raclage Web"