J'aimerais construire une webApp pour aider les autres étudiants de mon université à créer leurs horaires. Pour ce faire, je dois afficher les horaires principaux (une énorme page HTML) ainsi qu'un lien vers une description détaillée de chaque cours dans une base de données, de préférence en python. En outre, je dois me connecter pour accéder aux données. P>
4 Réponses :
Demandes code>
pour le téléchargement des pages.
lxml code>
pour racler les données. LI>
ul>
Si vous souhaitez utiliser un cadre de raclage puissant, il y a Scrapy code>
. Il a une bonne documentation aussi. Cela peut être un peu excessivant en fonction de votre tâche. P>
Voulez-vous recommander la même chose pour cela: Stackoverflow. com / questions / 23917790 / ...
Scrapy est probablement la meilleure bibliothèque Python pour ramper. Il peut maintenir l'état pour des sessions authentifiées. p>
traiter avec des données binaires doit être traitée séparément. Pour chaque type de fichier, vous devrez le gérer différemment selon votre propre logique. Pour presque tout type de format, vous serez probablement en mesure de trouver une bibliothèque. Par exemple, jetez un coup d'œil à PYPDF pour la manipulation de PDFS. Pour les fichiers Excel, vous pouvez essayer XLRD. P>
J'ai aimé utiliser Beatialsoupe pour extraire des données HTML
C'est aussi simple Comme ceci: p>
J'utilise cela aussi. J'ai besoin d'explorer environ 1000 liens sur le même site ... mais il faut trop de temps ... me suggéreriez-vous une meilleure approche? Je peux montrer le code aussi
Pour cela, il existe un outil très utile appelé Web-Harvest Lien vers leur site Web http://web-harvest.sourceforgege.net/ J'utilise cela pour crawler Webpages P>