Comment puis-je extraire le texte des fichiers PDF ou Word (supprimer audacieux, images et autres supports de formatage de texte riche) en C #? P>
6 Réponses :
Pour PDF Avez-vous consulté TULPDF P>
Vérifiez également celui-ci: http://www.codeproject.com/kb/ Fichiers / pdf_to_text.aspx p>
Utiliser le modèle d'objet Word, c'est le seul moyen fiable depuis que le format Word n'est pas ouvert et varie de la version à la version. P>
Mais comment? Ceci est une réponse inutile sans échantillon de code.
Vous avez différentes options. P>
pdftotext: strong> Ghostscript: strong>
Téléchargez le Utilitaires XPDF . Dans le fichier .zip, il existe divers services utilitaires de commande. L'un est pdftotext (.exe) code>. Il peut extraire tout le contenu du texte d'un fichier PDF bien comportant. Tapez
pdftotext -help code> Pour en savoir plus si ses paramètres de commande de commande. P>
Installez le la dernière version de Ghostscript (V.8.71). Ghostscript est un interprète PostScript et PDF. Vous pouvez également l'utiliser pour extraire le texte à partir d'un PDF également: P> gswin32c.exe ^
-q ^
-sFONTPATH=c:/windows/fonts ^
-dNODISPLAY ^
-dSAFER ^
-dDELAYBIND ^
-dWRITESYSTEMDICT ^
-dSIMPLE ^
-f ps2ascii.ps ^
-dFirstPage=3 ^
-dLastPage=7 ^
input.pdf ^
-dQUIET
Vous voudrez peut-être regarder PDFBox. Voici un lien vers une page de projet de code indiquant comment l'utiliser dans C # ainsi que d'autres commentaires utiles. P>
http://www.codeproject.com/kb/string/pdf2text.aspx p>
Comme pour Word, la suggestion d'utiliser le modèle d'objet Word est probablement la plus précise. p>
Vous pouvez utiliser les filtres conçus pour / utilisés par le service d'indexation. Ils sont conçus pour extraire le texte brut de divers documents, ce qui est utile pour la recherche dans un document. Vous pouvez l'utiliser pour des fichiers Office, des PDF, HTML, etc., tout type de fichier comportant un filtre. Le seul inconvénient est que vous devez installer ces filtres sur le serveur, donc si vous n'avez pas d'accès direct au serveur, cela peut ne pas être possible. Certains filtres sont pré-installés avec Windows, mais certains, comme PDF, vous devez vous installer. Pour une mise en œuvre C # Consultez cet article: Utilisation de ifilter en C # P>
C'est exactement i> ce dont j'avais besoin. Merci!
La bibliothèque DOCOtic.pdf peut être utilisée pour extraire le texte des fichiers PDF. P>
La bibliothèque peut Extraire texte et texte en formatage a >. En outre, un Collection de mots ou caractères avec bornisation Les rectangles peuvent être récupérés à l'aide de l'API de la bibliothèque. P>
Disclaimer: je travaille pour le vendeur de la bibliothèque. P>