8
votes

Extraire le texte des fichiers PDF et Word

Comment puis-je extraire le texte des fichiers PDF ou Word (supprimer audacieux, images et autres supports de formatage de texte riche) en C #?

c# pdf ms-word

0 commentaires

6 Réponses :

0
votes

Pour PDF Avez-vous consulté TULPDF

Vérifiez également celui-ci: http://www.codeproject.com/kb/ Fichiers / pdf_to_text.aspx

0 commentaires

0
votes

Utiliser le modèle d'objet Word, c'est le seul moyen fiable depuis que le format Word n'est pas ouvert et varie de la version à la version.

1 commentaires

Mais comment? Ceci est une réponse inutile sans échantillon de code.

5
votes

PDF:

Vous avez différentes options. P>

pdftotext: strong>

Téléchargez le Utilitaires XPDF . Dans le fichier .zip, il existe divers services utilitaires de commande. L'un est pdftotext (.exe) code>. Il peut extraire tout le contenu du texte d'un fichier PDF bien comportant. Tapez pdftotext -help code> Pour en savoir plus si ses paramètres de commande de commande. P>

Ghostscript: strong> Installez le la dernière version de Ghostscript (V.8.71). Ghostscript est un interprète PostScript et PDF. Vous pouvez également l'utiliser pour extraire le texte à partir d'un PDF également: P>

gswin32c.exe ^
 -q ^
 -sFONTPATH=c:/windows/fonts ^
 -dNODISPLAY ^
 -dSAFER ^
 -dDELAYBIND ^
 -dWRITESYSTEMDICT ^
 -dSIMPLE ^
 -f ps2ascii.ps ^
 -dFirstPage=3 ^
 -dLastPage=7 ^
 input.pdf ^
 -dQUIET

0 commentaires

0
votes

Vous voudrez peut-être regarder PDFBox. Voici un lien vers une page de projet de code indiquant comment l'utiliser dans C # ainsi que d'autres commentaires utiles.

http://www.codeproject.com/kb/string/pdf2text.aspx

Comme pour Word, la suggestion d'utiliser le modèle d'objet Word est probablement la plus précise.

0 commentaires

7
votes

Vous pouvez utiliser les filtres conçus pour / utilisés par le service d'indexation. Ils sont conçus pour extraire le texte brut de divers documents, ce qui est utile pour la recherche dans un document. Vous pouvez l'utiliser pour des fichiers Office, des PDF, HTML, etc., tout type de fichier comportant un filtre. Le seul inconvénient est que vous devez installer ces filtres sur le serveur, donc si vous n'avez pas d'accès direct au serveur, cela peut ne pas être possible. Certains filtres sont pré-installés avec Windows, mais certains, comme PDF, vous devez vous installer. Pour une mise en œuvre C # Consultez cet article: Utilisation de ifilter en C #

1 commentaires

C'est exactement ce dont j'avais besoin. Merci!

0
votes

La bibliothèque DOCOtic.pdf peut être utilisée pour extraire le texte des fichiers PDF.
La bibliothèque peut Extraire texte et texte en formatage . En outre, un Collection de mots ou caractères avec bornisation Les rectangles peuvent être récupérés à l'aide de l'API de la bibliothèque.
Disclaimer: je travaille pour le vendeur de la bibliothèque.

0 commentaires

Articles qui pourrait vous intéresser :
Calculer la différence dans l'échelle d'évaluation alphabétique
Ignorer la propriété de l'interface utilisateur Swagger
Comment détruire les éléments dynamiques du panneau dans le script Unity C #
Entity Framework Core 3.1 avec NetTopologySuite.Geometries.Point: SqlException: la valeur fournie n'est pas une instance valide de la géographie du type de données