J'ai plusieurs PDF de faible qualité. J'aimerais utiliser OCR - pour être plus précis Ocropus pour obtenir du texte d'eux. Utilisation, j'utilise le premier ImageMagick - un outil de ligne de commande à Convertissez PDF en images - pour transformer ces PDF en JPG ou PNG. P>
Cependant, Imagemagick produit des images de très bonne qualité et Ocropus ne reconnaît à peine rien. J'aimerais apprendre quels sont les meilleurs paramètres permettant de manipuler des PDF de haute qualité pour fournir des images de qualité aussi bonnes que possible à OCR. P>
J'ai trouvé Cette page , mais je ne sais pas où commencer. p>
3 Réponses :
-Denseur 600 code> doit vous donner ce dont vous avez besoin. P>
Vous pouvez en apprendre davantage sur les "délégués" des paramètres détaillés ImageMagick (Programmes externes IM utilise, telle que Ghostscript) en tapant (sur mon système qui est une liste de 32 commandes différentes.) Maintenant, pour voir quelles commandes sont utilisées pour convertir en PNG, utilisez ceci: p> OK, ceci était pour Windows. Vous n'avez pas dit quel OS vous utilisez. [*] strong> Si vous êtes sous Linux, essayez ceci: p> Vous découvrirez que la messagerie instantanée ne produit PNG uniquement à partir d'une entrée PS ou EPS. Alors, comment im obtient (e) ps de votre PDF? EASY: P> gs \
-sDEVICE=jpeg \
-o output/page_%03d.jpeg \
-r600 \
-dJPEGQ=95 \
/path/to/your/input.pdf
Au moins deux autres outils que vous voudrez peut-être envisager: P>
pdfimages code>, qui est livré avec l'emballage POPPLER-UTILS code>, il est facile d'extraire les images d'un PDF sans les dégrader. LI>
-
pdfsandwich code>, qui peut vous donner un fichier OCR'D en exécutant simplement pdfsandwich entrementfile.pdf code>. Vous devrez peut-être modifier les options pour obtenir un résultat décent. Voir La page officielle pour plus d'informations. Li>
ul>