8
votes

Quels sont les meilleurs paramètres pour exécuter ImageMagick pour convertir PDF de haute qualité en images (pour OCR)

J'ai plusieurs PDF de faible qualité. J'aimerais utiliser OCR - pour être plus précis Ocropus pour obtenir du texte d'eux. Utilisation, j'utilise le premier ImageMagick - un outil de ligne de commande à Convertissez PDF en images - pour transformer ces PDF en JPG ou PNG.

Cependant, Imagemagick produit des images de très bonne qualité et Ocropus ne reconnaît à peine rien. J'aimerais apprendre quels sont les meilleurs paramètres permettant de manipuler des PDF de haute qualité pour fournir des images de qualité aussi bonnes que possible à OCR.

J'ai trouvé Cette page , mais je ne sais pas où commencer.


0 commentaires

3 Réponses :


5
votes

-Denseur 600 doit vous donner ce dont vous avez besoin.


0 commentaires

15
votes

Vous pouvez en apprendre davantage sur les "délégués" des paramètres détaillés ImageMagick (Programmes externes IM utilise, telle que Ghostscript) en tapant xxx pré>

(sur mon système qui est une liste de 32 commandes différentes.) Maintenant, pour voir quelles commandes sont utilisées pour convertir en PNG, utilisez ceci: p> xxx pré>

OK, ceci était pour Windows. Vous n'avez pas dit quel OS vous utilisez. [*] strong> Si vous êtes sous Linux, essayez ceci: p> xxx pré>

Vous découvrirez que la messagerie instantanée ne produit PNG uniquement à partir d'une entrée PS ou EPS. Alors, comment im obtient (e) ps de votre PDF? EASY: P>

gs \
  -sDEVICE=jpeg \
  -o output/page_%03d.jpeg \
  -r600 \
  -dJPEGQ=95 \
  /path/to/your/input.pdf


0 commentaires

0
votes

Au moins deux autres outils que vous voudrez peut-être envisager:

  • pdfimages , qui est livré avec l'emballage POPPLER-UTILS , il est facile d'extraire les images d'un PDF sans les dégrader.
  • pdfsandwich , qui peut vous donner un fichier OCR'D en exécutant simplement pdfsandwich entrementfile.pdf . Vous devrez peut-être modifier les options pour obtenir un résultat décent. Voir La page officielle pour plus d'informations.

0 commentaires