8
votes

Quels sont les meilleurs paramètres pour exécuter ImageMagick pour convertir PDF de haute qualité en images (pour OCR)

J'ai plusieurs PDF de faible qualité. J'aimerais utiliser OCR - pour être plus précis Ocropus pour obtenir du texte d'eux. Utilisation, j'utilise le premier ImageMagick - un outil de ligne de commande à Convertissez PDF en images - pour transformer ces PDF en JPG ou PNG.

Cependant, Imagemagick produit des images de très bonne qualité et Ocropus ne reconnaît à peine rien. J'aimerais apprendre quels sont les meilleurs paramètres permettant de manipuler des PDF de haute qualité pour fournir des images de qualité aussi bonnes que possible à OCR.

J'ai trouvé Cette page , mais je ne sais pas où commencer.

linux pdf image-processing imagemagick ghostscript

0 commentaires

3 Réponses :

5
votes

-Denseur 600 doit vous donner ce dont vous avez besoin.



                                                                    
                                    
                                    
                                        0 commentaires


                        
                                            
                            
                                
                                    15
 votes
                                
                            
                            
                                
                                     Vous pouvez en apprendre davantage sur les "délégués" des paramètres détaillés ImageMagick (Programmes externes IM utilise, telle que Ghostscript) en tapant  xxx  pré> 
 (sur mon système qui est une liste de 32 commandes différentes.) Maintenant, pour voir quelles commandes sont utilisées pour convertir en PNG, utilisez ceci:  p>  xxx  pré> 
 OK, ceci était pour Windows. Vous n'avez pas dit quel OS vous utilisez.  [*]  strong> Si vous êtes sous Linux, essayez ceci:  p>  xxx  pré> 
 Vous découvrirez que la messagerie instantanée ne produit PNG uniquement à partir d'une entrée PS ou EPS. Alors, comment im obtient (e) ps de votre PDF? EASY:  P> 
gs \
  -sDEVICE=jpeg \
  -o output/page_%03d.jpeg \
  -r600 \
  -dJPEGQ=95 \
  /path/to/your/input.pdf

                                

                                                                    
                                    
                                    
                                        0 commentaires
                                        
                                                                                    
                                    
                                                            
                        
                        
                                            
                            
                                
                                    0
 votes
                                
                            
                            
                                
                                     Au moins deux autres outils que vous voudrez peut-être envisager: 


  pdfimages , qui est livré avec l'emballage  POPPLER-UTILS , il est facile d'extraire les images d'un PDF sans les dégrader. 
  pdfsandwich , qui peut vous donner un fichier OCR'D en exécutant simplement  pdfsandwich entrementfile.pdf . Vous devrez peut-être modifier les options pour obtenir un résultat décent. Voir  La page officielle  pour plus d'informations. 
                                


                                                                    
                                    
                                    
                                        0 commentaires


            
                
		    
                    Articles qui pourrait vous intéresser :
                                            
                            Délai d'expiration d'un script bash lorsqu'il n'y a pas de sortie pendant un certain temps                        
                        
                                            
                            Convertir des images Webp en PNG par la commande Linux                        
                        
                                            
                            Comment mettre à jour la dernière version de minikube?                        
                        
                                            
                            Est-il possible de désactiver le délai d'expiration sudo dans le shell actuel?