7
votes

Comment couper-coller de PDF avec codage non ASCII?

J'ai des PDF et j'essaie de couper et de coller du texte, ils contiennent du lecteur Acrobat dans un formulaire HTML. Il semble que certains de ces fichiers utilisent (je soupçonnent) unicode pour le codage de texte, de sorte que lorsque j'essaie de coller dans le formulaire HTML (sur Firefox), je reçois les petites boîtes avec des caractères hexagonaux dans eux plutôt que du texte lisible. Le problème n'est pas que le PDF n'a pas été OCRED - lorsque j'essaie de le faire à Acrobat Pro, il est indiqué que le fichier contient déjà du texte. Y a-t-il un moyen de faire face à cela? Par exemple, je pourrais ajouter une sorte de JavaScript au formulaire qui ferait la conversion?


0 commentaires

9 Réponses :


2
votes

Il est tout à fait possible que le texte contienne des caractères qui se compriment correctement, mais votre navigateur est incapable de les afficher, faute de polices appropriées. Un document PDF peut contenir des polices embarquées. Donc Adobe Reader affiche les caractères OK, mais un navigateur manque d'accès à ces polices.

Vous pouvez vérifier si c'est la raison en essayant de copier et coller les caractères ici (cela pourrait être une information utile sur le problème de toute façon). Vous pouvez également télécharger et installer le polices de code200x , qui contiennent à peu près n'importe quel caractère que vous pouvez normalement attendre à rencontrer . (Il n'est pas garanti, mais probable que Firefox sera en mesure d'utiliser ces polices automatiquement en cas de besoin.)


1 commentaires

Essayé les polices, pas d'aide. De plus, lorsque j'ai collé les caractères dans et IDE (Komodo), il a déclaré que le codage par défaut CP-1252 n'était pas approprié et lorsque j'ai changé pour encoder sur Unicode, il est devenu heureux.



9
votes

Êtes-vous capable de coller du texte copié du fichier dans d'autres programmes tels que le bloc-notes ou le mot ou l'autre autre?

Certains fichiers PDF sont produits sans informations spéciales qui sont cruciales pour une extraction réussie de texte. Même par les outils Adobe. Fondamentalement, ces fichiers ne contiennent pas d'informations de mappage de glyph-caractères.

Ces fichiers seront affichés et imprimés simplement bien, mais le texte d'eux ne peut pas être correctement copié / extrait.

Par exemple, Distiller produit de tels fichiers lorsque le préréglage "la plus petite taille de fichier" est utilisé.


1 commentaires

Même résultat, peu importe où je le collez - Notepad, mot, etc. Je pense que vous avez peut-être que vous avez raison sur le fichier PDF. Si j'ouvre ce fichier à Acrobat Pro, copiez une partie de son texte, puis ouvrez une note collante et essayez de coller le texte, je reçois des cases au lieu de caractères. Donc, même Acrobat ne peut pas gérer ce texte.



5
votes

J'ai le même problème ... En effet, il est expliqué ici: http: //forums.Adobe. com / thread / 915012

Ma solution consistait à convertir le PDF en mot à l'aide de l'outil exportateur d'Acrobat, puis à extraire les informations dont j'avais besoin.

C'est frustrant mais cela fonctionne.

Une autre solution que je trouve est de convertir le PDF dans les images (JPEG, PNG, etc.), puis exécutez un processus OCR.


0 commentaires

0
votes

J'ai eu le même problème, mais je l'ai résolu en ouvrant le fichier PDF avec le navigateur Web (chrome dans mon cas). Copier et coller l'encodage non-ASCII fonctionne bien en chrome.


0 commentaires

2
votes
  1. Sélectionnez le texte dans Acrobat.
  2. Cliquez avec le bouton droit de la souris et sélectionnez "Copier en formater" dans le menu contextuel.
  3. Attendez que la barre de progression traite le texte.
  4. Coller dans le document Word.

0 commentaires

1
votes

Nous avons eu un problème similaire à essayer de copier / coller Cyrillics à partir d'un fichier PDF dans Excel.

La solution la plus facile que nous avons trouvée était d'ouvrir le fichier .pdf avec un navigateur (chrome, mozilla ou opéra) et copier / coller le texte dans Word, Excel.

Cela n'a pas fonctionné avec IE, comme prévu.


0 commentaires

0
votes

Vous pouvez exporter à partir d'Acrobat comme JPEG, puis ouvrez le JPEG à Acrobat (non lecteur) puis exécutez l'outil OCR. De là, vous devriez être capable de copier / coller.


0 commentaires

0
votes

J'utilise Nitro PDF. 1er j'ai créé des images à 600 dpi de PDF. Que j'ouvre l'image dans un nouveau fichier PDF. Ensuite, depuis l'onglet d'examen, j'ai utilisé l'option OCR. Qui m'a emmené dans un autre fichier PDF avec fichier PDF codé standard où je peux copier et coller du texte.


0 commentaires

1
votes

Si rien de ce qui précède ne fonctionne pour vous, car cela ne fonctionne pas pour moi, vous pouvez prendre une capture d'écran du PDF et l'ouvrir avec Google Lens (dans un téléphone Android), puis vous allez dans la section texte et AI Détecte le texte automatiquement et vous pouvez le copier si vous le souhaitez.


0 commentaires