0
votes

Acrobat Reader Obtenez une erreur lors de la lecture du document, il pourrait être corrompu et ne peut pas être réparé.

Je ne peux pas ouvrir Ce fichier PDF sur Acrobat Reader Il me dit une erreur (en français) sans erreur de code. Comment puis-je obtenir plus d'informations sur l'alerte d'erreur lorsque OPNE PDF Fichier dans Acrobat Reader, y a-t-il un raccourci pour afficher plus d'informations sur l'erreur car actuellement, il ne dis que en français:

"Erreur survenue du document de lecture, il pourrait être corropéré et ne peut pas être réparé "
dans chrome pdf Viewer i peut ouvrir cette erreur-original.pdf
ps: voici une autre OK-Original.pdf qui fonctionne lors de l'ouverture avec Acrobat Reader.
IM sur Windows10, Acrobat Reader Version: 19.10. 20098.316574
Je ne peux pas expliquer pourquoi mon fichier erreur-original-original est corrompu peut-être après une manipulation avec PDFBox mais ne peut pas reproduire. Ma question est de savoir comment obtenir plus d'informations d'erreur sur cette erreur.
Mise à jour # 1 (Plus d'infos)
Voici le code que j'utilise pour préparer / manipuler mon original.pdf Ce code fait 4 choses: 1. Définissez partielName d'un champ (identique à la valeur actuelle de champ) 2. Supprimer tous les liens dans les pages 3. Retirez le champ avec Vide || Valeur vierge 4. Compresse temporaire pour essayer de gagner un octet par hasard en utilisant la méthode @mkl optimisafermerge.java xxx
méthode utilisée:

RemovelinksInpages (...)
Removefield (...)
nb Je ne peux pas confirmer que ce code publie toujours le fichier corrected car il ne sera pas, mais parfois si je ouvre un fichier avec Acrobat Reader, il ne peut pas être lu.
(Message à @mkl: Croyez-moi, je ne dis pas L'un de votre mode de votre méthode dossier ici et je suis conscient de cette compression pour que votre fichier fusionné ne vous inquiétez pas, je fais certainement une mauvaise manière et essayer de trouver un problème, merci de comprendre)
Mise à jour # 2 ( Résultat étrange)
Je rencontre une chose étrange: juste en exécutant ce code PDFBox sur L'erreur de fichier corrompue ci-dessus - original.pdf : xxx
Acrobat lecteur est capable d'ouvrir la sortie (fichier PDF intacte) mais lorsque vous faites défiler Acrobat Reader Obtenez une autre erreur: "Cette page a une erreur, Acrobat Reader ne peut pas afficher cette page. Contactez PDF Auteur à résoudre le problème" et lorsque je ferme l'erreur-alerte-popup, je peux continuer à faire défiler et lire mon PDF. Vous pouvez essayer d'ouvrir avec Acrobat Reader Ceci Erreur-on-Scroll.pdf
ps: message à @AcrobaTreader: Le problème est que je suis un auteur PDF et je ne sais pas comment résoudre (blague)
@kens pouvez-vous donner une entrée avec ceci , il semble que l'erreur soit sur la page2

pdf acrobat pdfbox

5 commentaires

a) Veuillez partager le fichier PDF d'origine. B) En outre, vous dites que le code n'endommage parfois que le PDF. Cela signifie généralement qu'il existe un autre facteur externe que vous n'avez pas identifié. Par exemple. Avez-vous parfois toujours l'ouverture du fichier dans un autre programme lors de l'exécution du code?

c) Cette une chose étrange n'est pas si étrange après tout: PDFBox pendant la charge du document s'inscrit dans un problème similaire que Adobe Reader, mais tente ensuite de lire le fichier dans un de manière différente, ignorer les flux de référence croisés mais rechercher des objets à la place. Lors de la sauvegarde, cela le fait correctement jusqu'à ce que les positions de démarrage XREF sont concernées. Ainsi, Adobe Reader peut charger la sortie. Malheureusement, cependant, suffisamment d'autres choses sont endommagées dans le fichier pour que Adobe Reader s'exécute dans différentes erreurs plus tard.

A) Le fichier de travail est répertorié ci-dessus ici, vous êtes OK-Original.PDF B) Vous avez raison, je ne peux pas identifier le problème de reproduire et de comprendre pourquoi dans mon dossier lorsque je ouvre le fichier, je rencontre une erreur. Et je pense qu'aucun fichier n'était pas ouvert parce que quand je l'ouvre, je ne peux pas faire pddocument.save () au même nom de fichier (en remplaçant parce que le fichier est ouvert)

Le flux de contenu pour la page 2 de l'erreur-Scroll-acrobatrareader.pdf a un jeton 7.3RCE77. Ce n'est pas un numéro valide, ce n'est pas un nom, et ce n'est pas un opérateur PDF, les consommateurs PDF ignoreront-le probablement et espérons que rien ne se casse. J'imagine que c'est ce que Acrobat se plaint. Il existe également un objet de décompression d'erreur de zlib 70 dans le fichier. (Distance non valide, trop loin) Remarque; C'est le flux de contenu compressé Flate pour la page 2, c'est donc probablement associé. Si je vous comprends correctement, je suis d'accord avec MKL, la modification d'un fichier cassé va simplement aggraver.

abeille: ah, ok-original.pdf est le fichier que vous avez commencé? D'accord. Néanmoins, en tant que corollaire de la réponse de @ Kens, il est clair que (au moins les pires) dommages arrivés après Le fichier avait été traité par PDFBox et par Adobe Acrobat . Je vais expliquer dans une réponse (cela ne convient pas à des commentaires) mais vous pouvez commencer à examiner votre configuration des processeurs PDF qui gèlent le PDF après PDFBOX et Adobe Acrobat.

3 Réponses :

1
votes

Lorsque Acrobat affiche une erreur, vous pouvez essayer de maintenir la touche de commande (sous Windows) tout en cliquant sur le bouton 'OK'. Cela vous donne parfois plus d'informations.
Dans ce cas, ce n'est pas le cas. Le fichier est mal cassé. Il a été édité au moins deux fois et les modifications ont-elles cherché le fichier au-delà de la réparation simple. Le fichier contient: xxx
qui doit pointer vers le début de la table XREF (qui contient le décalage dans le fichier de tous les objets). Au lieu de cela, les points de décalage de fichier à: xxx
faisant partie de la voie à travers le flux de référence croisé. Le dictionnaire de la remorque contient une entrée / prev prev qui doit indiquer à nouveau à la précédente Xref, à nouveau, il pointe de faire partie de la dictioanerie pour le flux XREF. Correction de cela, il pointe ensuite d'un dictionnaire de remorques qui, encore une fois, a une entrée / prev, incorrecte.
Tout ce que vous utilisez pour éditer ce fichier, il continue de le casser de la même manière.
Je peux corriger ces décalages, ce qui permet au Ghostscript d'ouvrir et de lire le fichier (MUPDF est capable de réparer même le fichier d'origine). Il se plaint toujours que le Xref est invalide et tente une réparation. Pendant la réparation, il trouve que certains objets PDF ont le même numéro d'objet et le même numéro de génération, ce qui ne devrait pas être le cas.
Comme Acrobat n'ouvrira pas le fichier réparé, il s'agit peut-être que c'est ce que c'est ce que c'est ce que c'est ce que c'est ce que c'est se plaint aussi bien. Il semble que les deux fois que le fichier a été modifié, il a inclus de nouvelles définitions d'objets 4, 5 et 10, mais n'a pas incrémenté leurs numéros de génération les laissant à 0, et donc des duplicats les uns des autres.
Fondamentalement , si Acrobat n'ouvre pas votre fichier, vous devez le considérer comme totalement cassé.

4 commentaires

Merci pour Anwser, cela me semble un peu technique. Comment analysez-vous ce PDF pour obtenir ces infos? Je veux comprendre ce qui se passe mais me semble hors de portée, je ne peux même pas dire comment j'ai produit ce fichier. J'ai essayé d'éditer OK-Original.pdf dans Acrobat Reader (valeur de champ udpating, puis redoublement / remplacez) cela fonctionne toujours.

J'ai utilisé un certain nombre d'outils différents, et j'ai également ouvert le fichier PDF dans un éditeur hexadécimal et j'ai examiné le contenu, calculant les correctifs corrects des valeurs / prev et StartXref en regardant les valeurs hexagonales des décalages dans le fichier. Compte tenu de suffisamment de familiarité avec la spécification PDF sa fastidieuse mais pas difficile à déterminer ce que sont les problèmes. Depuis que vous dites que vous utilisez PDFbox, vous devez probablement signaler les problèmes.

J'ai mis à jour ma question si vous pouvez vérifier s'il vous plaît ... J'ai également taqui ma question avec "PDFBox", conseillez-vous de supprimer les étiquettes PDF et Acrobat et laissez simplement PDFBox ici?

Je laisserais toutes les tags, ils semblent tous raisonnables pour moi

0
votes

un corollaire à Réponse de Ken ...
Il existe trois révisions dans votre fichier (c'est-à-dire votre fichier disposant d'une version initiale et de deux mises à jour incrémentielles). Lorsque votre code PDFBOX enregistre uniquement un fichier complètement nouveau, n'utilisez pas de mise à jour incrémentielle, le résultat final de votre code PDFBox est déjà dans cette première révision.
En outre, votre fichier d'origine "OK-Original.PDF" est enregistré à l'aide de tables de référence croisée, tandis que toutes les révisions de votre fichier de résultat utilisent uniquement des flux de référence croisés.
Comme votre code PDFBox enregistre des fichiers à l'aide de la même technique de références croisées, car elle les a chargées (PDFBox Par défaut), cela implique que même la première révision n'est pas la sortie immédiate de PDFBox, mais que la sortie est chargée et stockée par une autre programme, probablement Adobe Acrobat, qui a commuté la technique.
Ainsi, vous ne voyez plus la sortie PDFBox exacte, pas même dans la révision initiale, mais seulement ce que le programme suivant en est fait. Donc, en particulier PDFBox n'est pas responsable de la construction des compensations croisées des références croisées dans les flux de référence croisée et non pour le décalage de ces flux de référence croisée elles-mêmes.
Alors que Kens a déjà expliqué dans sa réponse, les décalages des objets de flux de référence croisé dans startxref et prev sont trop volumineux; Plus précisément, ils sont trop grands avant 116 pour la révision initiale, de 122 pour le second, et de 131 pour la dernière, le PDF complet.
PDFBOX (voir ci-dessus) n'a pas créé ces flux de référence croisée, sans parler de leurs valeurs de décalage. Ainsi, votre code PDFBox n'est pas responsable des mauvais décalages!
Si Adobe Acrobat est le programme qui a généré ces trois révisions, je doute également que Adobe Acrobat ait causé les mauvais compensations.
Pour moi, il semble que le fichier a été copié ou transféré par certains programmes ou via un canal qui a chuté certains octets du fichier, 116 octets dans la première révision, 6 octets dans la seconde et 9 octets au troisième .
(cette chute peut également être arrivée à la suite d'une fusion de plusieurs octets en moins de ...)

8 commentaires

Voulez-vous que j'accepte votre réponse? Parce que même si c'est trop technique pour moi, cela ne signifie pas que vous et les kens nous a mal. Au fait de comprendre le concept comme la révision, les versions, la mise à jour incrémentielle, la table de référence croisée, les flux et les compensations; SRATTXRef et Précédent ... Quelles sont vos recommandations MKL et @kens d'apprendre cela? Avez-vous s'il vous plaît une bonne vidéo de Ressources? Didacticiel? Geeting a commencé? Je préfère éviter de commencer par la spécification PDF Doc qui n'est pas facile à démarrer. Serait génial de trouver un didacticiel pdf-sous-the-hopping ^^ excuser mon ignorance et merci de l'aide

Vous pouvez accepter l'un ou l'autre des kens la première analyse, j'ai fait l'interprétation pour vous. À propos, avez-vous déterminé quel morceau de logiciel a finalement endommagé vos fichiers?

Je n'ai pas fait et je ne peux pas reproduire ce que je peux dire que j'utilise PDFbox, Acrobat Reader DC (remplaçant / enregistrement après la valeur de champ de mise à jour) En plus de cela, j'utilise les champs de déverrouillage PDFescape (WebApp gratuits) et déplacez le redimensionner Modifier PartalName puis télécharger le fichier. C'est un scénario complet, j'utilise pour manipuler cet original.pdf avec. Aimerait trouver une erreur ou la reproduire. En passant, après avoir lu des choses sur Wikipedia, je comprends qu'il n'y a pas de parcours vidéo pour apprendre la structure PDF Indepth Le seul exist est la spécification PDF sur l'ISO? Damage je ne peux pas trouver sur le Web autre tutoriel facilement comme Java Apprentissage

@bee concernant des tutoriels ... il y en a ici et là sur le Web. Par exemple. Les sont certains dans les blogs des solutions IDR ici . Bien comprendre les internes, cependant, vous devrez étudier la spécification PDF plus un certain nombre d'autres spécifications référencées.

@bee ah, l'indice principal actuel des tutoriels PDF IDR Solutions est Ce . lien indiqué ci-dessus < / a> est seulement le paragraphe "bugs, gotchas et astuces" ...

Merci beaucoup de choses vérifieront dès que possible. Je viens de commencer par PDF-Tools Whitepapers surtout Commençant par ce démarrage wagawer et considérera vos liens merci

Il y a aussi quelques bons articles sur PDF par "Raul", comme celui-ci: Edwardsnowden.com/docs/doc/...

J'accepterais cette réponse, pas la mienne. Il y a des tonnes plus d'informations ici, ainsi que les notes très utiles sur le comportement de PDFBox et pourquoi il ne peut pas avoir causé les problèmes.

0
votes

Peut-être Error-original.pdf pdf a / prev en plus de ok-original.pdf
mais j'ai reproduit et trouver une solution: Problème ici est git, dans mon projet lors de l'obtention de fichier de la télécommande, cela semble traiter le fichier PDF comme le texte binaire. Après simplement ajouter un fichier .gitattributes avec contenu *. PDF binaire résoudre le problème. Afin de reprendre:
auteur PDF (sur sa machine locale) a du pdf travaillant. pdf authère commit + poussez à distance. Un autre utilisateur Tirez les modifications de la télécommande et essayez d'ouvrir PDF: il aboutit à "Fichier corrompu". Ajout de .gittattributes au niveau de la solution de niveau .gitignore. PS: Mais toutes choses @mkl et Kens ont dit ci-dessus rester correct aussi.
0 commentaires

Articles qui pourrait vous intéresser : Comment puis-je faire pivoter, réorganiser arbitrairement des pages PDF, etc. en Python? Erreur lors de la tentative d'extraction du texte d'un fichier pdf à l'aide de pdfminer.six MVC Net Core 3.1: outil pour créer et télécharger un fichier PDF Python - Comment combiner deux pages pdf en une seule page