8
votes

Extraire tout de pdf

Recherche de solution pour extraire le contenu d'un fichier PDF (à l'aide de l'outil de console ou d'une bibliothèque).

Il sera utilisé sur le serveur pour produire des livres électroniques en ligne à partir de fichiers PDF téléchargés.

besoin d'extraire les choses suivantes:

  1. texte avec des polices et des styles;
  2. images;
  3. Audio et vidéo;
  4. liens et points chauds.
  5. instantanés et vignettes de page;
  6. Informations générales PDF, par exemple Mises en page, nombre de pages, etc.

    En regardant la bibliothèque Adobe PDF (5 000 $), BCL SDK (?), Pdffib (795 €), QuickPDF (250 $)

    Nous utilisons maintenant PDF2XML open source (extraire du texte, des images et des liens) et Ghostscript (instantanés et vignettes). Les autres choses sont laissées sont:

    1. Polices;
    2. multimédia;
    3. points chauds;
    4. Info de la page.

      Nous hésitons entre payer beaucoup d'argent (et éventuellement faire une erreur de choisir une solution erronée) ou utiliser des solutions gratuites / open source.

      Quelle meilleure solution pour extraire presque tout de PDF recommanderiez-vous?

      Tous les commentaires seront très appréciés.


0 commentaires

5 Réponses :


1
votes

a: polices: je ne pense pas que les polices puissent être extraites.

B: Pas sûr de Multimédia

C: Quels sont les hotspots?

D: jetez un coup d'œil à iTextShaarp (open source), vous pourrez peut-être extraire plus d'informations de page.


3 commentaires

> A: Font: Je ne pense pas que les polices puissent être extraites. Nous avons besoin de noms de polices appropriés au moins pour utiliser des polices système. > B: Je ne sais pas que le multimédia multimédia est dans les objets d'annotation au format PDF tel que je sais, la solution devrait donc être capable de les introduire dans le PDF à extraire correctement? > C: Quels sont les hotspots? Hotspot est une sorte de liaison rectangulaire par exemple sur une partie de l'image. > Jetez un coup d'œil à iTEXTSHARP (open source), vous pourrez peut-être extraire plus d'informations de page. Merci, je vais essayer.


Il me semble que ITEXT est destiné à générer des fichiers PDF non destinés à l'extraction de leur contenu. N'est-ce pas?


Oui, c'est principalement pour générer des fichiers PDF, il suffit de penser que vous pourrez peut-être extraire des informations, comme le nombre de pages, des tailles de page et éventuellement des informations? Regardez également TallComponents.com Ils ont également des outils décents.



5
votes

On dirait que quelques jours ou quelques semaines d'effort, vous pouvez adapter les outils open source à vos besoins. Les polices et tout peuvent certainement être extraites, c'est quelque chose que chaque lecteur PDF doit faire toute façon pour les afficher.

Vous devriez probablement prendre une estimation des coûts de programmation ($ / hR) et le multiplier par le temps estimé qu'il faudrait pour ajouter la fonctionnalité open source nécessaire (60-80 heures?). Si cela est plus grand ou près de 5 000 $ de toute façon, vous pourriez envisager d'acheter le logiciel commercial.

Sinon, avec l'aide de la (assez bonne) Référence PDF , Vous devriez être bien sur votre chemin.

Une dernière chose, vous pouvez trouver Puffpler pour être utile. C'est pour rendre pdf, mais c'est très lié à ce que vous essayez de faire.


2 commentaires

Difficulté ici est que même le SDK commercial nécessitera des efforts de programmation. Au résumé de leurs caractéristiques, tout a fière allure, mais à la recherche d'échantillons, il est toujours difficile comment extraire par exemple une vidéo vers un fichier externe, ils viennent de jeter des informations sur l'annotation (parlant de PDffib PCOS).


Oui, vous devrez prendre en compte cela au coût.



0
votes

Oui, vous pouvez extraire les textes, les informations de style de texte, les images, les annotations de liens, les signets et même vous pouvez obtenir les informations de paragraphe, à l'exception des tables. Vérifiez ce lien.

http://www.pdftron.com/pdfnet/index.html < / p>

Cela fonctionne vraiment bien.


1 commentaires

@Ms - Qu'en est-il des vidéos?



0
votes

tika http://tika.apache.org/ son avantage est d'extraire le texte des multi-types. Mais cela peut également résoudre votre problème aussi.

pour la mise en œuvre: Le but de TIKA est de réutiliser des bibliothèques d'analyseurs existantes telles que PDFBox ou POI Apache autant que possible, et la plupart des classes d'analyses dans TIKA sont des adaptateurs à de telles bibliothèques externes.

Je pense que TIKA peut fonctionner comme vous le décrivez. Extraire des choses avec des catesgènes. (Ajoutera plus de code plus tard.)


Pas encore une réponse exacte.


0 commentaires

1
votes

Il y a aussi PDF Suite contenant 3 SDK spécialement conçus pour extraire le contenu De PDF, rendu pdf en tant qu'image et convertir en HTML. Bien qu'aucune extraction de fichiers de police ne supporte que la sortie XML et l'extraction de texte préservant la disposition d'origine.

Il y a un "PDF MultiTool" utilitaire libre qui est basé sur ce moteur afin Vous jouez avec cela pour voir comment cela fonctionne pour les fichiers PDF que vous avez.

Disclaimer: je travaille pour ByTescout


12 commentaires

Peut-il être utilisé pour extraire des fichiers vidéo de PDFS qui les ont? Comment?


Il est déjà dans le travail pour la prochaine version, il sera en mesure d'extraire la vidéo aussi


J'avais envoyé un courrier électronique au support technique de votre entreprise et je n'ai pas entendu retour. S'il vous plaît laissez-nous savoir quand une extraction vidéo est ajoutée à l'utilitaire de PDF multi-outils multi-outils.


@ALEXS Vérifiez si vous avez reçu la notification après la demande, tous les billets sont traités par TechSupport Panel avec des notifications par courrier électronique automobile sur la mise à jour de l'état (billet reçue, en attente, en attente, résolue, etc.)


Oui. J'ai eu une mise à jour qui dit qu'ils l'ont transmise et que je devrais m'attendre à une réponse en x jours. Rien pour le moment.


@Alexs Veuillez vérifier votre email pour la version mise à jour avec support vidéo


Eugene - La version mise à jour est là maintenant sur le site Web ou dans mon email uniquement?


Eugene, toute la discussion ici et sur Stackexchange est sur "PDF Multi Tool", pas sur la programmation à l'aide d'un SDK. J'aimerais utiliser PDF Multi Tool (comme suggéré sur votre réponse SE) pour extraire des vidéos, de la même manière qu'il permet une extraction d'autres choses. Si PDF Multi Tool n'est pas mis à jour pour l'extraction vidéo, il est incomplet en tant que solution d'échantillon et nous ne pouvons pas le tester. Merci


@ALEXS OH, bien sûr, BYTESCout PDF MultiTool 6.20.2354 et plus tard a également été mis à jour quelques jours seulement sur le site Web, il est capable d'extraire vidéo et audio (Utiliser l'extraction de données - multimédia embarqué dans le menu). Vous pouvez le télécharger à partir de byTescout.com/products/pdfmultool/index.html


Testé-le. Mieux. Mais cela n'autorise pas l'extraction individuelle de la vidéo mais en vrac / lot. Et quand il le fait, il renomme toutes les vidéos intégrées d'origine comme video1.avi, video2.avi, etc. Pouvez-vous ajouter une option pour laisser le nom du fichier multimédia d'origine {INSIDE PDF} - Les originaux étaient NAMP.MP4, UNNERNAME.FLV. .


De plus, être capable de sélectionner et d'extraire des vidéos à partir de pages de Multi Tool aura un sens.


@Alexs Merci pour des suggestions! Je vais enregistrer ces demandes à mettre en œuvre dans les versions suivantes de l'utilitaire!