10
votes

Extrait du texte de PDF (j'ai un lien vers PDF) dans Ruby

J'ai un lien comme xxx

Je veux télécharger ceci, et analyser pour obtenir le contenu du texte.

Comment puis-je y aller? Je prévois également de tag-ize (s'il y a un mot comme celui-ci) le texte extrait

pdf ruby

0 commentaires

3 Réponses :

19
votes

Vous pouvez soit utiliser le gemme PDF-Reader (l'exemple d'exemple / texte.rb est simple et travaillé pour moi): https://github.com/yob/pdf-reader

ou l'utilitaire de ligne de commande pdftotext.

2 commentaires

Est-ce qu'il y a comme un bon type de tutoriel sur elle? Je suis nouveau à ruby mais il suffit de copier l'exemple de code se sent mauvais pour moi

Je ne dirais pas que l'adaptation de son exemple est une mauvaise chose. Voici un tutoriel bien que cela puisse vous intéresser et explique les concepts un peu: pullmonkey.com/2010/01/18/Ruby-PDF-Reader-gem-Tutorial

4
votes

the yomu gem sera également en mesure d'extraire le texte d'un fichier PDF (ainsi que d'autres mimaux Types) Pour vous.

require 'yomu'
Yomu.new(file_path).text

1 commentaires

J'ai essayé quelques gemmes et j'ai trouvé cela plus précis.

0
votes

Vous pouvez également jeter un coup d'œil à DOCRIPPER , un gemme I maintenue, qui fournit une interface rubis Pour l'extraction de texte à partir d'un certain nombre de formats de documents, notamment PDF, DOC, DOCX et Sketch.

DOCRIPPER utilise PDFTOTEXT sous le capot et évite les dépendances Java. P>

require 'open-uri'
require 'doc_ripper'

tmp_file = open("some_uri")
DocRipper::rip(tmp_file.path)

4 commentaires

Salut. Pourriez-vous s'il vous plaît laissez-nous savoir la syntaxe pour utiliser DOCRIPPER avec le lien vers le chemin de fichier plutôt que sur un chemin de fichier local?

@Sagar Faites-vous référence à un chemin de fichier distant?

Oui!!! J'utilise le stockage Amazon S3 pour que je ne connaisse que les liens vers les fichiers.

@Sagar J'ai ajouté un exemple de la manière dont vous pourriez interagir avec un chemin distant. Vous devrez écrire le fichier sur le disque d'une certaine manière afin que Docripper puisse gratter le document.