J'ai un lien comme Je veux télécharger ceci, et analyser pour obtenir le contenu du texte. P> Comment puis-je y aller? Je prévois également de tag-ize (s'il y a un mot comme celui-ci) le texte extrait p> p>
3 Réponses :
Vous pouvez soit utiliser le gemme PDF-Reader (l'exemple d'exemple / texte.rb est simple et travaillé pour moi): https://github.com/yob/pdf-reader P>
ou l'utilitaire de ligne de commande pdftotext. p>
Est-ce qu'il y a comme un bon type de tutoriel sur elle? Je suis nouveau à ruby mais il suffit de copier l'exemple de code se sent mauvais pour moi
Je ne dirais pas que l'adaptation de son exemple est une mauvaise chose. Voici un tutoriel bien que cela puisse vous intéresser et explique les concepts un peu: pullmonkey.com/2010/01/18/Ruby-PDF-Reader-gem-Tutorial
the yomu gem sera également en mesure d'extraire le texte d'un fichier PDF (ainsi que d'autres mimaux Types) Pour vous.
require 'yomu' Yomu.new(file_path).text
J'ai essayé quelques gemmes et j'ai trouvé cela plus précis.
Vous pouvez également jeter un coup d'œil à DOCRIPPER , un gemme I maintenue, qui fournit une interface rubis Pour l'extraction de texte à partir d'un certain nombre de formats de documents, notamment PDF, DOC, DOCX et Sketch.
DOCRIPPER utilise PDFTOTEXT sous le capot et évite les dépendances Java. P>
require 'open-uri' require 'doc_ripper' tmp_file = open("some_uri") DocRipper::rip(tmp_file.path)
Salut. Pourriez-vous s'il vous plaît laissez-nous savoir la syntaxe pour utiliser DOCRIPPER avec le lien vers le chemin de fichier plutôt que sur un chemin de fichier local?
@Sagar Faites-vous référence à un chemin de fichier distant?
Oui!!! J'utilise le stockage Amazon S3 pour que je ne connaisse que les liens vers les fichiers.
@Sagar J'ai ajouté un exemple de la manière dont vous pourriez interagir avec un chemin distant. Vous devrez écrire le fichier sur le disque d'une certaine manière afin que Docripper puisse gratter le document.