10
votes

Indexation des documents Word et des PDF avec Sphinx

J'ai un site Web où les utilisateurs téléchargent des documents dans le format .doc et .pdf. J'utilise Sphinx pour effectuer des recherches de texte intégral sur ma base de données SQL (MySQL). Quelle est la meilleure façon d'indexer ces formats de fichiers avec Sphinx?


0 commentaires

3 Réponses :


6
votes

Malheureusement, Sphinx ne peut pas indexer ces types de fichiers directement. Vous aurez besoin d'importer le contenu textuel dans une base de données ou d'une base de données Format XML que Sphinx peut comprendre .


2 commentaires

Recommanderiez-vous une méthode sur une autre?


Dépend de ce que vous utilisez la langue côté serveur. Si c'est des rubis / rails, je sais que toutes les bibliothèques ne prennent pas en charge XML de la boîte, sauf si vous construisez un système à partir de zéro (au lieu de, à l'aide d'ActiveCord). Donc j'utiliserais la base de données. Sinon, c'est complètement à vous. Si vous n'utilisez pas Ruby, consultez quelles bibliothèques sont là-bas pour votre langue de choix, voyez ce qu'ils peuvent / ne pouvez pas faire.



9
votes

La méthode que j'utilise pour cela est pdf2text et anti-mots. J'utilise les deux pour jeter le contenu des documents PDFS et Word dans la base de données. De là, il est facile de ramper avec Sphinx.


0 commentaires

1
votes

Quelqu'un a-t-il utilisé TIKA pour indexer d'autres types de documents, un peu comme le plugin SOLR? Apache TIKA

Quelques liens:

  1. pdf2text est dans la touche de fenêlage ou de pogopleur sur Linux
  2. antiwwotes - semble être pour l'ancien .doc, pas plus récent .docx

0 commentaires