J'ai un site Web où les utilisateurs téléchargent des documents dans le format .doc et .pdf. J'utilise Sphinx pour effectuer des recherches de texte intégral sur ma base de données SQL (MySQL). Quelle est la meilleure façon d'indexer ces formats de fichiers avec Sphinx? P>
3 Réponses :
Malheureusement, Sphinx ne peut pas indexer ces types de fichiers directement. Vous aurez besoin d'importer le contenu textuel dans une base de données ou d'une base de données Format XML que Sphinx peut comprendre . P>
Recommanderiez-vous une méthode sur une autre?
Dépend de ce que vous utilisez la langue côté serveur. Si c'est des rubis / rails, je sais que toutes les bibliothèques ne prennent pas en charge XML de la boîte, sauf si vous construisez un système à partir de zéro (au lieu de, à l'aide d'ActiveCord). Donc j'utiliserais la base de données. Sinon, c'est complètement à vous. Si vous n'utilisez pas Ruby, consultez quelles bibliothèques sont là-bas pour votre langue de choix, voyez ce qu'ils peuvent / ne pouvez pas faire.
La méthode que j'utilise pour cela est pdf2text et anti-mots. J'utilise les deux pour jeter le contenu des documents PDFS et Word dans la base de données. De là, il est facile de ramper avec Sphinx. P>
Quelqu'un a-t-il utilisé TIKA pour indexer d'autres types de documents, un peu comme le plugin SOLR? Apache TIKA P>
Quelques liens: P>