7
votes

Comment indice-je des documents à Solr?

im Running Solr 1.4 sur Ubuntu 10.04 (installé via APT-GET SOLR-TOMCAT) et cela semble fonctionner correctement. J'ai des difficultés à trouver des informations cohérentes sur la manière de indexer des documents. Je suis nouveau à Solr, alors supporte avec moi! J'ai un dossier (/ mnt / dossier) qui est un partage Windows monté, qui contient des fichiers Word et PDF que je voudrais indexé, quel est le moyen le plus simple d'obtenir Solr d'indexer tout le dossier?

La documentation pour Solr est assez médiocre, son incullebe de trouver des tutoriels décents sur l'obtention des choses avec elle afin que toute aide soit grandement appréciée!

full-text-search solr apache-tika solr-cell

0 commentaires

3 Réponses :

7
votes

Jetez un coup d'œil au Solr wiki , c'est une documentation assez approfondie.

En particulier Voir le ExtractSrequestHandler , qui vous permet d'indexer des fichiers binaires tels que des documents Word et PDF . Voici une introduction au sujet.

Si le wiki ne vous suffit pas, il y a aussi un Excellent livre sur Solr .

2 commentaires

Lucid Link ne fonctionne pas. La vidéo se trouve cependant sur YouTube. YouTube.com/...

La seule documentation que j'ai trouvée est vraiment utile est le PDF à Lucene.apache.org/ SOLR / RESOURCES.HTML # Documentation

0
votes

J'ai trouvé les mêmes défis avec la documentation principale, mais j'ai rencontré ce guide de référence très utile de Lucidimagination, ce qui a contribué à clarifier beaucoup de choses sur Solr:

http://docs.lucidworks.com/display/solr / Apache + SOLR + Référence + Guide

3 commentaires

Je pense que cela se substituerait à ce qui précède: Docs.LUCIDWORKS.COM/DISPLAY/ SOLR / APACHE + SOLR + Référence + Guide

@paranza qui est le même lien et cela ne va plus utile.

@CodeCode C'est le même lien car le message original a été édité dans le même temps que j'ai écrit ma réponse. Lucidworks a une référence solrienne pour Fusion Server ici: doc.lucidworks.com/fusion-server/4.2/solr-reference-Guide/7. 5.0 / ...

0
votes

Traitement des documents riches avec SOLR: http://wiki.apache.org/solr/updaterichdocumentsO/a >

1 commentaires

Oh, je viens de reconnaître que cette méthode a été remplacée par l'extracteurRequestHandler, comme Mauricio suggérées. (Citation de Solr Wiki: Cette page couvre le RichdocumentHandler comme créé par Eric Pugh et Chris Harris. L'intégration de Tika de Solr, qui remplacera le RichdocumentHandler est décrite à ExtractSrequestHandler. Cette page est préservée ici pour les utilisateurs qui utilisent actuellement le RichdocumentHandler )

Articles qui pourrait vous intéresser :
Le moyen le plus rapide de trouver et de remplacer une ligne spécifique dans un gros fichier texte avec Python
AWK recherche des enregistrements dans un fichier pour des entrées dans un autre fichier
SQL Server Recherche en texte intégral pour la correspondance exacte avec Fallback
Comment utiliser Elasticsearch sur Heroku