J'ai une collection de livres électroniques dans DJVU, PDF, format CHM et je cherche un moyen de rechercher le mot-clé dans le contenu. Je suis en train de rechercher autour de vous et trouvez une suggestion de couple pour analyser le contenu PDF, mais il semble y avoir aucun moyen de convertir le contenu de DJVU en texte. Par hasard, quelqu'un connaît-il un moyen de décoder le contenu DJVU en texte afin que je puisse la chercher facilement? P>
merci p>
3 Réponses :
python-djvulibre est un ensemble de liaisons de python sur DJVULIBRE Open Source Mise en œuvre de DJVU - Je n'ai pas essayé, mais il semble que cela réponde à vos besoins. p>
Certainement, le DJVULIBRE SDK permettra d'accéder à la couche de texte - s'il existe (tous les fichiers DJVU n'ont pas une couche de texte; beaucoup sont des images purement raster). P>
Une solution alternative peut être de baser votre index sur la technologie IIS. Caminova a un ifilter gratuit que vous pouvez utiliser pour cela. P>
En supposant que les fichiers DJVU contiennent du texte OCR-ed, un moyen rapide sur Linux d'obtenir cela est d'utiliser Popen pour exécuter Le texte dans un SOLETO SOE SOCLOW STO-Promotion: j'ai contribué à calibre la conversion de l'OCR- ed Je n'ai pas encore publié la source de Python séparément du calibre. Mais après le téléchargement et l'extraction de la source de calibre: p> Les fichiers pertinents sont djvutxt code> et d'attraper la sortie.
.DJVU code> est compressé avec un algorithme de compression code> djvu code> BZZ code>, pour laquelle aucune interface C simple existe que vous pouvez charger en tant qu'objet partagé dans Python . Il s'agit d'une implémentation C ++ basée sur certains framework. P>
.djvu code>, qui utilise
djvutxt code> de cette manière. Cependant, il redevient à ma mise en œuvre python du décodeur (SLOOOOW) si
djvutxt code> n'est pas disponible strong>. Vous pouvez donc utiliser ce code si vous ne pouvez pas utiliser
djvutxt code>. P>
djvu_input.py code>,
djvu.py code> et < code> djvubezzdec.py code> p> p>