8
votes

Comment extraire le texte de DJVU et d'autres formats d'ebooks (éventuellement en python)

J'ai une collection de livres électroniques dans DJVU, PDF, format CHM et je cherche un moyen de rechercher le mot-clé dans le contenu. Je suis en train de rechercher autour de vous et trouvez une suggestion de couple pour analyser le contenu PDF, mais il semble y avoir aucun moyen de convertir le contenu de DJVU en texte. Par hasard, quelqu'un connaît-il un moyen de décoder le contenu DJVU en texte afin que je puisse la chercher facilement?

merci


0 commentaires

3 Réponses :


3
votes

python-djvulibre est un ensemble de liaisons de python sur DJVULIBRE Open Source Mise en œuvre de DJVU - Je n'ai pas essayé, mais il semble que cela réponde à vos besoins.


0 commentaires

1
votes

Certainement, le DJVULIBRE SDK permettra d'accéder à la couche de texte - s'il existe (tous les fichiers DJVU n'ont pas une couche de texte; beaucoup sont des images purement raster).

Une solution alternative peut être de baser votre index sur la technologie IIS. Caminova a un ifilter gratuit que vous pouvez utiliser pour cela.

[ http://dev.caminova.jp/beta/djvu -wic /] [1]


0 commentaires

8
votes

En supposant que les fichiers DJVU contiennent du texte OCR-ed, un moyen rapide sur Linux d'obtenir cela est d'utiliser Popen pour exécuter djvutxt et d'attraper la sortie.

Le texte dans un .DJVU est compressé avec un algorithme de compression djvu BZZ , pour laquelle aucune interface C simple existe que vous pouvez charger en tant qu'objet partagé dans Python . Il s'agit d'une implémentation C ++ basée sur certains framework.

SOLETO SOE SOCLOW STO-Promotion: j'ai contribué à calibre la conversion de l'OCR- ed .djvu , qui utilise djvutxt de cette manière. Cependant, il redevient à ma mise en œuvre python du décodeur (SLOOOOW) si djvutxt n'est pas disponible . Vous pouvez donc utiliser ce code si vous ne pouvez pas utiliser djvutxt .

Je n'ai pas encore publié la source de Python séparément du calibre. Mais après le téléchargement et l'extraction de la source de calibre: xxx

Les fichiers pertinents sont djvu_input.py , djvu.py et < code> djvubezzdec.py


0 commentaires