Pouvez-vous m'expliquer ce que les fichiers de mode Cube et Cube sont sur le moteur OCR Tesseract et quel est l'avantage de les utiliser? P>
Et comment puis-je former Tesseract for Greek pour avoir de meilleurs résultats? P>
3 Réponses :
Pour ceux qui pourraient être toujours intéressés. Sur le site Web de Tesseract, il existe des ensembles de données qualifiés standard pour différents fichiers. P>
https://code.google.com / p / tesseract-ocr / téléchargements / liste? Num = 100 & Démarrer = 100 P>
Procédure de formation est décrite ici (pour la version 3.01) P>
https://code.google.com/p/Tesseract-oc / wiki / apprentissageTesseract3 p>
Dans le cas de Cube, il y a un autre moteur par rapport à Tesseract. Il consomme plus de ressources, plus lent, mais donne de meilleurs résultats. p>
fichiers de données -Set de fichiers, qui devrait enfin conduire (être fusionné dans) dans un fichier de données formé. P>
Il existe une explication des différents fichiers de formation requis par le mode moteur Cube sur le projet Tesseract-OCR-Extradocs Wiki: P>
https://code.google.com/p/Tesséract- OCR-Extradocs / Wiki / Cube P>
Là, vous pouvez trouver des informations détaillées (mais incomplètes) sur la manière de créer les fichiers nécessaires à la formation en mode CUBE. Il existe également des informations sur le format de fichier de réseau de neurones qui pourraient être utiles: p>
https://code.google.com/p/Tesseract- OCR-Extradocs / wiki / nnfileformat P>
Le mode cube vous donnera souvent de meilleurs résultats de reconnaissance en utilisant des réseaux de neurones au lieu du classificateur adaptatif. P>
Je n'ai jamais créé des fichiers de formation de cubes seul, je ne peux donc pas vous donner des informations plus détaillées sur la création de ces fichiers. P>
Je ne suis pas complètement sûr du mode CUBE, mais avec Je recommanderais d'utiliser les modèles pré-formés disponibles sur le Tesseract Github Repo . Ils ont une grande variété de langues (et on dirait que le grec est également pris en charge!) P> li>
Je n'ai pas essayé cela moi-même, mais le wiki pertinent sur github A> semble solide. p> li>
ul>
- OEM 1 CODE> Vous pouvez activer le nouveau moteur LSTM et tirer parti des solutions suivantes: P>
Utilisez les modèles existants h2>
Train vous-même H2>
TL-dr h2>
git clone git@github.com: tesseract-ocr / tessdata.git code> li>
Ce n'est pas la réponse d'OP.