6
votes

Tesseract OCR Engine Cube Mode - Training Tesseract

Pouvez-vous m'expliquer ce que les fichiers de mode Cube et Cube sont sur le moteur OCR Tesseract et quel est l'avantage de les utiliser?

Et comment puis-je former Tesseract for Greek pour avoir de meilleurs résultats?

ocr tesseract cube

0 commentaires

3 Réponses :

6
votes

Pour ceux qui pourraient être toujours intéressés. Sur le site Web de Tesseract, il existe des ensembles de données qualifiés standard pour différents fichiers.

https://code.google.com / p / tesseract-ocr / téléchargements / liste? Num = 100 & Démarrer = 100

Procédure de formation est décrite ici (pour la version 3.01)

https://code.google.com/p/Tesseract-oc / wiki / apprentissageTesseract3

Dans le cas de Cube, il y a un autre moteur par rapport à Tesseract. Il consomme plus de ressources, plus lent, mais donne de meilleurs résultats.

fichiers de données -Set de fichiers, qui devrait enfin conduire (être fusionné dans) dans un fichier de données formé.

0 commentaires

3
votes

Il existe une explication des différents fichiers de formation requis par le mode moteur Cube sur le projet Tesseract-OCR-Extradocs Wiki:

https://code.google.com/p/Tesséract- OCR-Extradocs / Wiki / Cube

Là, vous pouvez trouver des informations détaillées (mais incomplètes) sur la manière de créer les fichiers nécessaires à la formation en mode CUBE. Il existe également des informations sur le format de fichier de réseau de neurones qui pourraient être utiles:

https://code.google.com/p/Tesseract- OCR-Extradocs / wiki / nnfileformat

Le mode cube vous donnera souvent de meilleurs résultats de reconnaissance en utilisant des réseaux de neurones au lieu du classificateur adaptatif.

Je n'ai jamais créé des fichiers de formation de cubes seul, je ne peux donc pas vous donner des informations plus détaillées sur la création de ces fichiers.

0 commentaires

2
votes

pour Tesseract 4+ (avec LSTM)
Je ne suis pas complètement sûr du mode CUBE, mais avec `- OEM 1 Vous pouvez activer le nouveau moteur LSTM et tirer parti des solutions suivantes:`
Utilisez les modèles existants Je recommanderais d'utiliser les modèles pré-formés disponibles sur le Tesseract Github Repo . Ils ont une grande variété de langues (et on dirait que le grec est également pris en charge!) Train vous-même Je n'ai pas essayé cela moi-même, mais le wiki pertinent sur github semble solide. TL-dr git clone git@github.com: tesseract-ocr / tessdata.git Sélectionnez le fichier de langue que vous souhaitez Déplacez-le dans le répertoire TessData de votre projet



                                                                    
                                    
                                    
                                        1 commentaires
                                        
                                                                                            
                                                    Ce n'est pas la réponse d'OP.


            
                
		    
                    Articles qui pourrait vous intéresser :
                                            
                            Meilleures pratiques pour affiner un modèle?                        
                        
                                            
                            Extraction d'une valeur associée à un texte particulier d'une image                        
                        
                                            
                            Comment extraire et reconnaître le numéro de plaque du véhicule avec Python?                        
                        
                                            
                            Comment détecter et faire pivoter des images en python