Dominique Meeùs
Dernière modification le   
retour à la table des matières — à l’index — à ma page de départ

À travers OCRFeeder

OCRFeeder peut aussi scanner un texte, ou l’importer en divers formats d’image, dont les PDF, pour en faire l’analyse et appeler Tesseract pour la reconnaissance de caractères. Cela semble plus avancé que gImageReader.

OCRFeeder présente divers avantages, comme de gérer un document de plusieurs pages (PDF importé par exemple) et de reconnaître toutes les pages en une seule opération ; d’exporter le résultat dans divers formats, en supprimant les fins de ligne en dur et les traits de césure (pas toujours), ce qui est extrêmement intéressant si on veut travailler le texte. Pour exporter en PDF avec le texte, il ne faut pas demander la suppression des fins de ligne en dur et des traits de césure, parce que ça change la position. (Chaque alinéa est une ligne, qui dépasse le PDF et qui est tronquée.) Sans cette option, on a dans le PDF le texte avec les retours de ligne, complet mais pas très bien positionné. (Tout le texte est présent, mais pas bien superposé à l'image du texte, ce qui est difficile pour copier et coller moins qu'une page entière. En sélectionnant, le texte apparaît clairement ; on pourrait au jugé trouver le texte qu'on cherche.) Un point positif, c'est qu'on a un PDF de qualité mais dans un fichier très léger. C'est une supériorité sur la voie xSane vers le PDF avec texte. Par contre, la sauvegarde en Open Document Format (extension .odt) se fait dans un cadre pour chaque zone reconnue dans la page, avec des tailles de caractères parfois surprenantes, ce qui peut être vraiment un obstacle à l’utilisation pratique du document.

Dans un travail multipage, il arrive que le programme échoue dans la reconnaissance d’une page par Tesseract. Il annonce la reconnaissance de chaque page, ce qui prend une bonne dizaine de secondes. Si un page ne prend qu’une seconde, c’est que la reconnaissance est ratée — et de fait on ne trouvera rien comme texte pour cette page en parcourant les pages. Il en résulte qu’il ne peut par enregistrer le document. Une solution peut être d’effacer l’image de la page litigieuse pour pouvoir enregistrer quand même. On peut traiter cette page par ailleurs en ligne de commande et remettre ensuite le texte à sa place.

On évite sans doute certains bugs en utilisant la version la plus récente. Pour Ubuntu cela se fait par sudo add-apt-repository ppa:ferramroberto/lffl avant d’installer.

Dominique Meeùs . Date: 2011… 2016