Dominique Meeùs
Dernière modification le   
retour à la table des matières — à l’index — à ma page de départ

Tesseract par PDFsandwich

J’ai fait l’expérience de scanner des images de texte, de reconnaître les caractères avec Tesseract, avec leur position notée en hOCR, de fusionner les images et les textes positionnés dans un PDF avec hocr2pdf, non sans problèmes. Le logiciel PDFsandwich fait tout tout seul au départ d’un PDF. Ayant un PDF multipage de texte photo (sans couche texte, où ne peut ni chercher, ni copier pour coller comme texte), PDFsandwich donne la même chose avec la couche texte en plus (pour laquelle il fait appel à Tesseract).

Le PDF n’est pas un format simple. Le document a différentes dimensions : la résolution, la taille de papier… qu’il faut gérer avec prudence. Avec la commande hocr2pdf, j’ai eu un positionnement du texte tout à fait incorrect. Il semble que le créateur de PDFsandwich a mieux compris les pièges du dimensionnement et du positionnement dans un PDF.

PDFsandwich prépare le PDF, il redresse l’image pour faire la reconnaissance sur des lignes bien horizontales, il la nettoie, et cetera. On peut déactiver certains traitements où les limiter par des options choisies. Dans la mesure où Tesseract fait plus, PDFsandwich en fait moins, en particulier avec Tesseract ≥ 3.03. Mon expérience se limite à PDFsandwich 0.1.6 et Tesseract 3.03, sans aucune option sauf la langue. Avec la commande pdfsandwich -lang fra photodetexte.pdf, j’ai obtenu un fichier photodetexte_ocr.pdf avec couche texte ajoutée. À partir d’un document de 90 pages scannées en 300 dpi dans un fichier PDF qui faisait près de 50 Mo, j’ai obtenu, avec texte incorporé, un PDF de moins de 12 Mo. Scanner à 300 dpi est excessif pour l’imprimante et plus encore pour l’écran, mais condition sine qua non de l’OCR. Après la reconnaissance, PDFsandwich optimise donc le PDF pour un usage normal.

Il ne faut pas se méprendre au petit numéro de version (0.1.6). Selon l’expérience limitée que j’en ai, c’est un logiciel très avancé. (Dans le changelog, on parle de versions antérieures prudemment numérotées 0.0.5, 0.0.9…) Je ne l’ai pas trouvé en dépôt Debian ou Ubuntu qu’on puisse ajouter à sa liste de dépôts, mais on en trouve un paquet .deb qui s’installe sans problème.

Dominique Meeùs . Date: 2011… 2017