Dominique Meeùs
Dernière modification le   
retour à la table des matières — à l’index — à ma page de départ

À travers gscan2pdf

L’application gscan2pdf sert à scanner des livres en PDF ou DjVu, et propose aussi (par défaut en collaborant avec Tesseract) d’y inclure une couche texte.

Si elle n’est pas encore dans les distributions, il vaut mieux installer le paquet Debian d’une version récente de gscan2pdf. Il peut y avoir des problèmes de dépendances. Dans Ubuntu, le mieux est d’ajouter à ses dépots le PPA https://launchpad.net/~jeffreyratcliffe/+archive/ppa (commande sudo add-apt-repository ppa:jeffreyratcliffe) et de faire une mise à jour dans les règles. Les versions récentes de gscan2pdf reconnaissent Tesseract 3 et ses fichiers de langue.

Pour transformer tout ou partie d’un livre en PDF ou Djvu avec layer texte (en PDF, ce n’est pas une couche à strictement parler), c’est assez bon. Cependant le texte reconnu est positionné de manière parfois surprenante : en copiant pour coller dans un éditeur de texte, on peut avoir, plutôt que des lignes de texte, une suite de mots séparés en désordre. Si on veut seulement récupérer un passage du texte comme texte pour l’éditer ou le publier ailleurs, la voie xsane2tess.pl est plus indiquée.

Dominique Meeùs . Date: 2011… 2016