Dominique Meeùs
Dernière modification le   
retour à la table des matières — à l’index — à ma page de départ

Conversion d’encodage de caractères

La commande iconv permet de changer l’encodage des caractères. Par exemple

iconv -f 850 -t UTF-8 -o converti vieuxtruc

convertit le fichier vieuxtruc écrit en page de code 850 en un fichier converti en UTF-8.

Il n’est plus tellement facile de lire correctement de vieux fichiers Word sous DOS des années 90. Ces fichiers contiennent des parties digitales, mais le contenu est du texte ordinaire, souvent encodé en page de code 437 ou 850. Je procède alors à la conversion de l’encodage et j’efface le ballast propre à Word pour récupérer le texte. Si on en a beaucoup, il est possible de convertir l’encodage de tout un dossier. Par exemple, la commande :

find . -name "*.DOC" -exec iconv -f 850 -t UTF-8 {} -o conv/{} \;

cherche tous les vieux fichiers d’extension DOC et les convertit dans un sous-dossier conv.

Dominique Meeùs . Date: 2011… 2017