Dominique Meeùs
Dernière modification le   
retour à la table des matières — à l’index — à ma page de départ

Mémoires de traduction TMX

Les mémoires de traduction utilisées par les environnements d’aide à la traduction sont au format TMX (en XML), ou bien dans des formats propriétaires, et on utilise alors TMX comme format d’échange entre formats propriétaires. On peut trouver des TMX existants et les importer dans son projet.

On peut créer des TMX à partir de corpus bilingues. J’ai rédigé un script, csv2tmx.awk, pour transformer en mémoire TMX des phrases côte à côte en format CSV.

Si on a un texte en deux langues, il n’est pas trop compliqué de les découper en phrases, de mettre ces phrases en deux colonnes en LibreOffice Calc et d’ajouter ou retirer des cellules pour corriger des erreurs d’alignement. J’ai créé le programme TMX-filters, un paquet (package) de filtres pour sauver au format TMX ces phrases alignées dans LibreOffice Calc (ainsi que pour ouvrir dans LibreOffice un fichier TMX).

On a encore en Belgique des organisations bilingues, traduisant beaucoup dans les deux sens. Des contenus reviennent dans les deux sens et il peut être intéressant de récupérer des mémoires et d’inverser le sens du couple de langues. Par exemple, un stock de mémoires du néerlandais vers le français (de Belgique) est converti en mémoires du français vers le néerlandais en exécutant dans le répertoire la commande

sed -i 's/srclang="NL/srclang="FR/g' *.tmx

mais le défaut est que ça lit tout, ce qui peut être lent pour de gros fichiers ou par des connexions lentes à distance, comme on peut s’en convaincre en exécutant la commande plus bavarde (verbose)

sed -i 's/srclang="NL/srclang="FR/;w /dev/stdout' *.tmx

Il faudrait trouver le moyen de ne lire que l’élément header, peut-être avec XSLT.

Le paquet libxml-tmx-perl offre quelques utilitaires pour fichiers TMX : tmx-POStagger, tmx-tokenize, tmx2html, tmx2tmx, tmxclean, tmxgrep, tmxsplit, tmxuniq, tmxwc. Voir leur page de manuel (man page).

On trouve en sourceforge.net/p/tmxvalidator/code/ un programme TMXValidator pour valider les fichiers TMX. (Cliquer Download Snapshot sur la page. Extraire le tout dans un répertoire de son choix.) Exécuter ./tmxvalidator.sh ou ./tmxvalidator_amd64.sh selon le type de Linux. Ces scripts ne fonctionnent qu’appelés à partir du répertoire où on les a installés. Normal, c’est du Java, donc jamais simple. (J’imagine que quelqu’un de plus malin que moi écrirait ce qu’il faut de variables d’environnement pour que Java retrouve son chemin.)

Table of contents

Dominique Meeùs . Date: 2011… 2017