Dominique Meeùs
Dernière modification le   
retour à la table des matières — à l’index — à ma page de départ

Segmentation et abréviations

Un point suivi d’une espace correspond bien à la situation d’une fin de phrase dans un alinéa, mais aussi aux abréviations. Certaines abréviations sont connues d’OmegaT et font exception à la segmentation. On peut ajouter dans les options d’OmegaT des règles de segmentation, positives ou négatives : il ne faut pas segmenter à certaines abréviations ; il faut segmenter à un point suivi non d’une espace mais d’une parenthèse, d’un guillemet fermant, etc. Des auteurs utilisent des abréviations fantaisistes. En néerlandais, par exemple, « bij voorbeeld » s’abrège en « bv. » ou « bijv. », pas en « bvb. », « vb. » et autres. Il vaut la peine de corriger avant de commencer dans OmegaT, plutôt que d’introduire en option de segmentation trop d’abréviations non classiques.

Il y a cependant des situations où il faut empêcher la segmentation autrement qu’en introduisant une exception. On ne peut excepter la segmentation après un point d’interrogation, qui marque généralement la fin d’une phrase. Mais un point d’interrogation peut avoir aussi le statut de virgule : dans la phrase « Où ? quand ? comment ? », seul le troisième est fin de phrase. Il faut empêcher la segmentation des autres. La segmentation suppose que suive un blanc, éventuellement avec une parenthèse ou un guillemet interposés. Interposer n’importe quoi d’imprévu suffit à neutraliser la segmentation. Je me propose de mettre là l’espace insécable de largeur nulle U+FEFF 1 qui n’est pas très dérangeant.

J’avais un problème non résolu avec « etc. » (ou plus souvent pour moi avec « enz. ») qui fait l’objet d’une exception justifiée. Mais si ça se trouve en fin de phrase, OmegaT ne coupe pas et la phrase suivante restera jointe. Je ne vois pas d’autre moyen de forcer la segmentation, là ou dans d’autres cas où on pourrait le vouloir le faire, que d’introduire un caractère conventionnel qu’on risque peu de rencontrer dans un texte source. On crée alors en OmegaT, en Valeurs par défaut (valeurs pour toutes les langues), la règle de segmenter après ce caractère. J’adopte pour diverses raisons 2 le séparateur invisible U+2063.

En résumé, les caractères que j’adopte…
… pour faire obstacle à la segmentation :
U+FEFF
… à inscrire dans les options de segmentation pour la forcer :
U+2063

Intercaler des caractères parasites n'est pas très satisfaisant pour l'esprit, mais il est impossible de concevoir une segmentation qui ne demande pas parfois d'intervention manuelle. Si on traduit régulièrement des auteurs qui abrègent zaterdag en zat., ou bien on introduit un obstacle à la segmentation comme U+FEFF, ou bien, pour ne pas parasiter le fichier avec ce genre de caractère, on introduit une exception à la segmentation pour zat.. Mais dans ce cas, si plus loin une phrase se termine en … waar ik zat., il faudra quand même parasiter le fichier, comme avec mon U+2063, pour forcer la segmentation.

Notes
1.
Voir ailleurs l’introduction de caractères par leur numéro Unicode dans certains environnements graphiques.
2.
Comme on travaille généralement sur une copie de la source, la parasiter n’est pas un problème. Par contre, on retrouvera ces caractères parasites dans les segments sources des mémoires TMX. Si on bascule la langue source d’un fichier TMX pour servir dans l’autre sens, on trouvera les caractères parasites dans les segments cibles. On peut trouver moins dérangeant qu’ils soient invisibles, ou au contraire préférer le savoir. Un assez bon candidat visible me semble ❦ (U+2766). Inconvénient : parce qu’OmegaT n’est toujours pas UTF-8 (gr… !!!), on ne verra qu’un ▯. Comme option invisible, j’éviterais les caractères du genre espaces de largeur nulle qui peuvent se trouver dans la source. Un candidat meilleur, parce que plus improbable, me semble le séparateur invisible U+2063Il n’est pas facile de manipuler un caractère invisible. J’ai créé un fichier texte Séparateur invisible contenant seulement ce caractère. Si par Ctrl+A je sélectionne tout le contenu de ce fichier, je suis sûr d’avoir mon caractère et je peux le copier pour le coller ailleurs comme dans le segment source ou en OmegaT dans la définition de la nouvelle règle de segmentation. On peut vérifier qu’il est bien collé en déplaçant le curseur et en constatant qu’il fait un pas de plus.
Dominique Meeùs . Date: 2011… 2016