Dominique Meeùs
Dernière modification le   
retour à la table des matières — à l’index — à ma page de départ

Segmentation et abréviations

Un point suivi d’une espace correspond bien à la situation d’une fin de phrase dans un alinéa, mais aussi aux abréviations. Certaines abréviations sont connues d’OmegaT et font exception à la segmentation. On peut ajouter dans les options d’OmegaT des règles de segmentation, positives ou négatives : il ne faut pas segmenter à certaines abréviations ; il faut segmenter à un point suivi non d’une espace mais d’une parenthèse, d’un guillemet fermant, etc. Des auteurs utilisent des abréviations fantaisistes. En néerlandais, par exemple, « bij voorbeeld » s’abrège en « bv. » ou « bijv. », pas en « bvb. », « vb. » et autres. Il vaut la peine de corriger avant de commencer dans OmegaT, plutôt que d’introduire en option de segmentation trop d’abréviations non classiques.

J’avais un problème non résolu avec « etc. » (ou plus souvent pour moi avec « enz. ») qui fait l’objet d’une exception justifiée. Mais si ça se trouve en fin de phrase, OmegaT ne coupe pas et la phrase suivante restera jointe. Je ne vois pas d’autre moyen de forcer la segmentation, là ou dans d’autres cas où on pourrait le vouloir le faire, que d’introduire un caractère conventionnel qu’on risque peu de rencontrer dans un texte source. On crée alors en OmegaT, en Valeurs par défaut (valeurs pour toutes les langues), la règle de segmenter après ce caractère. Comme on travaille généralement sur une copie de la source, la parasiter n’est pas un problème. Par contre, on retrouvera ces caractères parasites dans les segments sources des mémoires TMX. On peut trouver moins dérangeant qu’ils soient invisibles, ou au contraire préférer le savoir. Un assez bon candidat visible me semble ❦ (U+2766). Inconvénient : parce qu’OmegaT n’est toujours pas UTF-8 (gr… !!!), on ne verra qu’un ▯. Comme option invisible, j’éviterais les caractères du genre espaces de largeur nulle qui peuvent se trouver dans la source. Un candidat plus improbable me semble le séparateur invisible U+2063 11.

Notes
11
Il n’est pas facile de manipuler un caractère invisible. J’ai créé un fichier texte Séparateur invisible contenant seulement ce caractère. Si par Ctrl+A je sélectionne tout le contenu de ce fichier, je suis sûr d’avoir mon caractère et je peux le copier pour le coller ailleurs comme dans le segment source ou en OmegaT dans la définition de la nouvelle règle de segmentation. On peut vérifier qu’il est bien collé en déplaçant le curseur et en constatant qu’il fait un pas de plus.
Dominique Meeùs . Date: 2011… 2016