ZZZ » All
Print

Texte structuré

Je considère ici différentes techniques d’édition de texte structuré. Le but est de marquer les différentes parties du texte pour leur fonction dans le texte et de séparer la présentation. C’est peu connu en dehors des spécialistes, mais ça me semble très important. Je crois que si on a des textes à publier, qu’ils soient nouveaux ou repris de livres que l’on trouve importants avec un logiciel de reconnaissance de caractères, il ne faut pas perdre son temps à les éditer en html ou en Open Document (pour éventuellement les enregistrer aussi en PDF), il faut investir dans la connaissance de la TEI et les encoder en TEI pour en tirer ensuite html ou PDF au choix. Il y a de très bons textes pour expliquer la supériorité de l’encodage structuré, qui expliqueront ça mieux que moi. Voyez les textes sur la justification de DocBook ou de la TEI sur le site du TEI Consortium ou de DocBook.org ou en cherchant avec Google.

En bref

  • Le texte est balisé du point de vue « sémantique » en xml (TEI, DocBook…). Cette version unique (que je serait tenté d’appeler « matrice », mais ce n’est pas une appellation consacrée ; j’ai rencontré « master » en anglais) sert de base à toutes les autres. Elle seule est maintenue.
  • La forme document d’un seul tenant (comme un livre) n’est pas un absolu. Un document DocBook peut se réduire à un appel à des sous-documents. Pour Dita, la conception est précisément la réunion de modules indépendants. Ce qui compte c’est d’idée d’encoder sémantiquement une source unique (qu’elle soit d’un seul tenant ou pas) pour en tirer différentes présentations.
  • Des transformations (xls, xlst) sont appliquées à cette version de base pour obtenir des formes lisibles à afficher ou à imprimer (html, PDF…) En particulier en html, on peut obtenir automatiquement le découpage par chapitre ou autre niveau avec tables des matières entière ou partielles et liens de navigation entre les différentes pages.
  • Si on doit corriger, on corrige seulement la matrice et on applique de nouveau la transformation pour obtenir les formes (html, PDF…) à jour (plutôt que de reporter la correction dans les différentes formes).

Normes

Les deux normes de balisage de texte en xml les plus importantes sont TEI et DocBook

TEI

TEI est l’acronyme de la Text Encoding Initiative pour marquer des textes, surtout littéraires. On vise surtout la digitalisation de qualité de livres existants. Il y a donc plus de raffinements pour enregister des données bibliographiques relatives aux différentes éditions papier. On considère que ce serait, par exemple, le meilleur moyen d’éditer en une fois les versions A et B de la Critique de la raison pure de Kant en indiquant les numéros de page dans les principales éditions classiques. La TEI s’impose sans conteste pour l’édition savante et pour des formes littéraires particulières comme les recueils de lettres, de poèmes, les pièces de théâtre.
La TEI est un consortium de nombreuses universités et autres institutions. Une des institutions centrales est l’université d’Oxford d’ou viennent des développements informatiques comme des programmes de transformation.

DocBook

DocBook est surtout utilisé pour la documentation informatique et cela se sent dans certaines balises spécialisées. Il est possible que le langage de balises soit suffisamment détaillé pour éditer un livre de qualité sur un sujet non informatique. On pourrait préférer la TEI si on veut le même code pour des livres nouveaux et anciens. Il faut cependant distinguer l’édition savante de livres anciens et l’édition pour permettre la lecture de leur contenu. Il est possible que DocBook soit tout à fait suffisant dans une perspective pratique.

Autres

En vrac et à différents niveaux : xdoc (pour la documentation et les fichiers d’aide de programmes, plus simple que Docbook), EPUB (pour tablettes de lecture électroniques), DTBook (avec préoccupation d’accessibilité text to speech pour les malvoyants), DITA (Darwin Information Typing Architecture, ce n’est pas Dita von Teese)…

Éditeurs et utilitaires

Serna Free de Syntext, propriétaire mais gratuit, existe en paquet Debian (http://packages.debian.org/sid/serna) et est disponible aussi dans un depôt expérimental pour Ubuntu. Serna Free supporte DocBook et TEI P4 (pas TEI P5, mais ça peut peut-être s’arranger). Cela semble être le meilleur éditeur pour ce genre de chose. Il assure aussi les transformations. L’éditeur xml Conglomerate est Open Source et gratuit mais son développement semble être en hibernation. On trouve encore divers paquets Debian d’utilitaires pour TEI comme les feuilles de style de transformation. (Attention, le fait qu’on y trouve un paquet tei-oxygen ne rend pas l’éditeur Oxygen gratuit. La première chose que le programme vous demandera, c’est votre licence. Si vous n’en avez pas et n’avez pas l’intention de la payer, inutile d’installer le paquet.)
Personnellement, j’ai abandonné Serna à cause de la limitation à P4 et je tisse le code TEI P5 à la main avec Bluefish (et des commandes de menu personnalisées) et je le transforme avec xsltproc à partir des transformations distribuées par Oxford. Ça n’a rien de sorcier.

Page last modified on Tuesday 20 of April, 2010 13:56:45 UTC

Menu [toggle]

Hosted by HaiSoft — TikiWiki version 4.1