On n’utilise plus aujourd’hui qu’un seul système où on a
dissocié
- le jeu de caractères (UCS, Universal Character Set) formé de
numéros (points de code) et de noms (en anglais ou en français) désignant
des glyphes (sémantiquement — leur dessin est l’affaire des diverses
polices de caractères),
- et diverses manières d’en réaliser l’encodage
digital (comme UTF‑8, UTF‑32 ou UTF‑16).
Le jeu de caractères est fixé
dans la norme ISO 10646. La norme Unicode (1991), gérée par le consortium
Unicode (
http://www.unicode.org/) ajoute à ce jeu de
caractères un certain nombre de règles. Le plan multilingue de base (PMB,
en anglais Basic Multilingual Plane ou BMP) comprenait 65 536 points de
code, mais avec le chinois on l’a dépassé. On est actuellement dans les
cent mille caractères. (J’aborde
ailleurs les
aspects pratiques.)
La famille XML de langages de balisage suppose que le
texte est par défaut encodé en UTF-8.