Dominique Meeùs
Dernière modification le   
retour à la page principale du dossier

Encodages modernes

Up: Historique Previous: Encodages antiques en 8 bits
On n’utilise plus aujourd’hui qu’un seul système où on a dissocié
  • le jeu de caractères (UCS, Universal Character Set) formé de numéros (points de code) et de noms (en anglais ou en français) désignant des glyphes (sémantiquement — leur dessin est l’affaire des diverses polices de caractères),
  • et diverses manières d’en réaliser l’encodage digital (comme UTF‑8, UTF‑32 ou UTF‑16).
Le jeu de caractères est fixé dans la norme ISO 10646. La norme Unicode (1991), gérée par le consortium Unicode (http://www.unicode.org/) ajoute à ce jeu de caractères un certain nombre de règles. Le plan multilingue de base (PMB, en anglais Basic Multilingual Plane ou BMP) comprenait 65 536 points de code, mais avec le chinois on l’a dépassé. On est actuellement dans les cent mille caractères. (J’aborde ailleurs les aspects pratiques.)

La famille XML de langages de balisage suppose que le texte est par défaut encodé en UTF-8.

Up: Historique Previous: Encodages antiques en 8 bits
Dominique Meeùs. Date: 2012-05-16