Nous manipulons tous les jours des textes en numérique, que ce soit pour enregistrer un fichier, envoyer un mail, SMS et autres.
Pour la plupart des utilisateurs, l’utilisation des lettres est transparente sauf s’ils rencontrent des problèmes d’affichage, comme les caractères accentués.
Mais l’émergence des communications, de la télégraphique puis télécopie et enfin des ordinateurs, il a fallu trouver des systèmes pour coder les caractères des langues.
Pour les développeurs informatiques, comprendre le fonctionnement du codage des caractères est important.
Si le sujet, vous intéresse, voici dans ce guide, les grandes lignes du codage de caractères en informatique.
Table des matières
Qu’est-ce que le codage des caractères en informatique
L’encodage des textes est le processus informatique qui de coder les caractères écrits du langage humain en caractères graphiques utilisés dans les systèmes informatiques ou de télécommunications.
Celai permet de les stocker, de les transmettre et de les transformer à l’aide d’ordinateurs numériques.
Les caractères nécessaires à un usage spécifique sont regroupés dans un répertoire de caractères.
Pour désigner les caractères de manière non ambiguë, chaque caractère est associé à un numéro, appelé point de code.
En gros, vous pouvez visualiser cela en supposant que tous les caractères sont stockés dans les ordinateurs à l’aide d’un code spécial, comme les codes utilisés dans l’espionnage.
Le codage des caractères fournit une clé pour déverrouiller (c’est-à-dire décoder) le code. Il s’agit d’un ensemble de correspondances entre les octets de l’ordinateur et les caractères du jeu de caractères. Sans la clé, les données ressemblent à des déchets.
C’est un peu, comme le fonctionnement du morse qui transforme les lettres en code à point et à tirets.
Ainsi, lorsque vous saisissez du texte à l’aide d’un clavier ou d’une autre manière, le codage des caractères associe les caractères que vous choisissez à des octets spécifiques dans la mémoire de l’ordinateur, puis, pour afficher le texte, il relit les octets en caractères.
Pour bien comprendre les aspects :
- Un jeu de caractères codés est un jeu de caractères dans lequel chaque caractère correspond à un numéro unique
- Un point de code d’un jeu de caractères codés est toute valeur autorisée dans le jeu de caractères ou l’espace de code
Qu’est-ce qu’un jeu de caractères
Un jeu de caractères désigne le nombre composite de caractères différents utilisés et pris en charge par un logiciel et du matériel informatique. Il se compose de codes, de modèles de bits ou de nombres naturels utilisés pour définir un caractère particulier.
Un jeu de caractères est l’élément clé qui permet d’afficher, de manipuler et d’éditer du texte, des chiffres et des symboles sur un ordinateur. Un jeu de caractères est créé par un processus connu sous le nom d’encodage, c’est-à-dire que chaque caractère se voit attribuer un code ou une valeur unique.
Le jeu de caractères est un ensemble abstrait de plus d’un million de caractères présents dans une grande variété d’écritures, dont le latin, le cyrillique, le chinois, le coréen, le japonais, l’hébreu et l’araméen.
Il prend aussi en charge des caractères spéciaux comme le retour à la ligne, l’espace, l’arobase, etc.
Un jeu de caractères peut également être appelé carte de caractères ou code de caractères.
De nombreux normes informatique de codage de caractères sont apparus (ASCII, GOST, EBCDIC, …) sont apparus.
Voici les plus répandus.
Qu’est-ce qu’une page de code
Une page de code est un encodage de caractères et, en tant que tel, une association spécifique d’un ensemble de caractères imprimables et de caractères de contrôle avec des numéros uniques.
En règle générale, chaque numéro représente la valeur binaire d’un seul octet.
Un peu d’histoire : de l’ASCII à l’Unicode
ASCII est l’abréviation d’American Standard Code for Information Interchange, est une norme de codage de caractères pour la communication électronique apparu au début des années 60.
Les codes ASCII représentent le texte dans les ordinateurs, les équipements de télécommunication et d’autres appareils.
Il s’agit d’une association entre le caractère d’une langue et les 256 valeurs que peut avoir un octet.
D’autres normes ont vite suivi comme l’EBCDIC en 1964 et la même année le code GOST par l’union soviétique.
Ainsi, chaque constructeur (HP, IBM, Apple, …) ou éditeur de logiciels (Microsoft, Apple, Adobe, …) pouvait créer ses pages de codes avec ses variantes par langue.
Mais un des principaux problèmes et limitations des pages de code est que ces 256 valeurs sont trop limités pour certaines langues.
Par exemple, elle ne permette pas d’encoder l’intégralité des caractères Chinois trop nombreux.
Unicode (Universal Coded Character Set) est un standard informatique apparu en 1991 qui permet des échanges de textes dans différentes langues.
Contrairement au page de code, il peut prendre en charge l’internationalisation nécessaire à internet.
Son but est de remplacer les pages de codes et de fournir une unification du codage des caractères, d’où le terme Unicode.
Unicode a pour rôle de fournir un point de code unique – un numéro, et non un glyphe – pour chaque caractère. En d’autres termes, Unicode représente un caractère de manière abstraite et laisse le rendu visuel (taille, forme, police ou style) à d’autres logiciels, tels qu’un navigateur web ou un traitement de texte.
La norme, qui est maintenue par le Consortium Unicode, définit dans sa version actuelle (15.0) 149 186 caractères couvrant 161 écritures modernes et historiques, ainsi que des symboles, des milliers d’emoji (y compris en couleurs), et des codes de contrôle et de formatage non visuels.
Les points de code sont codés en hexadécimale.
Linux et les dernières versions de Windows utilisent maintenant l’unicode.
Le codage des textes et les problèmes d’accents
Comme on peut le constater, la plupart des systèmes de codage informatiques ne sont pas compatibles entre eux.
Ainsi, si on transmet un texte sous forme de fichiers, mails dans un encodage spécifique et qu’à l’arrivé le logiciel le lit dans un autre encodage, cela peut générer des problèmes d’affichage de caractères.
Le problème le plus courant concerne l’affichage d’accents remplacés par d’autres caractères.
Cela peut se produire à la réception d’un mail, lors de l’import d’un fichier comme un fichier CSV ou lorsque vous changez de système d’exploitation (passage de Windows à Linux par exemple).