Mojibake
Mojibake (文字化け, prononcé /modʑibake) est le nom des caractères incorrects et illisibles affichés lorsque le logiciel informatique ne parvient pas à afficher le texte correctement. Lorsqu'on utilise un ordinateur, le texte est encodé à l'aide d'un codage de caractères. Lors du transfert, chaque caractère est remplacé par sa position (ou son numéro) dans le codage. Pour afficher à nouveau le caractère, la position est à nouveau remplacée par le caractère. Lorsque le codage d'origine n'est pas spécifié, un caractère différent peut être utilisé lorsque le nombre est à nouveau remplacé par le caractère à afficher. L'Unicode a été introduit pour résoudre ce problème : l'UTF-8 est capable d'encoder la plupart des caractères courants sur 2 octets.
Avant l'introduction d'Unicode, d'autres codages de caractères étaient utilisés. Par exemple, la norme ISO-8859 contient 15 codages différents. Ce sont les mêmes pour les caractères couramment utilisés en anglais. Ils comportent plusieurs "blocs" de "caractères spéciaux", qui sont classés différemment pour chaque codage.
Voici à quoi peut ressembler un site web si l'on utilise un mauvais codage de police.
L'article de la Wikipédia japonaise pour Mojibake utilise l'encodage UTF-8. Cette capture d'écran montre à quoi il ressemble, lorsqu'il est décodé en utilisant l'encodage standard Windows CP1252.
Origine du mot
Mojibake est un mot japonais. Le mot 文字化け ([moʥibake]) est composé de deux parties. 文字 (moji) signifie lettre, caractère. 化け (bake), du verbe 化ける (bakeru), signifie apparaître déguisé, prendre la forme de, changer pour le pire. Littéralement, cela signifie "mutation de caractère".
Questions et réponses
Q : Qu'est-ce que "mojibake" ?
R : Le terme "mojibake" désigne les caractères incorrects et illisibles qui apparaissent lorsque les logiciels informatiques ne parviennent pas à afficher le texte correctement.
Q : Comment le texte est-il codé lorsqu'on utilise un ordinateur ?
R : Le texte est encodé à l'aide d'un encodage de caractères, où chaque caractère est remplacé par sa position ou son numéro dans l'encodage.
Q : Que se passe-t-il lorsque le codage d'origine n'est pas spécifié lors du transfert de texte ?
R : Lorsque le codage d'origine n'est pas spécifié, un caractère différent peut être utilisé lorsque le numéro est remplacé par le caractère à afficher.
Q : Qu'est-ce que l'Unicode et comment résout-il ce problème ?
R : Unicode est une norme de codage des caractères qui permet de représenter la plupart des caractères en deux octets. Il résout le problème de l'utilisation de différents codages de caractères et garantit l'affichage correct des caractères.
Q : Quels sont les exemples d'autres codages de caractères utilisés avant Unicode ?
R : ISO-8859 est un exemple de codage de caractères utilisé avant Unicode.
Q : Combien de codages différents l'ISO-8859 contient-elle ?
R : L'ISO-8859 contient 15 encodages différents.
Q : Les caractères spéciaux de l'ISO-8859 sont-ils les mêmes pour tous ses encodages ?
R : Non, les caractères spéciaux de l'ISO-8859 sont classés différemment pour chaque encodage.