L'encodage de caractères, en programmation informatique , est une méthode ou d'un algorithme utilisé pour trouver une représentation généralement numérique d'un caractère, glyphe ou symbole. L'utilisation de codage de caractère dans les ordinateurs est nécessaire parce que l'information à l'intérieur de la mémoire de l'ordinateur et sur les supports lisibles par ordinateur sont stockées en tant que séquences de bits ou de chiffres. Cela nécessite l'utilisation d'un codage à traduire des caractères non numériques qui sont utilisés pour l'affichage ou la sortie lisible en une forme que l'ordinateur peut manipuler. Dans une application plus spécifique, Hypertext Markup Language ( HTML documents) qui sont lues par les navigateurs Web peuvent définir le type d'encodage de caractères qu'ils utilisent pour laisser le navigateur sait quel caractère spécifique configuré pour utiliser lors de l'affichage des informations contenues dans le document. Il existe plusieurs schémas de codage à utiliser, même si beaucoup de ces ensembles exclusifs et legs sont peu à peu remplacés par le Unicode ® norme de codage.
Dans les débuts de l'informatique, quand il y avait de l'espace mémoire limité, les caractères de base de l'alphabet anglais - y compris la ponctuation et les nombres - ont été stockées dans des séquences 7 bits permettant 128 personnages différents. Dans ce régime initial, chaque octet de 7 bits représenté un caractère de l'alphabet anglais, numérotés en séquence. Ce codage de caractères a été efficace et a finalement été standardisé et utilisé dans la plupart des ordinateurs qui ont été produites. Bien que le système de codage évolué dans le standard Unicode codage ®, le concept est resté le même. Plus précisément, chaque caractère unique dans une langue est directement lié à un nombre unique à l'intérieur d'un grand ensemble de caractères standard, et que ce nombre est un ordinateur utilise pour stocker, traiter et de l'indice du caractère.
D'autres types de codage de caractères ont été développés pour différentes raisons. Certains qui ont été spécifiquement axée sur l'alphabet anglais et destiné à être utilisé pour du texte seulement cartographié leurs personnages sur des séquences de 7 bits et s'est ensuite propagée à travers les octets de 8 bits ou octets. Cela a eu pour effet de sauver 1 bit par octet, efficacement en utilisant le codage de caractères comme un type de compression.D'autres systèmes de codage ont tenté de fournir des informations de base sur un personnage, puis des caractères supplémentaires pour représenter accents particuliers qui pourraient être utilisés lors de l'écriture dans une langue différente, même si ceux-ci ont été en grande partie abandonnées pour la simple one-to-one méthodes de codage.
Dans les documents HTML, le codage de caractères est à peu près la même que la notion plus large, à l'exception de l'encodage étant définie englobe un ensemble complet de caractères. Cela peut être important non seulement pour les langues étrangères, mais pour les documents qui utilisent des symboles spécifiques pour les sciences ou les mathématiques qui ne sont pas présents dans tous les jeux de caractères. Il peut aussi être utile pour l'utilisation de la ponctuation et autres glyphes qui pourraient ne pas être présents sont mappées différemment selon les schémas de codage. Les documents qui ne définissent pas correctement un codage de caractères non standard pourrait s'afficher correctement ou être rempli de caractères absurdes et des espaces réservés à la place de l'information lisible.