Stap 1: Optionele herinnering over tekstbestanden en tekensets:
Computer van binaire bestanden (foto's, muziek, uitvoerbare, etc.) en de computer de tekstbestanden (.txt-bestanden) zijn hetzelfde: ze alle computerbestanden.
Een computerbestand is een lijst van bytes.
Een byte bestaat uit 8 bits.
Een beetje is een fundamentele binaire (2 staat) element. Kan worden ingesteld (bevat 1) of unset (bevat 0).
Door het veranderen van de Staten van de 8 bits van een byte, is het mogelijk om 256 verschillende combinaties te maken.
Elke combinatie vormt een binair getal.
Het is mogelijk om te converteren van binaire getallen naar decimale getallen.
Het is dus mogelijk om te rekenen in het binaire:
00000000 (0)
00000001 (1)
00000010 (2)
00000011 (3)
00000100 (4)
00000101 (5)
...
11111100 (252)
11111101 (253)
11111110 (254)
11111111 (255)
Dus, elke byte van een computerbestand bevat een numerieke waarde van 00000000 tot 11111111 in binaire (van 0 tot 255 in decimale notatie).
Vervolgens kunnen we bytes gebruiken om op te slaan van alle gehele getallen van 0 tot 255.
Als we willen voor de opslag van historische data zoals 1783 of wiskundige waarden als 1.41421, zijn we gedwongen om "encode" ze met behulp van meerdere bytes.
Met twee bytes is het mogelijk voor het opslaan van gehele getallen tussen 0 en 65.535.
Met 4 bytes is het mogelijk om te coderen (met sommige eventuele onderlinge aanpassing) enige reële getallen.
Het zelfde gaat met tekst: elk teken van een string is gecodeerd in een waarde tussen 0 en 255, geven, dus maximaal 256 verschillende tekens.
In het begin, zoals computers waren vooral een westerse technologie, 256 mogelijke tekens was meer dan genoeg: 26 kleine letters, 26 hoofdletters, 10 cijfers, paar punctuatie symbolen...
Amerikanen gemaakt de standaard ASCII (American Standard Code for Information Interchange).
Het was algemeen gebruikt (en aangepast) in Europa ook. Het heeft zelfs uitgebreid bevatten de meeste van de geaccentueerde karakters op grote schaal gebruikt in Europa.
Dus, elke byte van een ASCII (of platte tekst) bestand 1 teken bevatten.
Echter niet alle landen over de hele wereld gebruiken het moderne Latijnse alfabet.
Russen gemaakt bijvoorbeeld hun eigen norm, die onverenigbaar met de standaard ASCII is. Griekse gemaakt hun eigen norm, die onverenigbaar met de ASCII-standaard, etc is.
Voor lange tijd op het internet, het was erg moeilijk om weer te geven van verscheidene verschillende alfabet samen op dezelfde pagina, omdat elke alfabet nodig een andere "charset encodering", en slechts één "charset encodering" per pagina gemakkelijk mogelijk was.
Internationale sites zoals Wikipedia zou zijn geweest zeer moeilijk te maken.
De meest voorkomende truc om het weergeven van wiskundige formules of Chinese karakters op een Engels pagina, moest ze weergeven als foto's...
Ze gingen snel tot de conclusie dat 256 tekens niet genoeg was, en dat elke verschillende en mogelijk tekens en symbolen van de wereld moest worden gegroepeerd in een enkele en universele set van teken: Unicode.
.