Stap 2: Optionele herinnering over Unicode:
Unicode is compatibel met de oude ASCII-standaard (dit betekent dat de eerste 128 karakters van Unicode dezelfde codes dan die van ASCII hebben), en bevat elke code van elke mogelijke tekens en symbolen van elke alfabetten, de adjabs en de logograms van alle naties en culturen van de wereld. En er is op dit moment ongeveer 100.000 verschillende karakters.
Dit betekent dat we meer dan 1 byte moeten slaan de code van de meeste van hen.
Met één byte (8 bits), kunnen we alleen de 256 eerste Unicode-tekens (die zijn ASCII-compatibel) coderen
Met twee bytes (16 bits), kunnen we de eerste 65.536 Unicode-tekens coderen.
Met vier bytes (32 bits), kunnen we ze coderen alle, en nog meer...
Dus, lijkt de meest universele manier om te slaan compatibel Unicodetekst in computerbestanden zou moeten gebruiken van 4 bytes per teken.
Echter, oude ASCII-tekstbestanden zou onleesbaar worden, (als ze slechts 1 byte per teken gebruiken). En ze te converteren naar 4 bytes per tekens zou afval veel ruimte (vier keer meer ruimte)...
Dat is waarom ze de uitvinder van verschillende codering methoden om te coderen van Unicode-tekst zonder teveel ruimte te verspillen, en het houden van de compatibiliteit met oude ASCII-bestanden. Deze codering methoden heten: UTF-7, UTF-8, UTF-16 en UTF-32.
.