Stap 4: Het bijhouden van compatibiliteit met ASCII.
Unicode houdt de verenigbaarheid met ASCII.
ASCII-tekens worden gecodeerd vanaf 32 tot 127.
Van 0 tot en met 31 zijn controlecodes voornamelijk gebruikt voor paginering: tabulation, regelterugloop, einde van de tekenreeks, enz...
(nota: veel van die controlecodes zijn verouderd todays.)
Aldus, ASCII-tekens hoeft slechts 7 van de 8 bits van een byte worden gecodeerd: 00000000 tot 01111111 in binary.
Dit betekent dat de 8e bit van een ASCII-code is altijd ingesteld op 0. (herinnering: Houd in gedachten dat bits worden geteld vanaf rechts naar links. Het 1e stukje is dus aan de rechterkant en de laatste is links op elke pagina).
Zoals, in de meeste programmeertalen, de 8e bit van een byte wordt meestal gebruikt om te definiëren van het teken (positief of negatief) van een ondertekende waarde, dit betekent ook dat ondertekend bytes met een ASCII-code altijd positief zal zijn (8e bit ingesteld op 0).
Voor compatibiliteit doel, de codering UTF-8 zal voorkomen als positieve waarden wilt gebruiken, omdat een incompatibele toepassingen Unicode tekens worden gecodeerd in 4 bytes als interpreteren zal 4 verschillende uitgebreide ASCII-tekens: vanwege de besturingselementen code (0 tot 31), hetgeen kan leiden tot verschillende onverwachte resultaten.