Deshalb Unicode und UTF-8

Weshalb Unicode und UTF-8 ?

Wer Programmiererfahrung z.B. aus den 1990er Jahren hat, weiß noch, wie leicht man eine Zeichenkette auswerten oder verändern konnte, weil darin jedes Byte für genau ein Zeichen stand. Doch mit UTF-8 ist das heutzutage manchmal etwas schwieriger. Hier ein Rückblick auf die guten Gründe für die Entwicklung von Unicode und UTF-8 ...

Nur Großbuchstaben

Man erinnert sich kaum noch daran: Der beliebte Homecomputer C-64 (erschienen 1982) kannte ↗keine Umlaute. Eine weitere Einschränkung war: Wenn ein Spiel viele Grafikzeichen verwenden wollte, musste es auf den zweiten Zeichensatz umschalten, wo aber die Kleinbuchstaben fehlten. Deshalb stellten viele Spiele ihre Texte nur in Großbuchstaben dar. Und deutsche Textadventures schrieben mit den Umlaut-Ersetzungen AE OE UE.

6 Bits oder 7 Bits

Noch schlichter war es bei den frühen Computern der 1950er Jahre, als ein Byte z.B. nur aus 6 Bits bestand. Ja tatsächlich: ein Byte war noch nicht auf 8 Bits festgelegt. Im 6-Bit-Wertebereich von 0 bis 63 kriegte man nur ein paar Steuerzeichen untergebracht, z.B. Zeilenvorschub und Wagenrücklauf für Drucker, außerdem die 10 Ziffern, ein paar Satzzeichen und ebenfalls nur die lateinischen Großbuchstaben. Das war damals nicht schlimm, weil man die Großrechner, die mittels Lochstreifen gesteuert wurden, zum Rechnen nutzte, nicht für Texte.

Erst beim IBM Großrechner ↗System/360 (1964) wurde ein Byte standardmäßig als 8 Bit definiert. Nun konnte man der Kodiertabelle endlich auch die Kleinbuchstaben und weitere Satzzeichen hinzufügen. Die IBM-eigene, proprietäre Umsetzung nennt sich ↗EBCDIC (1963 entwickelt), während ebenfalls in 1963 US-ASCII als allgemeine Kodier-Empfehlung erschien, die aber nicht zu EBCDIC kompatibel ist. ASCII beschränkte sich auf die Nutzung von 7 Bits (Werte 0 bis 127), weil man das 8. Bit als Paritäts-Bit verwenden wollte, d.h. ein Prüf-Bit zur Erkennung von Übertragungsfehlern bei der Kommunikation mit Druckern und Terminals.

Code Pages

In den 60er Jahren bekam IBM immer mehr Kunden auch in Europa, wo sprachspezifische Buchstaben benötigt wurden, z.B. deutsche Umlaute. Deshalb entwarf IBM über 200 nationale Code Pages (Kodierseiten = Zeichentabellen) als sprachspezifische, regionale Varianten von EBCDIC, die auf Großrechnern (Mainframes) genutzt wurden.

Für den IBM PC (ab 1981) entwickelte IBM die ASCII-basierte Codepage ↗CP437 in 8 Bit, worin auch Umlaute und Akzentzeichen enthalten waren. Später entstanden weitere ASCII-kompatible Codepages für andere Regionen und Sprachen. Ab ↗PC-DOS bzw. MS-DOS 3.3 (1987) konnte der Anwender die Codepage selber in der CONFIG.SYS festlegen.

ISO 8859

Als neuer internationaler Standard wurde 1987 die Norm ↗ISO 8859 vorgestellt, für Sprachen in Europa und dem Nahen Osten. Dabei setzte man auf 8 Bit, ASCII-Kompatibilität und nutzt separate Codepages, die hier "Parts" (Unternormen/Teilnormen) heißen.
Doch für DOS kam ISO 8859 einige Jahre zu spät, denn DOS hatte nun schon mehrere eigene ASCII-kompatible Codepages. Hingegen wurde Linux erst ab 1991 entwickelt, als ISO-8859-1 (Latin-1) bereits ein etablierter Standard war. Deshalb konnte Linux sofort auf die ISO-Norm setzen. Ebenso wird sie für E-Mail und HTML verwendet.

Zur gleichen Zeit schwenkte auch Microsoft auf ISO 8859 ein, denn seit Windows 3.1 (1992) übernimmt Windows nicht mehr die eingestellte DOS-Codepage, sondern nutzt "ANSI Code Pages", welche die Umsetzung der ISO-Familie sind, z.B. entspricht CP1252 (Windows-1252, westeuropäisch) dem ISO-8859-1.
Aber weil Windows eine grafische Oberfläche hat, wollte man erstmals typografische Zeichen mit anbieten, z.B. diese „ “ Anführungszeichen, die man nun darstellen kann. Deshalb hat Microsoft die ungenutzten, nicht-druckbaren Steuercodes zwischen 80(hex) und 9F durch solche typografischen Zeichen ersetzt.

Codepage-Probleme

Ein großes Problem von Codepages ist, dass sie (oberhalb von ASCII) nicht untereinander kompatibel sind. Man kann nur entweder westeuropäische oder griechische oder kyrillische Buchstaben etc. kodieren und darstellen, aber nicht gemeinsam in einem Text. Und wenn man nicht weiß, mit welcher Codepage ein Text oder eine Datei kodiert wurde, kann man es ggf. nicht lesen.

An anderes Problem betrifft den asiatischen Raum mit seinen komplexen Schriftzeichen. Manche Schriftsysteme bestehen aus mehreren tausend Zeichen, die man mengenmäßig gar nicht in 8 Bit (256 Codepunkte) abbilden kann.

Unicode startete in 16 Bit

Ab 1987 entwickelten die Mitarbeiter verschiedener Computerfirmen den Unicode-Standard in 16 Bit. Sie schrieben dazu (übersetzt): „Mit Unicode soll der Bedarf an einer praktikablen, zuverlässigen Welt-Textkodierung gedeckt werden. Unicode könnte grob als "Wide-Body-ASCII" beschrieben werden, das auf 16 Bits gestreckt wurde, um die Zeichen aller lebenden Sprachen der Welt zu umfassen.“

1991 wurde nach mehrjähriger Entwicklungszeit die Version 1.0 des Unicode-Standards veröffentlicht, der über 7.000 Zeichen enthielt. Zur Unterstützung des Projekts hatte sich zuvor das Unicode-Konsortium gegründet, mit vielen bekannten Firmen wie Adobe, Apple, Borland, DEC, IBM, Lotus, Microsoft, NeXT, Novell, Sun Microsystems, Symantec, Unisys, WordPerfect, Xerox und anderen.

Unicode braucht doch 32 Bit

In den folgenden Jahren wurden immer mehr Sprachen und Zeichen in die Unicode-Tabellen mit aufgenommen, so dass bereits 1993 schon 34.000 Zeichen enthalten waren. Es wurde absehbar, dass man die 64k-Grenze der 16 Bits (UCS-2) überschreiten würde, insbesondere wenn man auch historische Schriftsysteme mit aufnehmen wollte.

Deshalb definierte 1996 die Version 2.0 von Unicode seine Erweiterbarkeit auf 32 Bit. Das bedeutet, dass man die bis dahin gängigsten Zeichen in einem 16-Bit-Word kodieren kann und man nur auf ein zweites Datenwort zurückgreifen braucht, wenn es sich um seltene oder historische Zeichen handelt. Der flexible Speicherbedarf wird im Kodierungsformat UTF-16 umgesetzt, welches das starre UCS-2 ersetzt.

UTF-8 ist platzsparend

UTF-8 wurde 1992 bei Bell Labs entwickelt, außerhalb des Unicode-Konsortiums. UTF-8 ist rückwärtskompatibel zu ASCII, d.h. ASCII-Zeichen belegen weiterhin nur ein Byte. Durch die variable Länge von bis zu 4 Bytes, können alle Codepunkte von Unicode kodiert werden. In Unicode sind inzwischen über 1 Million Zeichen (Codepoints) definiert.

UTF-8 ist sehr speichereffizient. Und in Kombination mit seiner ASCII-Kompatibilität ist es leicht in bestehende Systeme zu integrieren – ein entscheidender Faktor für die Verbreitung auf Linux-Systemen und im Web. Obwohl das Unicode-Konsortium ursprünglich auf UTF-16 als Hauptkodierung setzte, wurde UTF-8 später offiziell in den Unicode-Standard aufgenommen (ab Unicode 3.0, 1999).

Ab Mitte der 2000er Jahre begannen die meisten Linux-Distributionen (Debian, Red Hat, später Ubuntu), UTF-8 standardmäßig zu verwenden. Auch im Internet ist UTF-8 heutzutage die dominierende Zeichenkodierung.

Es gibt aber auch APIs (Schnittstellen), die von ANSI/Codepages auf UTF-16 umgestellt wurden, bevor UTF-8 sich durchsetzte. Dazu gehören die Windows API seit Windows NT (ab 1993), Apple Cocoa API und Core Foundation, und Android (bezüglich Java). UTF-16 wird bei den Programmiersprachen Java, Kotlin, C# (.NET), Delphi (ab 2009) und JavaScript als primärer String-Typ verwendet.

Text: Jörg Rosenthal, 2025.
Bitte Kritik, Vorschläge u.ä. per E-Mail einsenden.