Diese Seiten sollen in die Möglichkeiten einführen, die das Internet und seine Dienste für die China-Studien bieten.

    Einführung in die technischen Grundlagen
    Wie bringe ich meinem Computer Chinesisch bei?
    Newsgroups und Mailinglisten
    Suchmaschinen, Linkverzeichnisse und Virtual Libraries
    Zeitungslektüre am Bildschirm
    Chinesische Texte im Internet
    Bibliographieren am Bildschirm

    Einführung in die technischen Grundlagen der Verarbeitung asiatischer Zeichen


    Die Codierung asiatischer Zeichen - Babylon läßt grüßen...

        Der chinesischen Sprache liegt kein Alphabet zugrunde. Die Anzahl aller bekannten Zeichen und deren Variationen beträgt über 50.000 Stück.

        Der “Grundwortschatz” eines DOS-Rechners, auf dem nun auch Windows basiert, beträgt jedoch nur 256 Zeichen = 8 Bit = 1 Byte. Davon werden 96 für das Alphabet (ohne Umlaute) inkl. Satzzeichen, Währungszeichen etc. benötigt und 32 werden als interne Steuerzeichen verwendet. Diese 128 Zeichen sind immer gleich und werden ASCII ( American Standard Code for International Interchange) genannt, der 7 Bit Standard. Bleiben 128 Zeichen, die je nach Land für die Umlaute, akzentuierte Buchstaben, mathematische Symbole etc. verwendet werden können. Unter Windows wurde dann zum ANSI-Code übergegangen, der den Bereich ab dem Zeichen 127 vereinheitlichte.

        Sollen nun mehr als die zur Verfügung stehenden 256 Zeichen dargestellt werden, so muß zur 2-Byte-Codierung übergegangen werden. Diese stellt 65536 (2^16) mögliche Zeichen zur Verfügung. Platz genug für die “Schriften, die in den wichtigsten lebenden Sprachen benutzt werden”. Bei der 2-Byte-Codierung bilden immer 2 Zeichen aus dem Grundwortschatz von 256 die Grundlage für ein Neues, asiatisches Zeichen. Damit zwischen westlichen Alphabet und kodierten asiatischen Zeichen ein Trennlinie bestehen bleibt wurde vereinbart, daß das führende, also das erste, Byte in einer 2 Byte Kombination nicht aus den 127 Zeichen des ASCII Codes stammen kann. Damit blieben noch 32768 mögliche Kombinationen (2^15=128*256), ebenfalls noch genug für die asiatischen Zeichen des täglichen Gebrauchs.

        Doch die Codierungen wurden nicht einheitlich entwickelt, jede Sprachgruppe entwickelte ihre eigene Codierung:
     
    Land verwendeter CodeBemerkungen
    VR China Guobiao = GB-CodeKurzzeichen
    Taiwan Big5-CodeLangzeichen
    Japan EUC/Shift-JIS  
    KoreaKSC 

        Und in jedem Code hat das gleiche asiatische Zeichen, daß von allen Ländern benutzt wird, einen unterschiedlichen Codepunkt. Beispiel: Das Zeichen tu
     
    CodeCodepunktSprache
    GB4190chines. Kurzzeichen
    Big5A5CDchines. Langzeichen
    EUC/Shift-JIS3224Japanisch
    KSC6370Koreanisch

        Die Lösung ist Unicode, dieser Code vereinheitlicht alle bisherigen Codepunkte auf einen Gemeinsamen.
     
    CodeCodepunktSpracheUnicode
    GB4190Kurzzeichen751F
    Big5A5CDLangzeichen751F
    EUC/Shift-JIS3224Japanisch751F
    KSC6370Koreanisch751F

        Doch da Unicode bisher noch nicht sehr weit verbreitet ist, bleibt das Problem der verschiedenen Codierungen bestehen! Die im WWW publizierten Dokumente sind in allen bisher erwähnten Codierungen verfügbar. Wenn man Glück hat wird die verwendete codierung angegeben oder schon im HTML-Code vermerkt. Wenn man Pech hat bringt erst einiges probieren die gewünschte Darstellung der asiatischen Zeichen.

    Probleme, die aufgrund der Wahl des Codes oder durch die 2-Byte-Codierung entstehen können

        Im folgenden soll dargestellt werden, welche Probleme aufgrund der technischen Eigenarten der 2-Byte-Codierung auftreten können. Dies wird durch Grafiken erläutert.

    Wahl des falschen Codes führt zur falschen Darstellung von Zeichen:

        Diese Grafik zeigt wie chinesischer Text im GB-Code codiert dargestellt wird, wenn die Software auf die Darstellung von Big5-Codiertem Text eingestellt ist.

        Grafik falsch dargestellter Zeichen aufgrund fehlehrhaft eingestellter Codierung

    Durch den Zeilenumbruch werden die Zeichen der folgenden Zeile verstümmelt:

        Diese Grafik zeigt, wie chinesischer Text dargestellt wird, wenn der automatischen Zeilenumbruch ein 2-Byte-Zeichen an der falschen Stelle trennt.

        Grafik der Darstellung "verstümmelter" Zeichen, verursacht durch automatischen Zeilenumbruch.

    Das Anzeigen von nichtdruckbaren Zeichen führt zur falschen Darstellung von chinesischen Zeichen:

        Hier ist die Schaltfläche dargestellt, die in Word für Windows die Anzeige nichtdruckbarer Zeichen aktiviert.

        Schaltfläche die in Word für Windows die Anzeige nichtdruckbarer Zeichen aktiviert.

        Dies ist der chinesische Text, so wie er aussehen sollte.

        Chinesische Text so wie er aussehen sollte.

        Dies ist der chinesische Text beeinflußt von der Anzeige der nichtdruckbaren Zeichen.

        Chinesischer Text beeinflußt von der Anzeige der nichtdruckbaren Zeichen

        Hier ist der Grund für diese falsche Darstellung zu sehen. Diese Grafik stellt die Codierung dar ohne Einfluß eines chinesischen Programms. Die Leerstellen zwischen zwei Zeichen werden als kleiner Punkt dargestellt und das Absatzende als umgedrehtes “P”. Das Programm interpretiert nun aber diese Zeichen als Teil des Codes und stellt sie mit dem korrespondierenden chinesischen Zeichen des Codes dar. Aus ursprünglich 16 1-Byte-Zeichen werden durch die Anzeige von Leerstellen und Absatzende 25 1-Byte-Zeichen. Da führende 1-Byte-Zeichen aus dem ASCII-Zeichensatz nicht einem kodierten Zeichen entsprechenn können, werden sie dargestellt (das n und das I). Das A am Anfang ist noch korrekter Bestandteil eines 2-Byte-Zeichen!

        Grund für diese falsche Darstellung. Chinesischer Text beeinflußt von der Anzeige der nichtdruckbaren Zeichen

    Umlaute werden ‘verschluckt’ oder mit dem folgenden Buchstaben als ein 2-Byte-Zeichen dargestellt:

        Diese Grafik zeigt wie die deutschen Umlaute beeinflußt werden, wenn ein Programm alle auf dem Bildschirm dargestellten Zeichen interpretiert. Da die Umlaute nicht Bestandteil des ASCII-Codes sind, stellen sie für ein Programm ein führendes Byte eines 2-Byte-Zeichen dar. Dementsprechend wird das korrespondierende Zeichen der Code-Tabelle dargestellt. Ist dieser Codeplatz nicht belegt, führt dies zu einem “verschlucken” des Umlauts und des folgenden Zeichens. Ist der Codeplatz belegt wird das entsprechende Zeichen dargestellt.

        Beeinflußung der deutschen Umlaute durch ein Programm, das alle auf dem Bildschirm dargestellten Zeichen interpretiert.

        Zurück zum Seitenanfang

      Christian-Weinert.de/acad/seminar/punkt1.htm
    Version 1.0, 19-Oct-1999
    © 1999 by Christian Weinert