GB2312

GB2312 i​st ein Zeichensatz (engl. Coded Character Set) für vereinfachte chinesische Schriftzeichen, d​er 1980 eingeführt wurde. Er umfasst insgesamt 7.445 Zeichen, d​avon 6.763 chinesische Schriftzeichen.

Alle Zeichen s​ind in e​iner 94×94-Matrix angeordnet[1], s​omit sind maximal 8.836 Zeichen möglich. Dieses System w​ird auch v​on JIS X 0208 u​nd KS X 1001 verwendet.

Der e​rste Bereich (Zeile 1 b​is 9) kodiert Satzzeichen s​owie die griechische Schrift, d​ie kyrillische Schrift, japanische Kana, Zhuyin s​owie Buchstaben für Pinyin. Die beiden anderen Bereiche enthalten chinesische Schriftzeichen: In Zeile 16 b​is 55 s​ind chinesische Schriftzeichen n​ach der Pinyin-Transliteration sortiert, d​ie Zeilen 56 b​is 87 enthalten chinesische Schriftzeichen n​ach der Sortierung i​m Kangxi-Wörterbuch.

Kodierung

Vom Zeichensatz selbst ist die Kodierung (engl. Character Encoding Scheme) zu unterscheiden.[2]
GB2312 wird normalerweise in Form von EUC-CN verwendet. Dabei sind die beiden Zeichensätze US-ASCII (als 1-Byte-Zeichen) und GB2312 (als 2-Byte-Zeichen) kombiniert. Zur Unterscheidung von den ASCII-Zeichen wird zu den Zeilen- und Spalten-Nummern der GB2312-Zeichen jeweils 160 (0xA0) addiert, so dass Bytes im Bereich 0xA1 bis 0xFF entstehen. Das 1. Byte entspricht dabei der Zeilennummer, das 2. Byte der Spaltennummer.
Im Mailverkehr war auch die 7-Bit-Kodierung HZ üblich.

Weiterentwicklung

1995 wurde GB2312 durch die Spezifikation GBK erweitert, die jedoch nie offizielle Norm wurde und somit keine GB-Nummer bekam.[3] Durch die Verwendung unter Windows fand sie jedoch große Verbreitung.
2000 wurde GB2312 offiziell von GB18030 abgelöst, wird jedoch weiterhin häufig verwendet.

Verwendung unter Windows

Unter Windows ist GB2312 in der EUC-CN-Kodierung als Codepage 20936 verfügbar. Dazu muss unter Windows XP die Erweiterungsoption „Dateien für ostasiatische Sprachen“ installiert sein. Unter Windows 7 ist keine Erweiterungsoption notwendig, GB2312 ist hier standardmäßig verfügbar.
An einigen Stellen wird unter Windows jedoch die Codepage 936 fälschlicherweise als GB2312 bezeichnet. In Wirklichkeit ist Codepage 936 eine Implementierung von GBK. Im Dialog „Dateikonvertierung“ von Microsoft Word 2003 und Word 2010 wird Codepage 936 als „Chinesisch vereinfacht (GB2312)“ und Codepage 20936 als „Chinesisch vereinfacht (GB2312-80)“ zur Auswahl angeboten.

Referenzen

  1. Ken Lunde: CJKV Information Processing. O'Reilly, 1999, ISBN 1-56592-224-7 (1. Aufl.) bzw. ISBN 0-596-51447-6 (2. Aufl. 2009), App. E (Memento des Originals vom 22. November 2004 im Internet Archive)  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/examples.oreilly.de (PDF; 3,6 MB)
  2. RFC 2978
  3. (siehe GB Standard)
  • Zeichentabelle GB2312 bei O'Reilly (PDF; 3,6 MB) oder bei C. Wittern, Kyoto (PDF; 3,6 MB) (Anmerkung: Zeile 10 und 11 dieser Darstellung enthalten die halbbreiten Varianten der ASCII-Zeichen (aus Zeile 3) und der für Pinyin verwendeten lateinischen Sonderzeichen (aus Zeile 8). Diese Inhalte sind nachträgliche Ergänzungen.)
  • Zeichentabelle in der Form von EUC-CN (engl.) bei Ngai Kim Hoong
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. The authors of the article are listed here. Additional terms may apply for the media files, click on images to show image meta data.