Liste der Unicode-Eigenschaften

Der Unicode-Standard kodiert nicht nur eine sehr große Zahl von Zeichen, sondern legt zu jedem dieser Zeichen auch eine Reihe von Eigenschaften fest, die das Zeichen und sein Verhalten beschreiben. So kann man den Eigenschaften des Buchstaben Ä etwa entnehmen, dass es sich um einen Großbuchstaben handelt, dass der zugehörige Kleinbuchstabe das ä ist oder dass er sich in ein A mit Trema zerlegen lässt.

Allgemeines

Formal sind Unicode-Eigenschaften als Abbildungen von Codepunkten in einen bestimmten Wertebereich definiert. Die Daten werden in verschiedenen einfachen Textdateien sowie als XML-Datei zur Verfügung gestellt.

Werte

Je nach Eigenschaft sind verschiedene Wertebereiche möglich. Die meisten Eigenschaften sind aufzählende Eigenschaften, ihr Wertebereich besteht aus einer festgelegten Menge. Aufzählende Eigenschaften werden nochmals weiter unterteilt in Katalogeigenschaften und binäre Eigenschaften. Katalogeigenschaften zeichnen sich dadurch aus, dass mit neuen Unicode-Versionen die Menge der möglichen Werte schrittweise anwächst. Binäre Eigenschaften sind aufzählende Eigenschaften mit genau zwei Werten, wahr (Y) und falsch (N). Es wird also angegeben, ob die Eigenschaft auf dieses Zeichen zutrifft oder nicht.

Außerdem gibt es Stringeigenschaften, die jedem Zeichen eine Zeichenkette aus Unicode-Zeichen zuordnen, numerische Eigenschaften, die jedem Zeichen eine Zahl zuordnen und sonstige Eigenschaften, die sich keiner dieser Kategorien zuordnen lassen.

Standardwerte

Eigenschaften haben aus mehreren Gründen ein oder mehrere Standardwerte. Zum einen wird in den Tabellen oft der Standardwert ausgelassen, um diese übersichtlicher zu gestalten. Zum anderen müssen Programme auch mit Text umgehen können, der nach einer neueren Unicode-Version erstellt wurde, und daher auch Zeichen enthalten kann, die zu dem Zeitpunkt, als das Programm entwickelt wurde, noch nicht belegt waren. Für aufzählende Eigenschaften ist jeweils meist ein Wert festgelegt, der als Standard gilt, in wenigen Fällen gibt es mehrere Standardwerte, die je nach Block vergeben werden. Bei binären Eigenschaften ist der Standardwert immer N, also nicht zutreffend.

Bei Stringeigenschaften ist der Standardwert immer das Zeichen selbst.

Aliase

Viele Eigenschaften haben neben ihrem eigentlichen Namen auch einen oder mehrere Aliasnamen. Häufig handelt es sich dabei um Abkürzungen. Auch für die möglichen Werte aufzählender Eigenschaften sind oft kurze Aliase festgelegt.

Status

Viele Eigenschaften sind normativ, also verbindlich für Programme, die nach dem Unicode-Standard arbeiten und die Eigenschaft interpretieren. Andere Eigenschaften sind dagegen als informativ gekennzeichnet und dienen nur als Zusatzinformation ohne verbindlichen Charakter. Eine Gruppe von Eigenschaften ist als beisteuernd gekennzeichnet. Diese Eigenschaften sollten nicht für sich alleine verwendet werden, sondern wurden definiert, um andere Eigenschaften daraus abzuleiten. Sie kennzeichnen meist eine Ausnahmemenge von Zeichen, die ansonsten nicht erfasst würde. Als Letztes gibt es noch provisorische Eigenschaften, die zunächst unter Vorbehalt aufgenommen wurden, um zu sehen, ob sie sich in der Praxis bewähren.

Einige Eigenschaften sind zusätzlich als deprecated („überholt“) markiert, diese sollten aus unterschiedlichen Gründen nicht mehr verwendet werden, bleiben aber aus Gründen der Abwärtskompatibilität im Unicode-Standard vorhanden.

Stabilität

Um Abwärtskompatibilität zu gewährleisten, werden einige Eigenschaften, sobald sie einmal für ein Zeichen festgelegt sind, nicht oder nur in bestimmter vorher bekannter Weise geändert. So ist etwa festgelegt, dass der Name eines Zeichens nie geändert wird, selbst wenn er sich als falsch herausstellt.

Eigenschaften

Die folgenden Listen führen alle Unicode-Eigenschaften auf, gruppiert wie in der offiziellen Dokumentation, zum Stand Unicode 6.3. Angegeben ist jeweils der Name der Eigenschaft, ein abkürzender Alias-Name (falls vorhanden), der Status der Eigenschaft, die Art des Wertebereichs und eine Beschreibung.

Allgemein

Die allgemeinen Eigenschaften geben einen groben Überblick über das Zeichen. Verwendung finden sie unter anderem in regulären Ausdrücken, wenn diese etwa wie in Perl die Abfrage von Unicode-Eigenschaften unterstützen.[1]

Eigenschaft	Kurz	Status	Werte	Beschreibung
`Name`	`na`	normativ	Sonstiges	Name des Zeichens^*
`Name_Alias`		normativ	Sonstiges	Aliasnamen, vor allem für Kontrollzeichen verwendet, bei denen die Eigenschaft `Name` grundsätzlich leer bleibt
`Block`	`blk`	normativ	Katalog	Unicodeblock, in dem das Zeichen liegt
`Age`	`age`	normativ informativ	Katalog	Version, in der das Zeichen aufgenommen wurde
`General_Category`	`gc`	normativ	aufzählend	grobe Unterteilung aller Zeichen, siehe eigener Abschnitt
`Script`	`sc`	informativ	Katalog	Schriftsystem des Zeichens, also etwa Lateinisch, Griechisch, Kyrillisch, etc.; `Common` für Zeichen, die in mehreren Schriftsystemen verwendet werden
`Script_Extensions`		informativ	Sonstiges	Schriftsysteme bei Zeichen, die in mehreren Systemen verwendet werden
`White_Space`	`WSpace`	normativ	binär	kennzeichnet ein Zeichen als Leerzeichen
`Alphabetic`	`Alpha`	informativ	binär	Zeichen aus Alphabeten
`Hangul_Syllable_Type`	`hst`	normativ	aufzählend	Bestimmung der Silbenblöcke im Koreanischen
`Noncharacter_Code_Point`	`NChar`	normativ	binär	reservierte Zeichen
`Default_Ignorable_Code_Point`	`DI`	normativ	binär	Zeichen, die bei der Darstellung ignoriert werden sollten, sofern das Programm sie nicht unterstützt
`Deprecated`	`Dep`	normativ	binär	missbilligte Zeichen, die nicht mehr verwendet werden sollten
`Logical_Order_Exception`	`LOE`	normativ	binär	Zeichen, die vor der Anwendung des Unicode Collation Algorithm mit dem folgenden Zeichen vertauscht werden müssen
`Variation_Selector`	`VS`	normativ	binär	Variantenselektoren, die zwischen verschiedenen Darstellungsvarianten des vorhergehenden Zeichens wählen

^* Neben einzelnen Zeichen haben auch einige Zeichenfolgen einen eigenen Namen.[2]

Allgemeine Kategorie

Die Eigenschaft General_Category ist eine der grundlegenden Eigenschaften, die sowohl im Unicode-Standard selbst als auch in vielen anderen technischen Dokumentationen verwendet wird. Sie unterteilt alle Zeichen nach ihrer Hauptverwendung in Buchstaben, Zahlen, Interpunktion und weitere. Die folgende Tabelle listet die möglichen Werte auf.

Kategorie	Code	Bedeutung	Beispiele
Buchstabe	`L`
Großbuchstabe	`Lu`	Großbuchstabe	A, Ä, Δ, Ǆ
Kleinbuchstabe	`Ll`	Kleinbuchstabe	a, ä, δ, ǆ
Titelbuchstabe	`Lt`	Zeichen, die in Titelschreibweise stehen. Dies sind nur einige wenige Zeichen, die einen Digraph kodieren	ǅ
Modifizierender Buchstabe	`Lm`	Buchstaben, die den vorangehenden Buchstaben modifizieren	Buchstaben aus dem Unicodeblock Spacing Modifier Letters
Sonstiger Buchstabe	`Lo`	Buchstaben aus Alphabeten, die nicht zwischen Groß- und Kleinschreibung unterscheiden (etwa Hebräisch), CJK und sonstige	ב, 丌
Kombinierendes Zeichen	`M`
ohne Vorschub	`Mn`	Kombinierendes Zeichen, das auf oder unter das vorangehenden Zeichen gesetzt wird	kombinierende diakritische Zeichen
mit Vorschub	`Mc`	Kombinierendes Zeichen, das selbst Platz beansprucht	indische Vokalzeichen
umschließend	`Me`	Kombinierendes Zeichen, das das vorangehende Zeichen ganz umschließt	Kombinierender umschließender Kreis
Zahl	`N`
Ziffer	`Nd`	Ziffern	0, 1
Buchstabe	`Nl`	Buchstaben, die als Zahlen verwendet werden	Ⅲ
Sonstiges Zahlzeichen	`No`	sonstige Zahlen, etwa hochgestellte, eingekreiste oder Brüche	², ½, ②
Interpunktion	`P`
verbindend	`Pc`	Zeichen, die zwei Teile zu einem Wort verbinden	Unterstrich
Strich	`Pd`	verschiedene Striche: Bindestrich, Gedankenstrich, etc.	-, –, —
öffnend	`Ps`	öffnende Klammern	(, [, {
schließend	`Pe`	schließende Klammern	), ], }
öffnendes Anführungszeichen	`Pi`	öffnende Anführungszeichen (kann je nach Sprache auch als schließendes verwendet werden)	«
schließendes Anführungszeichen	`Pf`	schließendes Anführungszeichen (kann je nach Sprache auch als öffnendes verwendet werden)	»
sonstige Interpunktion	`Po`	Satzzeichen und andere Interpunktion, die in keine der obigen Kategorien fallen	! . , : ; ? §
Symbol	`S`
Mathematisches Symbol	`Sm`	Symbole, die in mathematischen Zusammenhängen verwendet werden	+, <, >, ±
Währungssymbol	`Sc`	Symbole, die eine Währung kennzeichnen	$, €
Modifizierendes Symbol	`Sk`	Symbole, die das vorangehende Zeichen modifizieren	Symbole aus dem Unicodeblock Spacing Modifier Letters
Sonstiges Symbol	`So`	Symbole, die in keine der obigen Kategorien fallen	⛔, ©
Leerraum	`Z`
Leerzeichen	`Zs`	Leerzeichen unterschiedlicher Breite	Leerzeichen, geschütztes Leerzeichen
Zeilenumbruch	`Zl`		Zeilentrenner (U+2028)
Absatzumbruch	`Zp`		Absatztrenner (U+2029)
Sonstiges Zeichen	`C`
Steuerzeichen	`Cc`	allgemeine Steuerzeichen	BEL
Formatierung	`Cf`	Steuerzeichen zur Formatierung	bedingter Trennstrich, bidirektionale Steuerzeichen
Surrogate	`Cs`	Surrogate
Privater Gebrauch	`Co`	Zeichen zum privaten Gebrauch	U+F8FF
nicht zugewiesen	`Cn`	Codepunkte, denen (noch) kein Zeichen zugewiesen ist

Groß-/Kleinschreibung

Viele Eigenschaften beschäftigen sich mit der Groß-/Kleinschreibung. Sie legen fest, ob ein Zeichen ein Groß- oder Kleinbuchstabe ist, welches der Kleinbuchstabe zu einem gegebenen Großbuchstaben ist und umgekehrt und weiteres. Um Zeichenketten schreibweisenunabhängig zu vergleichen, wird eine als case fold bezeichnete Normalform definiert. Verwendet werden diese Eigenschaften unter anderem von den verschiedenen Unicode-Casing-Algorithmen.

Eigenschaft	Kurz	Status	Werte	Beschreibung
`Uppercase`	`Upper`	informativ	binär	kennzeichnet ein Zeichen als Großbuchstaben
`Lowercase`	`Lower`	informativ	binär	kennzeichnet ein Zeichen als Kleinbuchstaben
`Cased`		informativ	binär	kennzeichnet alle Zeichen die ein Groß-, Klein- oder Titelbuchstabe sind
`Simple_Lowercase_Mapping`	`slc`	normativ	String	zugehöriger Kleinbuchstabe (falls es sich um ein Zeichen handelt)
`Simple_Titlecase_Mapping`	`stc`	normativ	String	zugehöriger Titelbuchstabe (falls es sich um ein Zeichen handelt)
`Simple_Uppercase_Mapping`	`suc`	normativ	String	zugehöriger Großbuchstabe (falls es sich um ein Zeichen handelt)
`Simple_Case_Folding`	`scf`	normativ	String	zugehöriger casefold-Buchstabe (falls es sich um ein Zeichen handelt)
`Lowercase_Mapping`	`lc`	informativ	String	entsprechende Zuordnungen, die auch komplexere Umwandlungen beinhalten
`Titlecase_Mapping`	`tc`	informativ	String
`Uppercase_Mapping`	`uc`	informativ	String
`Case_Folding`	`cf`	normativ	String
`Soft_Dotted`	`SD`	normativ	binär	`i`, `j` und ähnliche Zeichen, deren Punkt bei der Großschreibung und im Zusammenhang mit diakritischen Zeichen entfernt wird
`Case_Ignorable`	`CI`	informativ	binär	Zeichen ohne Bedeutung für Fragen nach Groß-/Kleinschreibung
`Changes_When_Lowercased`	`CWL`	informativ	binär	Zeichen, die sich beim Umwandeln in Kleinschreibung ändern
`Changes_When_Titlecased`	`CWT`	informativ	binär	Zeichen, die sich beim Umwandeln in Titelschreibung ändern
`Changes_When_Uppercased`	`CWU`	informativ	binär	Zeichen, die sich beim Umwandeln in Großschreibung ändern
`Changes_When_Casefolded`	`CWCF`	informativ	binär	Zeichen, die sich beim Umwandeln in die casefold-Normalform ändern
`Changes_When_Casemapped`	`CWCM`	informativ	binär	Zeichen, die sich bei irgendeiner Änderung von Groß-/Kleinschreibung ändern

Numerisch

Die folgenden Eigenschaften beschäftigen sich mit numerischen Eigenschaften von Zeichen, besonders den Zahlzeichen in Unicode.

Eigenschaft	Kurz	Status	Werte	Beschreibung
`Numeric_Value`	`nv`	normativ	numerisch	numerischer Wert des Zeichens
`Numeric_Type`	`nt`	normativ	aufzählend	Art (Dezimal, Ziffer, Numerisch)
`ASCII_Hex_Digit`	`AHex`	normativ	binär	ASCII-Zeichen, die für Hexadezimalziffern verwendet werden, also `0` bis `9`, `a` bis `f` und `A` bis `F`
`Hex_Digit`	`Hex`	informativ	binär	Zeichen, die für Hexadezimalziffern verwendet werden, einschließlich ihrer Varianten

Normalisierung

Eine Reihe von Eigenschaften behandelt die verschiedenen Arten der Normalisierung von Unicode-Texten.

Eigenschaft	Kurz	Status	Werte	Beschreibung
`Canonical_Combining_Class`	`ccc`	normativ	aufzählend/numerisch	gibt an, welche kombinierende Zeichen miteinander wechselwirken und in welcher Reihenfolge sie sortiert werden sollen
`Decomposition_Mapping`	`dm`	normativ	String	gibt die Zerlegung eines Zeichens an
`Decomposition_Type`	`dt`	normativ informativ	aufzählend	gibt die Art der Zerlegung (kanonisch, ändert die Schriftart/das Umbruchverhalten/etc.) an
`Composition_Exclusion`	`CE`	normativ	binär	Zeichen mit einer kanonischen Zerlegung, die in den kombinierten Normalformen nicht verwendet werden sollen
`Full_Composition_Exclusion`	`Comp_Ex`	normativ	binär
`FC_NFKC_Closure`	`FC_NFKC`	normativ deprecated	String	zugehörige casefold-Normalform, falls das Zeichen erst in die casefold-Normalform und dann in NFKC überführt wird
`NFC_Quick_Check`	`NFC_QC`	normativ	aufzählend	Eigenschaften, die einen schnellen Test ermöglichen, ob eine Zeichenkette in einer bestimmten Normalform vorliegt
`NFKC_Quick_Check`	`NFKC_QC`	normativ	aufzählend
`NFD_Quick_Check`	`NFD_QC`	normativ	aufzählend
`NFKD_Quick_Check`	`NFKD_QC`	normativ	aufzählend
`Expands_On_NFC`	`XO_NFC`	normativ deprecated	binär	Zeichen, die beim Umwandeln in die entsprechende Normalisierungsform zu mehreren Zeichen werden
`Expands_On_NFD`	`XO_NFD`	normativ deprecated	binär
`Expands_On_NFKC`	`XO_NFKC`	normativ deprecated	binär
`Expands_On_NFKD`	`XO_NFKD`	normativ deprecated	binär
`NFKC_Casefold`	`NFKC_CF`	informativ	String	Zeichen nach Umwandlung in NFKC und anschließend die casefold-Normalform
`Changes_When_NFKC_Casefolded`	`CWKCF`	informativ	binär	Zeichen, die sich ändern, wenn sie erst in NFKC und dann in die casefold-Normalform überführt werden

Darstellung

Die folgenden Eigenschaften spielen eine Rolle bei der Darstellung von Text.

Eigenschaft	Kurz	Status	Werte	Beschreibung
`Joining_Group`	`jg`	normativ	aufzählend	legt fest wie bzw. ob sich ein Buchstabe mit seinen Nachbarn verbindet, siehe Arabisch in Unicode
`Joining_Type`	`jt`	normativ	aufzählend
`Join_Control`	`Join_C`	normativ	binär	Steuerzeichen für Ligaturen und Buchstabenverbindungen
`Line_Break`	`lb`	normativ	aufzählend	legt das Umbruchverhalten für den Unicode-Zeilenumbruch-Algorithmus fest
`Grapheme_Cluster_Break`	`GCB`	informativ	aufzählend	werden in den Segmentierungsalgorithmen zur Bestimmung der Grenzen von Graphemen, Sätzen und Wörtern verwendet
`Sentence_Break`	`SB`	informativ	aufzählend
`Word_Break`	`WB`	informativ	aufzählend
`East_Asian_Width`	`ea`	informativ	aufzählend	gibt die Breite eines Zeichens an, die bei der Darstellung ostasiatischer Texte eine Rolle spielt
`Prepended_Concatenation_Mark`	`PCM`	informativ	binär	Zeichen, die nachfolgende Zeichen umspannen, etwa das syrische Abkürzungszeichen

Bidi

Für die Darstellung von bidirektionalem Text stehen folgende Eigenschaften zur Verfügung.

Eigenschaft	Kurz	Status	Werte	Beschreibung
`Bidi_Class`	`bc`	normativ	aufzählend	bestimmt die Schreibrichtung im Unicode-Bidi-Algorithmus
`Bidi_Control`	`Bidi_C`	normativ	binär	Bidirektionales Steuerzeichen
`Bidi_Mirrored`	`Bidi_M`	normativ	binär	gibt an, ob ein Zeichen im linksläufigen Text gespiegelt dargestellt werden muss
`Bidi_Mirroring_Glyph`	`bmg`	informativ	Sonstiges	mögliches Spiegelbild des Zeichens, etwa `(` als Spiegelbild für `)`, in einigen Fällen existiert kein solches Zeichen
`Bidi_Paired_Bracket`	`bpb`	normativ	Sonstiges	Gegenstück einer Klammer
`Bidi_Paired_Bracket_Type`	`bpt`	normativ	aufzählend	kennzeichnet öffnende und schließende Klammern

Bezeichner

Die folgenden Eigenschaften sind eine Möglichkeit, die erlaubten Zeichen in Bezeichnern festzulegen. Im Gegensatz zu klassischen Programmiersprachen, die nur ASCII-Zeichen erlauben, sind in Sprachen, die diese Eigenschaften verwenden, ein Großteil der Unicode-Zeichen in Bezeichnern zulässig. Ein Beispiel für eine Sprache, deren Syntax weitgehend diesen Umfang zulässt, ist JavaScript.[3]

Eigenschaft	Kurz	Status	Werte	Beschreibung
`ID_Start`	`IDS`	informativ	binär	Zeichen, das am Anfang eines Bezeichners stehen kann
`ID_Continue`	`IDC`	informativ	binär	Zeichen, das an den folgenden Stellen in einem Bezeichner stehen kann
`XID_Start`	`XIDS`	informativ	binär	Zeichen, das am Anfang eines Bezeichners stehen kann
`XID_Continue`	`XIDC`	informativ	binär	Zeichen, das an den folgenden Stellen in einem Bezeichner stehen kann
`Pattern_Syntax`	`Pat_Syn`	normativ	binär	Zeichen, die in der Syntax verwendet werden können
`Pattern_White_Space`	`Pat_WS`	normativ	binär	Zeichen, die als Leerraum behandelt werden sollten

CJK

Einige Eigenschaften betreffen CJK-Zeichen. Zusätzlich gibt es noch eine Reihe weiterer Eigenschaften, siehe den Abschnitt Unihan.

Eigenschaft	Kurz	Status	Werte	Beschreibung
`Ideographic`	`Ideo`	informativ	binär	CJK-Zeichen
`IDS_Binary_Operator`	`IDSB`	normativ	binär	Ideographisches Beschreibungszeichen
`IDS_Trinary_Operator`	`IDST`	normativ	binär	Ideographisches Beschreibungszeichen
`Unified_Ideographic`	`UIdeo`	normativ	binär	chinesisches Schriftzeichen, das in ideographischen Beschreibungssequenzen verwendet werden kann
`Radical`		normativ	binär	Radikal, das in ideographischen Beschreibungssequenzen verwendet werden kann

Sonstiges

Einige Eigenschaften dienen hauptsächlich der Information über ein Zeichen, ohne dass sie für spezielle Anwendungen vorgesehen sind.

Eigenschaft	Kurz	Status	Werte	Beschreibung
`Math`		informativ	binär	Mathematische Zeichen in Unicode
`Quotation_Mark`	`QMark`	informativ	binär	Anführungszeichen
`Dash`		informativ	binär	horizontale Striche verschiedener Länge
`Hyphen`		informativ deprecated	binär	Bindestrich und ähnliche Zeichen, wurde ursprünglich für den Zeilenumbruch benutzt und dort durch die `Line_Break`-Eigenschaft abgelöst
`STerm`		informativ	binär	Zeichen, die ein Satzende markieren
`Terminal_Punctuation`	`Term`	informativ	binär	Satzzeichen, die meist ein Satzende markieren
`Diacritic`	`Dia`	informativ	binär	Diakritisches Zeichen
`Extender`	`Ext`	informativ	binär	Zeichen, die den vorausgehenden Buchstaben erweitern, etwa Längenzeichen
`Grapheme_Base`	`Gr_Base`	normativ	binär	ältere Eigenschaften zur Bestimmung von Graphemen, siehe `Grapheme_Cluster_Break` im Abschnitt Darstellung für die neuere Methode `Grapheme_Link` kann aus der `Canonical_Combining_Class`-Eigenschaft ermittelt werden
`Grapheme_Extend`	`Gr_Ext`	normativ	binär
`Grapheme_Link`	`Gr_Link`	informativ deprecated	binär
`Unicode_1_Name`	`na1`	informativ	Sonstiges	alter Name in der Unicode-Version 1.0
`ISO_Comment`	`isc`	informativ deprecated	Sonstiges	ursprünglich für Kommentare in der ISO 10646 Namensliste benutzt, jetzt leer
`Indic_Matra_Category`		provisorisch	aufzählend	bestimmt die Platzierung abhängiger Vokale in indischen Schriften
`Indic_Syllabic_Category`		provisorisch	aufzählend	bestimmt die Struktur der Kategorien silbenbildender Komponenten in indischen Schriften

Beisteuernde Eigenschaften

Diese Eigenschaften werden nicht alleine verwendet, sondern werden benutzt, um andere Eigenschaften daraus abzuleiten. Meist handelt es sich um Ausnahmemengen, die durch die allgemeine Kategorie nicht abgedeckt werden.

Eigenschaft	Kurz	Status	Werte	Beschreibung
`Other_Alphabetic`	`OAlpha`	beisteuernd	binär	für `Alphabetic`
`Other_Default_Ignorable_Code_Point`	`ODI`	beisteuernd	binär	für `Default_Ignorable_Code_Point`
`Other_Grapheme_Extend`	`OGr_Ext`	beisteuernd	binär	für `Grapheme_Extend`
`Other_ID_Start`	`OIDS`	beisteuernd	binär	für Abwärtskompatibilität von `ID_Start`
`Other_ID_Continue`	`OIDC`	beisteuernd	binär	für Abwärtskompatibilität von `ID_Continue`
`Other_Lowercase`	`OLower`	beisteuernd	binär	für `Lowercase`
`Other_Math`	`OMath`	beisteuernd	binär	für `Math`
`Other_Uppercase`	`OUpper`	beisteuernd	binär	für `Uppercase`
`Jamo_Short_Name`	`JSN`	beisteuernd	Sonstiges	für `Name` koreanischer Silbenblöcke

Unihan

Für CJK-Zeichen, die im Zuge der Han-Vereinheitlichung in Unicode aufgenommen wurden, existiert eine eigene Datenbank, die Eigenschaften speziell für diese Zeichen bereitstellt. Die Angaben zur Quelle bezeichnen dabei die Zeichenkodierung in verschiedenen nationalen Zeichensätzen. Neben den hier aufgeführten Eigenschaften gibt es eine Reihe weiterer provisorischer Eigenschaften, die weitere Hinweise zur Aussprache, Bedeutung, alternativen Kodierungen etc. liefern.

Eigenschaft	Status	Werte	Beschreibung
`kAccountingNumeric`	informativ	numerisch	numerischer Wert für fälschungssichere Zahlzeichen
`kOtherNumeric`	informativ	numerisch	numerischer Wert eines Zeichens, das selten als Zahlzeichen verwendet wird
`kPrimaryNumeric`	informativ	numerisch	numerischer Wert eines gewöhnlichen Zahlzeichens
`kCompatibilityVariant`	normativ	String	Normalisierung des Zeichens, sofern es sich um eine Kompatibilitätsvariante handelt
`kIICore`	normativ	Sonstiges	Zeichen, das auf allen Systemen vorhanden sein sollte
`kIRG_GSource`	normativ	Sonstiges	Quelle: China/Singapur
`kIRG_HSource`	normativ	Sonstiges	Quelle: Hongkong
`kIRG_JSource`	normativ	Sonstiges	Quelle: Japan
`kIRG_KPSource`	normativ	Sonstiges	Quelle: Nordkorea
`kIRG_KSource`	normativ	Sonstiges	Quelle: Südkorea
`kIRG_MSource`	normativ	Sonstiges	Quelle: Macao
`kIRG_TSource`	normativ	Sonstiges	Quelle: Taiwan
`kIRG_USource`	normativ	Sonstiges	Quelle: USA
`kIRG_VSource`	normativ	Sonstiges	Quelle: Vietnam
`kRSUnicode`	informativ	Sonstiges	Radikal und Anzahl der weiteren Striche
`kMandarin`	informativ	Sonstiges	Pinyin-Lesart
`kTotalStrokes`	informativ	Sonstiges	Anzahl der Striche inklusive Radikal

Quellen

Mark Davis, Ken Whistler: Unicode Standard Annex #44: Unicode Character Database. (online)
John H. Jenkins, Richard Cook, Ken Lunde: Unicode Standard Annex #38: Unicode Han Database. (online)
Ken Whistler, Asmus Freytag: Unicode Technical Report #23: The Unicode Character Property Model. (online)
Eric Muller: Unicode Standard Annex #42: Unicode Character Database in XML. (online)

Einzelnachweise

perlretut: More on characters, strings, and character classes. Perl-Dokumentation auf perldoc.perl.org
Addison Phillips: Unicode Standard Annex #34: Unicode Named Character Sequences. (online)
ECMAScript Language Specification, 5.1 Edition, 7.6 Identifier Names and Identifiers

Weblinks

Unicode Character Database
Übersicht über alle Eigenschaften (englisch)
Unicode Browser des ICU-Projekts (englisch)
Graphemica, Übersicht über alle Eigenschaften eines Zeichens (englisch)
Codepoints, Übersicht über alle Eigenschaften eines Zeichens, inklusive Suche

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. The authors of the article are listed here. Additional terms may apply for the media files, click on images to show image meta data.

[1] rlretut: More on characters, strings, and character classes. Perl-Dokumentation auf perldoc.perl.org

[2] Addison Phillips: Unicode Standard Annex #34: Unicode Named Character Sequences. (online)

[3] ECMAScript Language Specification, 5.1 Edition, 7.6 Identifier Names and Identifiers