HTML-Entität
Eine HTML-Entität ist eine Entität (also eine eindeutig abgrenzbare Zeichenfolge mit spezieller Bedeutung), die in HTML verwendet wird (also der textbasierten Auszeichnungssprache, in der beispielsweise Webseiten formuliert werden können). Häufig verwendet werden dort numerische Entitäten und benannte Entitäten, um Schriftzeichen zu bezeichnen (speziell wenn sie in der für die Webseite gewählten Codierung oder für die zur Erstellung verwendeten Eingabemethode nicht zur Verfügung stehen.) Auch bestimmte Steuerzeichen können so im Text sichtbar dargestellt werden.
Numerische Entitäten
Eine numerische Entität bezeichnet ein Zeichen durch seinen Unicode-Codepunkt. Hierfür sind zwei Formate definiert:
&#nnn;
– nnn repräsentiert hier den Codepunkt als Dezimalzahl (ohne führende Nullen).&#xhhhh;
– hhhh repräsentiert hier den Codepunkt als Hexadezimalzahl, also so, wie der Unicode-Codepunkt üblicherweise angegeben wird (ohne das einleitende „U+“). Führende Nullen können angegeben werden und sind bei weniger als vierstelligen Werten üblich, um den Wert gleichlautend zur üblichen vierstelligen Unicode-Codepunkt-Angabe anzugeben.
Unabhängig davon, in welchem Code („charset“) das HTML-Dokument vorliegt, gilt immer nur der Codepunkt in Unicode. Damit sind numerische Entitäten im Bereich €
bis Ÿ
oder hexadezimal €
bis Ÿ
falsch, wenn damit Zeichen dargestellt werden sollen, die im Code Windows-1252 Codepunkte in diesem Bereich haben. Dazu gehören u. a. die Zeichen € und ‰, die Buchstaben Œ, œ, Š, š, Ÿ, Ž und ž sowie verschiedene Anführungszeichen und Gedankenstriche. Zeichen mit Unicode-Codepunkten von U+0080
bis U+009F
kommen in Texten normalerweise nicht vor.
Benannte Entitäten
Eine benannte Entität hat das Format &aaa;
– aaa repräsentiert hier einen aus Groß- und Kleinbuchstaben des lateinischen Grundalphabets und Ziffern bestehenden Namen, der das zu bezeichnende Zeichen eindeutig identifiziert. Groß- und Kleinschreibung ist exakt zu verwenden und kann bedeutungsunterscheidend sein. Die Namen werden vom W3C (World Wide Web Consortium) festgelegt.[1][2]
Beispiele
Zeichen | Unicode | Bezeichnung | Dezimal- code |
Numerische Entität | Benannte Entität | ||
---|---|---|---|---|---|---|---|
Position | Name | dezimal | hexadez. | ||||
· | U+00B7 | middle dot | Halbhochpunkt | 0183 | · | · | · |
ſ | U+017F | latin small letter long s | langes s | 0383 | ſ | ſ | (keine) |
‰ | U+2030 | per mille sign | Promillezeichen | 8240 | ‰ | ‰ | ‰ |
🖷 | U+1F5B7 | fax icon | Faxsymbol | 128439 | 🖷 | 🖷 | (keine) |
Dass das Promillezeichen unter Windows auch mit dem Dezimalcode 0137
geschrieben werden kann, lässt sich nicht für HTML-Entitäten nutzen.
Einzelnachweise
- W3C (World Wide Web Consortium): Character entity references in HTML 4 – Liste der benannten Entitäten, die in HTML 4 (und somit beispielsweise für die Erstellung von Wikipedia-Artikeln) verfügbar sind
- W3C (World Wide Web Consortium): Character entity reference chart – Liste der benannten Zeichen-Entitäten, die in HTML 4 und in HTML5 verfügbar sind