ISO 8859-1

ISO 8859-1, genauer ISO/IEC 8859-1, auch bekannt als Latin-1, ist ein von der ISO zuletzt 1998 aktualisierter Standard für die Informationstechnik zur Zeichenkodierung mit acht Bit und der erste Teil der Normenfamilie ISO 8859.

ISO 8859
-1	Latin-1, Westeuropäisch
-2	Latin-2, Mitteleuropäisch
-3	Latin-3, Südeuropäisch
-4	Latin-4, Nordeuropäisch
-5	Kyrillisch
-6	Arabisch
-7	Griechisch
-8	Hebräisch
-9	Latin-5, Türkisch
-10	Latin-6, Nordisch
-11	Thai
~~-12~~	(existiert nicht)
-13	Latin-7, Baltisch
-14	Latin-8, Keltisch
-15	Latin-9, Westeuropäisch
-16	Latin-10, Südosteuropäisch

Die mit sieben Bit kodierbaren Zeichen entsprechen US-ASCII mit führendem Nullbit. Zusätzlich zu den 95 darstellbaren ASCII-Zeichen (20₁₆–7E₁₆) kodiert ISO 8859-1 96 weitere (A0₁₆–FF₁₆), also insgesamt 191 von theoretisch möglichen 256 (= 2⁸). Den Positionen 00₁₆–1F₁₆ und 7F₁₆–9F₁₆ sind in ISO/IEC 8859 und damit ISO/IEC 8859-1 keine Zeichen zugewiesen. Dieser Bereich wurde bewusst freigehalten, um die entsprechenden Bytes für die Gerätesteuerung nutzen zu können oder sicherzustellen, dass diese bei einer unzureichend spezifizierten Codierung nicht in Konflikt mit solchen Steuerzeichen geraten. Die von der IANA definierte Bezeichnung ISO-8859-1 (mit Bindestrich) steht für die Kombination der Zeichen dieser Norm mit nicht darstellbaren Steuerzeichen gemäß ISO/IEC 6429.

ISO/IEC 8859-1 versucht, möglichst viele Zeichen westeuropäischer Sprachen abzudecken. Da zur Vollständigkeit neben dem Eurosymbol vor allem für Französisch einige Zeichen fehlen, wurde als Alternative ISO 8859-15 geschaffen.

ISO 8859-1 ist eng verwandt mit der unter dem Betriebssystem Windows gebräuchlichen 8-Bit-Zeichenkodierung Windows-1252. Beide Codierungen unterscheiden sich im Bereich 80₁₆ bis 9F₁₆: Während ISO/IEC 8859-1 diesen Bereich frei hält, um hier Steuerzeichen kodieren zu können, belegt ihn Windows-1252 mit weiteren druckbaren Zeichen. Damit unterstützt diese Codierung auch die meisten westeuropäischen Sprachen und enthält auch alle druckbaren Zeichen von ISO 8859-15. Manche Applikationen vermischen die Definition von ISO 8859-1 und Windows-1252. Da beispielsweise in HTML die zusätzlichen Steuerzeichen aus ISO 8859-1 keine Bedeutung haben, werden oft die druckbaren Zeichen aus Windows-1252 verwendet. Aus diesem Grund schreibt der neue HTML5-Standard vor, dass als ISO 8859-1 markierte Texte als Windows-1252 zu interpretieren sind.[1] Im Januar 2019 verwenden 3,5 % aller Websites ISO 8859-1 bei fallender Tendenz. Latin-1 ist damit nach UTF-8 (93,0 %) die zweithäufigste Kodierung von Websites. Windows-1252 wird von 0,6 % der Websites verwendet.[2][3] Die Unterschiede zwischen all diesen Kodierungen sowie generell mangelnde Konsequenz bei der Unterstützung verschiedener Zeichensätze sind ein häufiges Interoperabilitätsproblem.

Auf ISO 8859-1 und den Steuerzeichen aus ISO/IEC 6429 basiert ebenfalls die unter dem Betriebssystem AmigaOS gebräuchliche 8-Bit-Zeichenkodierung Commodore Amiga, die sich lediglich durch vier Modifikationen unterscheidet.

Aufgrund der weiten Verbreitung von ISO 8859-1 wurde der Unicode-Standard gerade so angelegt, dass der Unicode-Standard eine Erweiterung von ISO 8859-1 ist. Ein Zeichen, das in ISO 8859-1 durch den Bytewert x kodiert wird, belegt deshalb im Unicode-Standard den Codepunkt x. Die tatsächlich benutzte Bytefolge kann vom Codepunkt abweichen, z. B. bei UTF-8 Kodierung.

Geschichte

ISO 8859-1 basiert auf dem DEC Multinational Character Set, das von der Digital Equipment Corporation im Terminal VT220 verwendet wurde. Es wurde ursprünglich von der European Computer Manufacturers Association (ECMA) entwickelt und im März 1985 als ECMA-94 veröffentlicht. Die zweite Auflage von ECMA-94 enthielt außerdem ISO 8859-2, ISO 8859-3 und ISO 8859-4 als Teil der Spezifikation.[4]

Tabellen

ISO/IEC 8859-1

Code	…0	…1	…2	…3	…4	…5	…6	…7	…8	…9	…A	…B	…C	…D	…E	…F
0…	nicht belegt
1…	nicht belegt
2…	SP	!	"	#	$	%	&	'	(	)	*	+	,	-	.	/
3…	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
4…	@	A	B	C	D	E	F	G	H	I	J	K	L	M	N	O
5…	P	Q	R	S	T	U	V	W	X	Y	Z	[	\	]	^	_
6…	`	a	b	c	d	e	f	g	h	i	j	k	l	m	n	o
7…	p	q	r	s	t	u	v	w	x	y	z	{	\|	}	~
8…	nicht belegt
9…	nicht belegt
A…	NBSP	¡	¢	£	¤	¥	¦	§	¨	©	ª	«	¬	SHY	®	¯
B…	°	±	²	³	´	µ	¶	·	¸	¹	º	»	¼	½	¾	¿
C…	À	Á	Â	Ã	Ä	Å	Æ	Ç	È	É	Ê	Ë	Ì	Í	Î	Ï
D…	Ð	Ñ	Ò	Ó	Ô	Õ	Ö	×	Ø	Ù	Ú	Û	Ü	Ý	Þ	ß
E…	à	á	â	ã	ä	å	æ	ç	è	é	ê	ë	ì	í	î	ï
F…	ð	ñ	ò	ó	ô	õ	ö	÷	ø	ù	ú	û	ü	ý	þ	ÿ

SP (für englisch space, 20_hex) ist das Leerzeichen, NBSP (non-breaking space, A0_hex) das feste Leerzeichen und SHY (soft hyphen, AD_hex) der normalerweise nur an Zeilenenden sichtbar werdende „bedingte Trennstrich“.

ISO/IEC 8859-1 kombiniert mit Sonderzeichen aus ISO/IEC 6429

Code	…0	…1	…2	…3	…4	…5	…6	…7	…8	…9	…A	…B	…C	…D	…E	…F
0…	NUL	SOH	STX	ETX	EOT	ENQ	ACK	BEL	BS	HT	LF	VT	FF	CR	SO	SI
1…	DLE	DC1	DC2	DC3	DC4	NAK	SYN	ETB	CAN	EM	SUB	ESC	FS	GS	RS	US
2…	wie ISO/IEC 8859, Windows-125X und US-ASCII
3…
4…
5…
6…
7…																DEL
8…	PAD	HOP	BPH	NBH	IND	NEL	SSA	ESA	HTS	HTJ	VTS	PLD	PLU	RI	SS2	SS3
9…	DCS	PU1	PU2	STS	CCH	MW	SPA	EPA	SOS	SGCI	SCI	CSI	ST	OSC	PM	APC
A…	wie ISO/IEC 8859-1 und Windows-1252
B…
C…
D…
E…
F…

Die IANA hat folgende gleichwertige großschreibungsunabhängige Bezeichnungen für diese Codetabelle zum Gebrauch in Internetanwendungen wie etwa MIME registriert:

ISO_8859-1:1987
ISO_8859-1
ISO-8859-1
ISO-IR-100
csISOLatin1
latin1
l1
IBM819
CP819

Verwendung

ISO 8859-1 ist neben US-ASCII und UTF-8 (einer Unicode-Kodierung) eine häufig gebrauchte Kodierung für lateinische Schriften. Im Gegensatz zu UTF-8 können türkische, ungarische und tschechische Zeichen nicht vollständig verwendet werden.

Für mindestens folgende Sprachen reicht ISO 8859-1 aus:

Englisch (£, ¢, außer Gebrauch: Æ/æ, ä, ë, ï, ö, ü; nicht Œ/œ)
Deutsch (Ä/ä, Ö/ö, Ü/ü, ß, in Fremdwörtern É/é; nicht ẞ, ſ (außer Gebrauch))
Nordfriesisch (Ä/ä, Ö/ö, Ü/ü, Å/å, nicht Ā/ā, Đ/đ, Ē/ē für Sölring)
Niederländisch (ÿ, Ë/ë, Ï/ï, seltener Á/á, É/é, Í/í, Ó/ó, Ú/ú; nicht Ĳ/ĳ)
Wallonisch (Â/â, Å/å, Ç/ç, È/è, É/é, Ê/ê, Î/î, Ô/ô, Û/û)
Afrikaans (È/è, É/é, Ê/ê, Ë/ë, Î/î, Ï/ï, Ô/ô, Û/û)

Dänisch (Å/å, Æ/æ, Ø/ø)
Schwedisch (Å/å, Ä/ä, Ö/ö)
Norwegisch, Bokmål und Nynorsk (Å/å, Æ/æ, Ø/ø, Ò/ò)
Färöisch (Á/á, Ð/ð, Í/í, Ó/ó, Ú/ú, Ý/ý, Æ/æ, Ø/ø)
Isländisch (Á/á, Ð/ð, É/é, Í/í, Ó/ó, Ú/ú, Ý/ý, Þ/þ, Æ/æ, Ö/ö)

Französisch (Æ/æ, À/à, Â/â, È/è, É/é, Ê/ê, Ë/ë, Î/î, Ï/ï, Ô/ô, Ù/ù, Û/û, Ç/ç, Ü/ü, ÿ, nicht Œ/œ, Ÿ)
Italienisch (À/à, È/è, É/é, Ì/ì, Ò/ò, Ù/ù)
Rätoromanisch (À/à, Á/á, Â/â, È/è, É/é, Ë/ë, Ì/ì, Í/í, Ò/ò, Ó/ó, Ö/ö, Ü/ü, nicht Š/š)
Katalanisch (À/à, Ç/ç, È/è, É/é, Í/í, Ï/ï, Ò/ò, Ó/ó, Ú/ú, Ü/ü, ·, nicht Ŀ/ŀ)
Spanisch (¡, ¿, ª, º, Á/á, É/é, Í/í, Ñ/ñ, Ó/ó, Ú/ú, Ü/ü, außer Gebrauch: Ç/ç)
Portugiesisch (ª, º, À/à, Á/á, Â/â, Ã/ã, Ç/ç, É/é, Ê/ê, Í/í, Ó/ó, Ô/ô, Õ/õ, Ú/ú, Ü/ü)

Irisches Gälisch (neue Orthographie: Á/á, É/é, Í/í, Ó/ó, Ú/ú)
Schottisches Gälisch (À/à, È/è, É/é, Ì/ì, Ò/ò, Ó/ó, Ù/ù)

Finnisch (Ä/ä, Ö/ö; in Fremdwörtern: Å/å, nicht Š/š, Ž/ž)
Estnisch (Ä/ä, Ö/ö, Ü/ü, Õ/õ, in Fremdwörtern: nicht Š/š, Ž/ž)

Albanisch (Ç/ç, Ë/ë)
Baskisch (Ñ/ñ)
Swahili

Alle Sprachen in der EU: nicht €

Nicht vollständig in ISO 8859-1 codiert werden können folgende Zeichen (die genannten Sprachen werden somit nur teilweise unterstützt):

Tschechisch (Č/č, Ď/ď, Ě/ě, Ň/ň, Ř/ř, Š/š, Ť/ť, Ů/ů, Ž/ž)
Ungarisch (Ő/ő, Ű/ű)
Türkisch (Ğ/ğ, İ/ı, Ş/ş)

Da die unterstützten Sprachen in Westeuropa, Amerika und Australien weitverbreitet sind, war es überall dort die dominierende 8-Bit-Zeichenkodierung. Neue Systeme verwenden UTF-8. Auch in Teilen Afrikas, in denen nicht die arabische Schrift verwendet wird, ist es weit verbreitet, obwohl oft einige Sonderzeichen fehlen, die aber auch in keiner anderen 8-Bit-Kodierung vorhanden sind, siehe z. B. pannigerianisches Alphabet.

Verwendung diakritischer Zeichen
Code	…0	…1	…2	…3	…4	…5	…6	…7	…8	…9	…A	…B	…C	…D	…E	…F
C…/E…	À/à	Á/á	Â/â	Ã/ã	Ä/ä	Å/å	Æ/æ	Ç/ç	È/è	É/é	Ê/ê	Ë/ë	Ì/ì	Í/í	Î/î	Ï/ï
C…/E…	fra ita cat por sco	fao gle isl por spa	fra por wln	por	deu eng est fin swe	dan fin nor swe wln	dan eng fao fra isl nor	alb fra cat por wln	afr fra ita cat sco wln	afr fra gle isl ita cat por spa wln	afr fra por wln	afr alb eng fra	sco	fao gle isl cat por spa	afr fra wln	afr eng fra cat
D…/F…	Ð/ð	Ñ/ñ	Ò/ò	Ó/ó	Ô/ô	Õ/õ	Ö/ö		Ø/ø	Ù/ù	Ú/ú	Û/û	Ü/ü	Ý/ý	Þ/þ	ß/ÿ
D…/F…	fao isl	baq spa	ita cat sco	fao gle isl cat por spa	afr fra por wln	est por	deu eng est fin isl swe		dan fao nor	fra ita sco	fao gle isl cat por spa	afr fra wln	deu eng est fra cat por spa	fao isl	isl	deu est fra nld

Siehe auch

Weblinks

ISO 8859-1 Mapping bei Unicode.org
Windows-1252 Mapping bei Unicode.org

Einzelnachweise

HTML 5.1 Nightly Editor’s Draft 19 February 2013, 8.2.2.2 Character encodings, aufgerufen am 19. Februar 2013.
Character encoding w3techs.com.
Faq w3techs.com.
ECMA (Hrsg.): Standard ECMA-94: 8-Bit Single-Byte Coded Graphic Character Sets. 2. Auflage. Juni 1984 (ecma-international.org [PDF; 2,7 MB; abgerufen am 4. Januar 2008]).

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. The authors of the article are listed here. Additional terms may apply for the media files, click on images to show image meta data.

[1] HTML 5.1 Nightly Editor’s Draft 19 February 2013, 8.2.2.2 Character encodings, aufgerufen am 19. Februar 2013.

[2] Character encoding w3techs.com.

[3] Faq w3techs.com.

[4] ECMA (Hrsg.): Standard ECMA-94: 8-Bit Single-Byte Coded Graphic Character Sets. 2. Auflage. Juni 1984 (ecma-international.org [PDF; 2,7 MB; abgerufen am 4. Januar 2008]).