Häufigkeitsklasse

Eine Häufigkeitsklasse ist in der Linguistik ein statistisches Maß für die Gebrauchshäufigkeit eines Wortes in einer natürlichen Sprache oder in einem Sprachausschnitt. Zur Berechnung der Häufigkeitsklasse wird das Zipfsche Gesetz verwendet, das als Sprachgesetz eine besondere Bedeutung in der Quantitativen Linguistik hat. Auch in der Korpuslinguistik haben sich Häufigkeitsklassen als empirisches Häufigkeitsmaß etabliert.

Vorkommenshäufigkeit von Personalpronomina in einem Korpus der serbokroatischen Sprache

Berechnung

Als Grundlage für die Berechnung wird eine repräsentative und hinreichend große Menge an verfügbaren schriftlichen Quellen aus einer Sprache verwendet, die Korpus genannt wird. Das am häufigsten auftretende Wort in diesem Korpus wird als Vergleichsgrundlage verwendet. In der deutschen Schriftsprache ist dies das Wort der, in der englischen the („der/die/das“), in der schwedischen och („und“).

Das Zipfsche Gesetz dient dabei als Berechnungsgrundlage. Der Wert der Häufigkeitsklasse $N$ berechnet sich dabei mit dem Logarithmus zur Basis 2 des Quotienten aus dem zu untersuchenden Wort und dem am häufigsten auftretenden Wort.

N=\left\lfloor 0{,}5-\log _{2}\left({\frac {\text{Haeufigkeit des untersuchten Wortes}}{\text{Haeufigkeit des haeufigsten Wortes}}}\right)\right\rfloor

Die Gaußklammer $\lfloor \dotso \rfloor$ rundet das Zwischenergebnis auf eine ganze Zahl ab. Zusammen mit dem addierten Wert 0,5 führt die Gaußklammer hier dazu, dass der Wert des Logarithmus auf die nächste ganze Zahl auf- oder abgerundet wird (dabei wird 0,5 aufgerundet zu 1).

Die so berechnete Häufigkeitsklasse $N$ ist eine ganze Zahl, die ausdrückt, um wie viel Mal häufiger das häufigste Wort als das untersuchte Wort im ausgewerteten Datenbestand auftritt. Das am häufigsten vorkommende Wort selbst gehört der Häufigkeitsklasse 0 an, und i. A. ist es der einzige Vertreter dieser Klasse. Wörter, die etwa ${\tfrac {1}{2^{N}}}$ Mal so häufig wie dieses auftreten, werden in die Häufigkeitsklasse $N$ eingeordnet. Daraus ergibt sich, dass ein Wort umso häufiger vorkommt, je kleiner seine Häufigkeitsklasse ist.

Größe der Häufigkeitsklassen, Rang

Nach dem Zipfschen Gesetz erwartet man, dass die Klasse $N$ etwa $2^{N}$ Wörter (Types) enthält und dass die Summe ihrer Vorkommen (Tokens) in jeder Klasse ungefähr gleich ist, wobei diese Näherung für die obersten und untersten Klassen am wenigsten genau ist. Insbesondere erwartet man nach dem Zipfschen Gesetz für jedes Korpus, dass ungefähr die Hälfte aller auftretenden Wörter (Types) jeweils nur einmal vorkommt.

Aus dem Zipfschen Gesetz ergibt sich als erste Abschätzung, dass die Klasse 0 etwa $2^{0}$ = 1 Wort enthält, die Klasse 1 etwa $2^{1}$ = 2 Wörter, die Klasse 9 etwa $2^{9}$ = 512 Wörter usw.[1] In allen Klassen bis einschließlich zur Klasse 9 sind etwa 1000 Wörter enthalten. Die folgende Häufigkeitsklasse 10 umfasst damit diejenigen etwa 1000 Wörter, die in der Häufigkeit etwa auf Rang 1000 bis 2000 liegen; dies sind allerdings nur recht grobe Anhaltswerte.[2]

Wortformen und Lexeme

Häufigkeitsklassen können auf zwei linguistischen Ebenen betrachtet werden: Für eine einzelne Wortform (wie oben dargestellt) oder für ein gesamtes Lexem mit seinen verschiedenen Wortformen. Das am häufigsten vorkommende Wort, dessen Häufigkeit bei der Berechnung der Häufigkeitsklasse als Vergleichsgröße verwendet wird, sollte auf derselben linguistischen Ebene bestimmt sein: In der deutschen Schriftsprache ist die häufigste Wortform das Wort der und das häufigste Lexem der bestimmte Artikel (mit den flektierten Formen der, die, das, des, dem, den).

Siehe auch

Literatur

Helmut Meier: Deutsche Sprachstatistik, 2. Auflage, Olms, Hildesheim 1978, ISBN 9783487007359.

Weblinks

https://wortschatz.uni-leipzig.de – Wortschatzlexikon der Universität Leipzig auf Basis deutscher Quellen mit Angabe der Häufigkeitsklasse
DeReWo – Korpusbasierte Grund-/Wortformenlisten des Instituts für Deutsche Sprache mit Angabe der Häufigkeitsklasse
Online-Rechner für Häufigkeitsklassen

Einzelnachweise

Dies stimmt einigermaßen mit der Praxis überein: Laut den Untersuchungen der Uni Leipzig ist der Klasse 9 ein log(Anzahl der Wörter in HKL 9) von etwa 6,5 zugeordnet, es dürften sich somit etwa 700 Wörter in dieser Klasse befinden, siehe Grafik 'Anzahl der Wörter in den Häufigkeitsklassen' (Memento des Originals vom 5. März 2016 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2 auf FAQ zum Wortschatz, Uni Leipzig (Memento des Originals vom 12. November 2015 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2.
Verwendbar z. B. um die Angaben aus den Häufigkeitsabfragen besser deuten zu können.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. The authors of the article are listed here. Additional terms may apply for the media files, click on images to show image meta data.

[1] Dies stimmt einigermaßen mit der Praxis überein: Laut den Untersuchungen der Uni Leipzig ist der Klasse 9 ein log(Anzahl der Wörter in HKL 9) von etwa 6,5 zugeordnet, es dürften sich somit etwa 700 Wörter in dieser Klasse befinden, siehe Grafik 'Anzahl der Wörter in den Häufigkeitsklassen' (Memento des Originals vom 5. März 2016 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2 auf FAQ zum Wortschatz, Uni Leipzig (Memento des Originals vom 12. November 2015 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2.

[2] Verwendbar z. B. um die Angaben aus den Häufigkeitsabfragen besser deuten zu können.