Gesetz der Verteilung von Wortlängen
Das Gesetz der Verteilung von Wortlängen bedeutet, dass Wörter unterschiedlicher Länge in Texten und/oder in Wörterbüchern nicht chaotisch, sondern gesetzmäßig verteilt sind.
Die Wortlänge kann man verschieden definieren; am geläufigsten wird sie durch die Zahl der Buchstaben, Laute, Morphe oder der Silben je Wort angegeben. Gleich, welche Wahl man trifft, ist zu erwarten, dass die Häufigkeiten, mit denen die nach Länge geordneten Wörter in einem Text oder im Lexikon vertreten sind, gesetzmäßig verteilt sind. Das Gesetz der Verteilung von Wortlängen ist einer von vielen Gesetzesvorschlägen der Quantitativen Linguistik. Das entsprechende Gesetz haben zuletzt Altmann, Wimmer u. a.[1] abgeleitet; die Vorschläge zu diesem Gesetz, die seit den 1940er Jahren[2] zuerst von Sergei Tschebanow (1947), William Palin Elderton (1949)[3] und Wilhelm Fucks (1955) gemacht wurden, sind in dieser neuen Theorie als Spezialfälle enthalten. Eine Fülle von Überprüfungen an deutschen und über 50 weiteren Sprachen (über 4000 Texte und einige Wörterbücher) bestätigen die Theorie (Best 1997, 2001, 2003; Schmidt 1997). Wortlängen sind damit die bei weitem am besten erforschte Sprachgröße. Zur Geschichte des Gesetzes von den 1940er Jahren an und zu seiner Kritik vergleiche Grzybek (2006). Es hat sich gezeigt, dass die Hyperpoisson-Verteilung ein besonders häufig anwendbares Modell ist. Je nach Sprache, Autor, Zeit, Textsorte müssen aber oft auch andere Modelle eingesetzt werden.
Das Gesetz gilt analog für andere Spracheinheiten wie Morphe, rhythmische Einheiten, Sätze und Silben (siehe Gesetz der Verteilung von Morphlängen, Gesetz der Verteilung rhythmischer Einheiten verschiedener Länge, Gesetz der Verteilung von Satzlängen, Gesetz der Verteilung von Silbenlängen).
Untersuchungen zu Wortlängenverteilungen im Deutschen
Der empirische Befund für das Deutsche ist, dass die einsilbigen Wörter immer, von althochdeutscher Zeit an, bei allen Autoren, in allen Textsorten etc. am häufigsten sind, es folgen als nächsthäufige die zweisilbigen usw. Bei knapp 2000 Texten gab es immer dasselbe Ergebnis. Alle Texte bis auf 5 entsprechen der Hyperpoisson-Verteilung.
Ein Beispiel für eine Wortlängenverteilung (gemessen als Zahl der Silben pro Wort) in einem Brief von Kurt Tucholsky:[4]
x | n(x) | NP(x) |
---|---|---|
1 | 522 | 521,4 |
2 | 250 | 247,56 |
3 | 87 | 92,69 |
4 | 32 | 28,64 |
5 | 7 | 7,53 |
6 | 2 | 2,18 |
(Dabei ist x: Zahl der Silben pro Wort, n(x) die in diesem Text beobachtete Zahl der Wörter mit x Silben; NP(x) die Zahl der Wörter mit x Silben, die berechnet wird, wenn man die Hyperpoisson-Verteilung an die beobachteten Daten anpasst. Ergebnis: die Hyperpoisson-Verteilung ist für diesen Text ein gutes Modell mit dem Testkriterium P = 0,85, wobei P als gut erachtet wird, wenn es größer/ gleich 0,05 ist. Für ausführlichere Erläuterungen sei auf die angegebene Literatur verwiesen.)
Die Wortlängenverteilung dieses Textes ist für das Deutsche recht typisch: am häufigsten sind die Wörter, die aus nur einer Silbe bestehen; es folgen die zwei-, dann die dreisilbigen usw. Nur bei den seltenen Klassen der langen Wörter treten Unregelmäßigkeiten auf.
Solche Unregelmäßigkeiten verschwinden, wenn man sehr umfangreiche Dateien hat. Als Beispiel möge der Hinweis auf Kaedings Häufigkeitswörterbuch dienen, das im Artikel Wortlänge vorgestellt wird. Auch an diese Daten kann man die Hyperpoisson-Verteilung mit einem sehr guten Ergebnis anpassen.[5]
Sonderfall: Länge von Komposita
Als Sonderfall von Wortlängen kann man die Länge von Komposita betrachten. Ihre Länge lässt sich danach bestimmen, aus wie vielen Lexemen sie zusammengesetzt sind. Am Beispiel von Komposita in einem Korpus von Werbetexten[6] wurde folgendes Ergebnis erzielt:[7]
x | n(x) | NP(x) |
---|---|---|
1 | 192 | 192,41 |
2 | 63 | 60,66 |
3 | 10 | 12,66 |
4 | 1 | 1,97 |
5 | 1 | 0,24 |
6 | 1 | 0,06 |
(Dabei ist x = 1: Kompositum, bestehend aus 2 Lexemen, x = 2: Kompositum, bestehend aus 3 Lexemen, undsoweiter; n(x) ist die in diesem Textkorpus beobachtete Zahl der Komposita mit x Lexemen; NP(x) ist die Zahl der Komposita mit x Lexemen, die berechnet wird, wenn man die Hyperpoisson-Verteilung an die beobachteten Daten anpasst. Ergebnis: die Hyperpoisson-Verteilung ist für dieses Textkorpus ein gutes Modell mit dem Testkriterium P = 0,34, wobei P als gut erachtet wird, wenn es größer/ gleich 0,05 ist.)
Eine Untersuchung zur Länge von Komposita in Pressetexten aus GeoEpoche und FAZ[8] zeigte, dass der Unterschied zwischen den Komposita, die aus 2 Lexemen bestehen, und den dreigliedrigen Komposita wesentlich stärker war als bei den Werbetexten. Auch hier ließ sich eine Verteilung mit Erfolg anpassen. Das Ergebnis konnte durch weitere Untersuchungen an deutschen Pressetexten bestätigt werden.[9] (Für ausführlichere Erläuterungen sei auf die angegebene Literatur verwiesen.)
Befunde in anderen Sprachen
In anderen Sprachen sind oft nicht die einsilbigen Wörter die häufigsten, sondern die zwei- oder gar erst die dreisilbigen. Dies ist abhängig von der Morphologie der Sprachen. Zu den Sprachen, bei denen nicht die einsilbigen Wörter am häufigsten in Texten vorkommen, gehören unter anderen Finnisch und Latein. Ein weiteres Beispiel dafür ist das Japanische. Sanada[10] untersuchte einen Ausschnitt des Wörterbuchs des Japanischen, indem sie die Wortlängen gemäß der Zahl der Moren pro Wort bestimmte und feststellte, dass die 1-verschobene Binomialverteilung ein gutes Modell für dieses Phänomen abgibt:
x | n(x) | NP(x) |
---|---|---|
1 | 6 | 9,06 |
2 | 109 | 129,36 |
3 | 661 | 615,47 |
4 | 954 | 976,10 |
(Dabei ist x: Zahl der Moren pro Wort, n(x) die in diesem Text beobachtete Zahl der Wörter mit x Moren; NP(x) die Zahl der Wörter mit x Moren, die berechnet wird, wenn man die 1-verschobene Binomialverteilung an die beobachteten Daten anpasst. Ergebnis: Die Binomialverteilung ist für diesen Text ein gutes Modell mit dem Testkriterium C = 0,0047, wobei C als gut erachtet wird, wenn es kleiner/ gleich 0,01 ist. Das Testkriterium C wird hier bevorzugt, da die Gesamtzahl der Wörter n(x) recht hoch ist; P eignet sich eher bei einer deutlich geringeren Gesamtzahl.)
Ergebnisse zu 13 indischen Sprachen, für die jeweils 2 Texte mit der Zipf-Alekseev-Funktion untersucht wurden, präsentieren Mohanty & Popescu.[11] Wortlängen in 28 Sprachen stellen Popescu u. a. (2013) vor, wobei verschiedene Modelle genutzt wurden.[12] Bedeutsam ist auch im gleichen Band die Untersuchung von Lu Wang zu Wortlängen im Chinesischen, getrennt nach Token und Types, wobei unterschiedliche Verteilungen erfolgreich getestet wurden. Zusätzlich gelang auch der Nachweis, dass Polysemie und Wortlänge zusammenhängen: Je länger ein Wort, desto geringer die Polysemie.[13] Damit bestätigt Lu Wang für das Chinesische einen Zusammenhang, der von Altmann, Beöthy und Best (1982)[14] sowie Rothe (1983)[15] für Deutsch, Französisch, Portugiesisch, Slowakisch, Spanisch und Ungarisch nachgewiesen wurde.
Wortlängen, bestimmt nach der Zahl ihrer Buchstaben oder Phoneme
Bisher waren Wortlängen durch die Zahl ihrer Silben bestimmt. Silben können neben Morphen als direkte Konstituenten der Wörter betrachtet werden. Nimmt man aber Buchstaben oder Phoneme als Kriterium der Wortlängen, also ihre indirekten Konstituenten, so erhält man deutlich längere Tabellen, da Wörter durchaus mit knapp 70 Buchstaben vorkommen,[16] wenn auch nicht gerade sehr häufig. In einer Untersuchung zu etlichen Sprachen wurde festgestellt, dass auch in diesen Fällen ein mathematisches Modell, und zwar die Good-Verteilung, erfolgreich angewendet werden kann.[17]
Ergebnis und Perspektive
Die sehr umfangreichen Befunde zu den Wortlängenverteilungen in vielen verschiedenen Sprachen und Sprachstadien unterstützen in besonderem Maße die allgemeine Hypothese der Quantitativen Linguistik, dass in Sprachsystem und -verwendung ebenso wie im Sprachwandel theoretisch begründbare Gesetze gelten.
Es ist inzwischen durch etliche Untersuchungen gesichert, dass es zwischen der Wortlänge und anderen Spracheigenschaften innerhalb einzelner Sprachen eine ganze Reihe von gesetzmäßigen Abhängigkeiten gibt; vergleiche dazu vor allem den Artikel Linguistische Synergetik. Speziell zur Abhängigkeit der Wortlänge von der Worthäufigkeit siehe [18].
Literatur
- Karl-Heinz Best (Hrsg.): Glottometrika 16. The Distribution of Word and Sentence Length. Wissenschaftlicher Verlag Trier, Trier 1997. ISBN 3-88476-276-1.
- Karl-Heinz Best: Quantitative Linguistik. Eine Annäherung. 3., stark überarbeitete und ergänzte Auflage. Peust & Gutschmidt, Göttingen 2006. ISBN 3-933043-17-4.
- Karl-Heinz Best: Wortlänge. In: Reinhard Köhler, Gabriel Altmann, & Rajmund G. Piotrowski (Hrsg.): Quantitative Linguistik – Quantitative Linguistics. Ein internationales Handbuch. de Gruyter, Berlin/ New York 2005, S. 260–273. ISBN 3-11-015578-8.
- Karl-Heinz Best: Wortlängen im Deutschen. In: Göttinger Beiträge zur Sprachwissenschaft 13, 2006, 23–49.
- Peter Grzybek: History and Methodology of Word Length Studies. The State of the Art. In: Peter Grzybek (Hrsg.): Contributions to the Theory of Text and Language. Word Length Studies and Related Issues. Springer, Dordrecht (NL), 2006, S. 15–90. ISBN 1-4020-4067-9 (HB)
- Thomas Jahn, Annika Uckel: Verteilung der Wortlängen in englischen Spam-E-Mails. In: Glottometrics 17, 2008, Seite 1–7. (PDF Volltext)
- Ioan-Iovitz Popescu, et alii: Word length: aspects and languages. In: Reinhard Köhler, Gabriel Altmann (eds.): Issues in Quantitative Linguistics 3. Dedicated to Karl-Heinz Best on the occasion of his 70th birthday. Lüdenscheid: RAM-Verlag 2013, p. 224–281. ISBN 978-3-942303-12-5.
- Ioan-Iovitz Popescu, Karl-Heinz Best, Gabriel Altmann: Unified Modeling of Length in Language. RAM-Verlag, Lüdenscheid 2014. ISBN 978-3-942303-26-2. (Kapitel Word length Seite 14–86, Length of compounds Seite 87–88.)
- Otto Rottmann: On Word Lenth in German and Polish. In: Glottometrics 42, 2018, Seite 13–20. (PDF Volltext)
- Peter Schmidt (Hrsg.): Glottometrika 15. Issues in General Linguistic Theory and the Theory of Word Length. Wissenschaftlicher Verlag Trier, Trier 1996, S. 102–111. ISBN 3-88476-228-1
- Gejza Wimmer, Gabriel Altmann: Thesaurus of univariate discrete probability distributions. Stamm, Essen 1999. ISBN 3-87773-025-6
- Gejza Wimmer, Gabriel Altmann: Towards a Unified Derivation of Some Linguistic Laws. In: Peter Grzybek (ed.): Contributions to the Science of Text and Language: Word length studies and related issues. Springer, Dordrecht 2006, S. 329–337. ISBN 1-4020-4067-9 (HB)
- Gejza Wimmer, Viktor Witkovský, Gabriel Altmann: Modification of Probability Distributions Applied to Word Length Research. In: Journal of Quantitative Linguistics 6, 1999, 257–268.
Bibliographie
- Bibliography of Word Length. In: Glottometrics 34, 2016, Seite 84–89 (PDF Volltext). (Bibliographie zum Gesetz der Verteilung von Wortlängen)
Siehe auch
Weblinks
Einzelnachweise
- Gejza Wimmer, Reinhard Köhler, Rüdiger Grotjahn & Gabriel Altmann: Towards a Theory of Word Length Distribution. In: Journal of Quantitative Linguistics 1, 1994, 98–106; Gejza Wimmer, Gabriel Altmann: The Theory of Word Length Distribution: Some Results and Generalizations. In: Peter Schmidt (Hrsg.): Glottometrika 15. Wissenschaftlicher Verlag Trier, Trier 1996, S. 112–133.
- Karl-Heinz Best, Sergej Viktorovič Čebanov: Biographische Notiz: Sergej Grigor‘evič Čebanov (1897-1966). In: Karl-Heinz Best (Hrsg.): Häufigkeitsverteilungen in Texten. Peust & Gutschmidt, Göttingen 2001, S. 281–283; Sergej Viktorovič Čebanov: O podčinenii rečevych ukladov ‘indoevropejskoj’ gruppy zakonu Puassona. In: Doklady Akademii Nauk SSSR. Tom 55/2, 1947, S. 103-106. (= On conformity of language structures within the Indoeuropean family to Poisson’s law.); William P. Elderton: A few statistics on the length of English words. In: Journal of the Royal Statistical Society, Series A (General), Volume CXII, Part IV, 1949, S. 436–445.; Wilhelm Fucks: Theorie der Wortbildung. In: Mathematisch-Physikalische Semesterberichte. Bd. 4, 1955, S. 195–212.
- Best, Karl-Heinz (2009): William Palin Elderton (1877-1962). In: Glottometrics 19, p. 99–101. (PDF Volltext)
- Stefan Ammermann: Zur Wortlängenverteilung in deutschen Briefen über einen Zeitraum von 500 Jahren. In: Karl-Heinz Best (Hrsg.): Häufigkeitsverteilungen in Texten. Peust & Gutschmidt, Göttingen 2001, S. 59–91. S. 81
- Siehe Best (2006), Seite 41.
- Bernhard Sowinski: Werbeanzeigen und Werbesendungen. Oldenbourg, München 1979, Seite 110, ISBN 3-486-03931-8; Bernhard Sowinski: Werbung. Niemeyer, Tübingen 1998, Seite 67, ISBN 3-484-37104-8.
- Best 2006, Seite 47.
- Stefanie Poppe: Die Verteilung von Kompositälängen in deutschen journalistischen Texten. In: Göttinger Beiträge zur Sprachwissenschaft, 15, 2007, Seite 79–85; Popescu, Best, Altmann 2014, Seite 87–88.
- Karl-Heinz Best: Längen von Komposita im Deutschen, in: Glottometrics 23, 2012, S. 1–6 (PDF Volltext).
- Haruko Sanada: Investigations in Japanese Historical Lexicology (Revised Edition). Peust & Gutschmidt, Göttingen 2008, S. 96f. ISBN 978-3-933043-12-2.
- Panchanan Mohanty, Ioan-Iovitz Popescu: Word length in Indian languages 1, in: Glottometrics 29, 2014, S. 95–109 (PDF Volltext)
- Ioan-Iovitz Popescu, et alii: Word length: aspects and languages. In: Reinhard Köhler, Gabriel Altmann (eds.): Issues in Quantitative Linguistics 3. Dedicated to Karl-Heinz Best on the occasion of his 70th birthday. Lüdenscheid: RAM-Verlag 2013, S. 224–281. ISBN 978-3-942303-12-5.
- Lu Wang: Word length in Chinese. In: Reinhard Köhler, Gabriel Altmann (eds.): Issues in Quantitative Linguistics 3. Dedicated to Karl-Heinz Best on the occasion of his 70th birthday. Lüdenscheid: RAM-Verlag 2013, S. 39–53. ISBN 978-3-942303-12-5.
- G. Altmann, E, Beöthy und K.-H. Best: Die Bedeutungsmenge und das Menzerathsche Gesetz. In: Zeitschrift für Phonetik, Sprachwissenschaft und Kommunikationsforschung 35, S. 537–543.
- U. Rothe: Wortlänge und Bedeutungsmenge: Eine Untersuchung zum Menzerathschen Gesetz an drei romanischen Sprachen. In: R. Köhler, J. Boy (eds.): Glottometrika 5. Brockmeyer, Bochum 1983, S. 101–112. ISBN 3-88339-307-X.
- Siehe Artikel: Wortlänge: Kürzeste Wörter – längste Wörter.
- Mats Eeg-Olofsson: A word length regularity and its genesis, in: Glottometrics 19, 2009, S. 49–69 (PDF Volltext)
- Word length and frequency (Memento vom 15. Februar 2015 im Internet Archive)