Logarithmische Normalverteilung
Die logarithmische Normalverteilung (kurz Log-Normalverteilung) ist eine kontinuierliche Wahrscheinlichkeitsverteilung für eine Variable, die nur positive Werte annehmen kann. Sie beschreibt die Verteilung einer Zufallsvariablen , wenn die mit dem Logarithmus transformierte Zufallsvariable normalverteilt ist. Sie bewährt sich als Modell für viele Messgrößen in Naturwissenschaften, Medizin und Technik, beispielsweise für Energien, Konzentrationen, Längen und Mengenangaben.
In Analogie zu einer normalverteilten Zufallsvariablen, die nach dem zentralen Grenzwertsatz als Summe vieler verschiedener Zufallsvariablen aufgefasst werden kann, entsteht eine logarithmisch normalverteilte Zufallsvariable durch das Produkt vieler positiver Zufallsvariablen. Somit ist die Log-Normalverteilung die einfachste Verteilungsart für multiplikative Zufallsprozesse. Da multiplikative Gesetze in den Naturwissenschaften, der Ökonomie und der Technik eine größere Rolle spielen als additive, ist die Log-Normalverteilung in vielen Anwendungen diejenige, die der Theorie am besten entspricht -- der zweite Grund, weshalb sie vielfach anstelle der gewöhnlichen, additiven Normalverteilung verwendet werden sollte.
Definition
Erzeugung
Wenn eine standardnormalverteilte Zufallsvariable ist, dann ist log-normalverteilt mit den Parametern und , geschrieben als . Alternativ können als Parameter die Größen und verwendet werden. ist ein Skalen-Parameter. oder ebenso bestimmt die Form der Verteilung.
Wenn log-normalverteilt ist, dann ist auch log-normalverteilt, und zwar mit den Parametern und respektive und . Ebenso ist log-normalverteilt, mit den Parametern und respektive und .
Dichtefunktion
Eine stetige, positive Zufallsvariable unterliegt einer logarithmischen Normalverteilung mit den Parametern und , wenn die transformierte Zufallsvariable einer Normalverteilung folgt. Ihre Dichtefunktion ist dann
- .
Verteilungsfunktion
Damit hat die Log-Normalverteilung für die Verteilungsfunktion
- ,
wobei die Verteilungsfunktion der Standardnormalverteilung bezeichnet.
Die Verteilungsfunktion der logarithmischen Normalverteilung erscheint auf logarithmisch geteiltem Wahrscheinlichkeitspapier als Gerade.
Mehrdimensionale log-Normalverteilung
Sei ein mehrdimensional (oder multivariat) normalverteilter Zufallsvektor. Dann ist (d. h. ) multivariat log-normalverteilt. Die mehrdimensionale Log-Normalverteilung ist viel weniger bedeutsam als die eindimensionale. Deshalb bezieht sich der nachfolgende Text fast ausschließlich auf den eindimensionalen Fall.
Eigenschaften
Quantile
Ist das p-Quantil einer Standardnormalverteilung (d. h. , wobei die Verteilungsfunktion der Standardnormalverteilung sei), so ist das p-Quantil der Log-Normalverteilung gegeben durch
- .
Median, multiplikativer Erwartungswert
Der Median der logarithmischen Normalverteilung beträgt demnach . Er wird auch multiplikativer oder geometrischer Erwartungswert genannt (vgl. geometrisches Mittel). Er ist ein Skalen-Parameter, da gilt.
Multiplikative Standardabweichung
In Analogie zum multiplikativen Erwartungswert ist die multiplikative oder geometrische Standardabweichung. Sie bestimmt (ebenso wie selbst) die Form der Verteilung. Es gilt .
Da das multiplikative oder geometrische Mittel einer Stichprobe von lognormalen Beobachtungen (siehe „Parameterschätzung“ unten) selbst log-normalverteilt ist, kann man seine Standardabweichung angeben, sie beträgt .
Modus
Der Modus, also der häufigste Wert der Verteilung bzw. der Wert, für den die Verteilungsfunktion ihr Maximum annimmt, beträgt für die logarithmische Normalverteilung
- .
Varianz, Standardabweichung, Variationskoeffizient
Die Varianz ergibt sich zu
- .
Für die Standardabweichung ergibt sich
- .
Aus Erwartungswert und Varianz erhält man unmittelbar den Variationskoeffizienten
- .
Schiefe
Die Schiefe ergibt sich zu
- ,
d. h., die Log-Normalverteilung ist rechtsschief.
Je größer die Differenz zwischen Erwartungswert und Median, desto ausgeprägter ist i. a. die Schiefe einer Verteilung. Hier unterscheiden sich diese Parameter um den Faktor . Die Wahrscheinlichkeit für extrem große Ausprägungen ist also bei der Log-Normalverteilung mit großem hoch.
Momente
Es existieren alle Momente und es gilt:
- .
Die momenterzeugende Funktion und die charakteristische Funktion existieren für die Log-Normalverteilung nicht in expliziter Form.
Multiplikation von unabhängigen, log-normalverteilten Zufallsvariablen
Multipliziert man zwei unabhängige, log-normalverteilte Zufallsvariable und , so ergibt sich wieder eine log-normalverteilte Zufallsvariable mit den Parametern und , wobei . Entsprechendes gilt für das Produkt von solchen Variablen.
Grenzwertsatz
Das geometrische Mittel von unabhängigen, gleich verteilten, positiven Zufallsvariablen zeigt für genähert eine Log-Normalverteilung, die immer mehr einer gewöhnlichen Normalverteilung gleicht, da abnimmt.
Erwartungswert und Kovarianzmatrix einer mehrdimensionalen Log-Normalverteilung
Der Erwartungswert-Vektor ist
und die Kovarianzmatrix
Beziehungen zu anderen Verteilungen
Beziehung zur Normalverteilung
Der Logarithmus einer logarithmisch normalverteilten Zufallsvariablen ist normalverteilt. Genauer: Ist eine -verteilte reelle Zufallsvariable (d. h. normalverteilt mit Erwartungswert und Varianz ), so ist die Zufallsvariable log-normalverteilt mit diesen Parametern und .
Wenn und damit geht, geht die Form der Log-Normalverteilung gegen diejenige einer gewöhnlichen Normalverteilung.
Verteilung mit schweren Rändern
Die Verteilung gehört zu den Verteilungen mit schweren Rändern.
Parameterschätzung und Statistik
Parameterschätzung
Die Schätzung der Parameter aus einer Stichprobe von Beobachtungen erfolgt über die Bestimmung von Mittelwert und (quadrierter) Standardabweichung der logarithmierten Werte:
.
Die Schätzung der multiplikativen Parameter erfolgt durch und . ist das geometrische Mittel. Seine Verteilung ist log-normal mit multiplikativem Erwartungswert und geschätzter multiplikativer Standardabweichung (besser als multiplikativer Standardfehler bezeichnet) .
Wenn keine Einzelwerte vorliegen, sondern nur der Mittelwert und die empirische Varianz der nicht logarithmierten Werte bekannt sind, erhält man passende Parameterwerte über
- oder direkt .
Statistik
Allgemein erfolgt die statistische Analyse von log-normalverteilten Größen am einfachsten und Erfolg versprechendsten so, dass die Größen logarithmiert werden und auf diese transformierten Werte die Methoden verwendet werden, die auf der gewöhnlichen Normalverteilung beruhen. Im Bedarfsfall werden dann die Ergebnisse, beispielsweise Vertrauens- oder Vorhersage-Intervalle, in die ursprüngliche Skala zurücktransformiert.
Grundlegendes Beispiel dafür ist die Berechnung von Streuungs-Intervallen. Da für eine gewöhnliche Normalverteilung in einem Bereich von etwa 2/3 (genauer 68 %) und in 95 % der Wahrscheinlichkeit enthalten sind, gilt für die Log-Normalverteilung:
- Das Intervall enthält 2/3
- und das Intervall enthält 95 %
der Wahrscheinlichkeit (und also etwa diese Prozentzahl der Beobachtungen einer Stichprobe). Die Intervalle können in Analogie zu als und notiert werden.
In graphischen Darstellungen (untransformierter) Beobachtungen sollten deshalb solche asymmetrische Intervalle gezeigt werden.[2][3]
Anwendungen
Variation in vielen natürlichen Phänomenen lässt sich gut mit der Log-Normalverteilung beschreiben. Dies kann erklärt werden durch die Vorstellung, dass kleine prozentuale Abweichungen zusammenwirken, die einzelnen Effekte sich also multiplizieren. Bei Wachstumsprozessen ist dies besonders naheliegend. Zudem bestehen die Formeln für die meisten grundlegende Naturgesetze aus Multiplikationen und Divisionen. Auf der logarithmischen Skala ergeben sich dann Additionen und Subtraktionen, und der entsprechende Zentrale Grenzwertsatz führt zur Normalverteilung – zurücktransformiert auf die ursprüngliche Skala also zur Log-Normalverteilung. Diese multiplikative Version des Grenzwertsatzes ist auch als Gesetz von Gibrat bekannt. Robert Gibrat (1904–1980) formulierte es für Unternehmen.[4]
In einigen Wissenschaften ist es üblich, Messgrößen in Einheiten anzugeben, die durch Logarithmieren einer gemessenen Konzentration (Chemie) oder Energie (Physik, Technologie) erhalten werden. So wird der Säuregrad einer wässerigen Lösung durch den pH-Wert gemessen, der als negativer Logarithmus der Wasserstoffionen-Aktivität definiert ist. Eine Lautstärke wird in Dezibel (dB) angegeben, das , wobei das Verhältnis des Schalldruckpegels zu einem entsprechenden Referenzwert ist. Analoges gilt für andere Energie-Pegel. In der Finanzmathematik wird ebenfalls oft direkt mit logarithmierten Größen (Preisen, Kursen, Erträgen) gerechnet, siehe unten.
Für solche „bereits logarithmierte“ Größen ist dann die gewöhnliche Normalverteilung oft eine gute Wahl; also wäre hier, wenn man die ursprünglich gemessene Größe betrachten wollte, die Log-Normalverteilung geeignet.
Generell eignet sich die Log-Normalverteilung für Messgrößen, die nur positive Werte annehmen können, also Konzentrationen, Massen und Gewichte, räumliche Größen, Energien usw.
Die folgende Liste zeigt mit Beispielen die breite Palette der Anwendungen der Log-Normalverteilung.
- Hydrologie: Die Log-Normalverteilung nützt bei der Analyse von Extremwerten wie – beispielsweise – monatliche oder jährliche Maxima der täglichen Regenmenge oder des Abflusses von Gewässern.[6]
- Biologie und Medizin
- Maße der Größe von Lebewesen (Länge, Hautfläche, Gewicht);[8]
- Physiologische Größen wie der Blutdruck von Männern und Frauen.[9] Als Konsequenz sollten Referenzbereiche für gesunde Werte auf der Grundlage einer Log-Normalverteilung geschätzt werden.
- Inkubationszeiten von ansteckenden Krankheiten;[10]
- In der Neurologie zeigt die Verteilung der Impulsrate von Nervenzellen oft eine log-normale Form, so im Cortex und Striatum[11] und im Hippocampus und im entorhinalen Cortex[12] sowie in anderen Hirnregionen.[13][14] Ebenso für weitere neurobiologische Größen.[15]
- Sensitivität gegenüber Fungiziden;[16]
- Bakterien auf Pflanzenblättern:[17]
- Permeabilität von Zellwänden und Mobilität von gelösten Stoffen:[18]
- Sozialwissenschaften und Ökonomie
- Einkommensverteilungen zeigen, bis auf wenige Extremwerte, eine genäherte Log-Normalverteilung.[19] (Für das obere Ende eignet sich die Pareto-Verteilung.)[20]
- In der Finanzmathematik werden logarithmierte Erträge, Preise etc. als normalverteilt modelliert, was bedeutet, dass die ursprünglichen Größen log-normalverteilt sind. Das gilt auch für das berühmte Black-Scholes-Modell,[21] das der Preisbildung von Optionen und Derivaten zugrunde liegt. Allerdings mag bei genauer Analyse die Lévy-Verteilung für die extrem großen Werte besser passen,[22] vor allem bei Börsenstürzen.
- Einwohnerzahlen von Städten
- In Internet-Foren sind die Längen der Kommentare log-normalverteilt,[23] ebenso die Verweildauer bei Online-Artikeln wie Nachrichten oder Witzen.[24]
- Die Dauer von Schachspielen folgt einer Log-Normalverteilung.[25]
- Technologie
- In der Modellierung der Zuverlässigkeit werden Reparaturzeiten als log-normalverteilt beschrieben.[26]
- Internet: Die Dateigröße von öffentlich verfügbaren Audio- und Video-Dateien ist genähert log-normalverteilt.[27] Analoges gilt für den Datenverkehr.[28]
Literatur
- Edwin L Crow (Hrsg.): Lognormal Distributions, Theory and Applications (= Statistics: Textbooks and Monographs), Band 88. Marcel Dekker, Inc., 1988, ISBN 978-0-8247-7803-3, S. xvi+387.
- j Aitchison, J A C Brown: The Lognormal Distribution. Cambridge University Press, 1957.
- Eckhard Limpert, Werner A Stahel, Markus Abbt: PDF Lognormal distributions across the sciences: keys and clues. In: BioScience. 51, Nr. 5, 2001, S. 341–352. doi:10.1641/0006-3568(2001)051[0341:LNDATS]2.0.CO;2.
Einzelnachweise
- Leigh Halliwell: The Lognormal Random Multivariate. In: Casualty Actuarial Society E-Forum, Arlington VA, Spring 2015..
- Eckhard Limpert, Werner A Stahel, Markus Abbt: Lognormal distributions across the sciences: keys and clues. In: BioScience. 51, Nr. 5, 2001, S. 341–352. doi:10.1641/0006-3568(2001)051[0341:LNDATS]2.0.CO;2.
- Eckhard Limpert, Werner A Stahel: Problems with Using the Normal Distribution – and Ways to Improve Quality and Efficiency of Data Analysis. In: PlosOne. 51, Nr. 5, 2011, S. 341–352. doi:10.1641/0006-3568(2001)051[0341:LNDATS]2.0.CO;2.
- John Sutton: Gibrat's Legacy. In: Journal of Economic Literature. 32, Nr. 1, 1997, S. 40–59.
- L H Ahrens: The log-normal distribution of the elements (A fundamental law of geochemistry and its subsidiary). In: Geochimica et Cosmochimica Acta. 5, 1954, S. 49–73.
- R.J. Oosterbaan: 6: Frequency and Regression Analysis. In: H.P. Ritzema (Hrsg.): Drainage Principles and Applications, Publication 16. International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands 1994, ISBN 978-90-70754-33-4, S. 175–224.
- G Sugihara: Minimal community structure: An explanation of species abundunce patterns. In: American Naturalist. 116, 1980, S. 770–786.
- Julian S Huxley: Problems of relative growth. London, 1932, ISBN 978-0-486-61114-3, OCLC 476909537.
- Robert W. Makuch, D H Freeman, M F Johnson: Justification for the lognormal distribution as a model for blood pressure. In: Journal of Chronic Diseases. 32, Nr. 3, 1979, S. 245–250. doi:10.1016/0021-9681(79)90070-5.
- P E Sartwell: The incubation period and the dynamics of infectious disease. In: American Journal of Epidemiology. 83, 1966, S. 204–216.
- Gabriele Scheler, Johann Schumann: Diversity and stability in neuronal output rates. In: 36th Society for Neuroscience Meeting, Atlanta..
- Kenji Mizuseki, György Buzsáki: Preconfigured, skewed distribution of firing rates in the hippocampus and entorhinal cortex. In: Cell Reports. 4, Nr. 5, 12. September 2013, ISSN 2211-1247, S. 1010–1021. doi:10.1016/j.celrep.2013.07.039. PMID 23994479. PMC 3804159 (freier Volltext).
- György Buzsáki, Kenji Mizuseki: The log-dynamic brain: how skewed distributions affect network operations. In: Nature Reviews. Neuroscience. 15, Nr. 4, 2017, ISSN 1471-003X, S. 264–278. doi:10.1038/nrn3687. PMID 24569488. PMC 4051294 (freier Volltext).
- Adrien Wohrer, Mark D Humphries, Christian K Machens: Population-wide distributions of neural activity during perceptual decision-making. In: Progress in Neurobiology. 103, 2013, ISSN 1873-5118, S. 156–193. doi:10.1016/j.pneurobio.2012.09.004. PMID 23123501. PMC 5985929 (freier Volltext).
- Gabriele Scheler: Logarithmic distributions prove that intrinsic learning is Hebbian. In: F1000 Research. 6, 2017, S. 1222. doi:10.12688/f1000research.12130.2. PMID 29071065. PMC 5639933 (freier Volltext).
- R A Romero, T B Sutton: Sensitivity of Mycosphaerella fijiensis, causal agent of black sigatoka of banana, to propiconozole. In: Phytopathology. 87, 1997, S. 96–100.
- S S Hirano, E V Nordheim, D C Arny, C D Upper: Log-normal distribution of epiphytic bacterial populations on leaf surfaces. In: Applied and Environmental Microbiology. 44, 1982, S. 695–700.
- P Baur: Log-normal distribution of water permeability and organic solute mobility in plant cuticles. In: Plant, Cell and Environment. 20, 1997, S. 167–177.
- Fabio Clementi, Mauro Gallegati: Pareto's law of income distribution: Evidence for Germany, the United Kingdom, and the United States. 2005.
- Souma Wataru: Physics of Personal Income. Bibcode: 2002cond.mat..2388S. Abgerufen am 22. Februar 2002.
- F Black, M Scholes: The Pricing of Options and Corporate Liabilities. In: Journal of Political Economy. 81, Nr. 3, 1973, S. 637. doi:10.1086/260062.
- Benoit Mandelbrot: The (mis-)Behaviour of Markets. Basic Books, 2004, ISBN 9780465043552.
- Sobkowicz Pawel, et al.: Lognormal distributions of user post lengths in Internet discussions - a consequence of the Weber-Fechner law?. In: EPJ Data Science. 2013.
- Peifeng Yin, Ping Luo, Wang-Chien Lee, Min Wang: Silence is also evidence: interpreting dwell time for recommendation from psychological perspective. In: ACM International Conference on KDD..
- Thomas Ahle: What is the average length of a game of chess?. In: chess.stackexchange.com. Abgerufen am 14. April 2018.
- Patrick O'Connor, Andre Kleyner: Practical Reliability Engineering. John Wiley & Sons, 2011, ISBN 978-0-470-97982-2, S. 35.
- C Gros, G. Kaczor, D Markovic: Neuropsychological constraints to human data production on a global scale. In: The European Physical Journal B. 85, Nr. 28, 2012, S. 28. arxiv:1111.6849. bibcode:2012EPJB...85...28G. doi:10.1140/epjb/e2011-20581-3.
- Mohammed Alamsar, George Parisis, Richard Clegg, Nickolay Zakhleniuk: On the Distribution of Traffic Volumes in the Internet and its Implications. 2019.