Verallgemeinerte lineare Modelle

Verallgemeinerte lineare Modelle[1] (VLM), auch generalisierte lineare Modelle (GLM oder GLiM) sind in der Statistik eine von John Nelder und Robert Wedderburn (1972) eingeführte wichtige Klasse von nichtlinearen Modellen, die eine Verallgemeinerung des klassischen linearen Regressionsmodells in der Regressionsanalyse darstellt.[2] Während man in klassischen linearen Modellen annimmt, dass die Störgröße (die unbeobachtbare Zufallskomponente) normalverteilt ist, kann sie in GLMs eine Verteilung aus der Klasse der Exponentialfamilie besitzen. Diese Verteilungsklasse beinhaltet neben der Normalverteilung auch die Binomial-, Poisson-, Gamma- und inverse Gaußverteilung. Damit bietet die Verwendung der Exponentialfamilie in verallgemeinerten linearen Modellen ein einheitliches Rahmenwerk für diese Verteilungen. Die große Klasse von vektorverallgemeinerten linearen Modellen (englisch vector generalized linear models, kurz VGLMs) beinhaltet die Klasse der verallgemeinerten linearen Modelle als Spezialfall. Ebenso in dieser großen Modellklasse enthalten sind loglineare Modelle für kategoriale Daten und das Modell der Poisson-Regression für Zähldaten.[3] Um die Einschränkungen der verallgemeinerten linearen Modelle und verallgemeinerten additiven Modelle zu überwinden, wurden sogenannte Verallgemeinerte additive Modelle für Lage-, Skalen- und Formparameter entwickelt.

Begriffsklärung

Verallgemeinerte lineare Modelle s​ind nicht m​it dem allgemeinen linearen Modell z​u verwechseln, dessen natürliche englische Abkürzung ebenfalls GLM ist, a​ber im Gegensatz z​u verallgemeinerten linearen Modellen v​on der Voraussetzung e​iner normalverteilten Antwortvariablen ausgeht. In vielen statistischen Programmpaketen werden – d​a die Abkürzung GLM s​chon für d​as allgemeine linearen Modell belegt i​st – z​ur besseren Unterscheidung andere Abkürzungen w​ie VLM bzw. GLZ für englisch GeneraLiZed linear models (in STATISTICA) o​der GzLM für englisch GeneraLiZed Linear Models (in SPSS) verwendet. Manche Autoren verwenden z​u besseren Unterscheidung s​tatt der Abkürzung GLM d​ie Abkürzung GLiM.

Ebenso s​ind verallgemeinerte lineare Modelle n​icht mit d​em verallgemeinerten linearen Regressionsmodell d​er verallgemeinerten Kleinste-Quadrate-Schätzung (VKQ-Schätzung) z​u verwechseln, b​ei der jedoch e​ine verallgemeinerte Struktur bzgl. d​er Störgrößen vorliegt.

Modellkomponenten

Die Modellklasse d​er verallgemeinerten linearen Modelle besteht a​us drei Komponenten:

. Hier erkennt man, dass der lineare Prädiktor den Vektor der Regressionskoeffizienten in das Modell miteinführt.
  • Kopplungsfunktion: Für ein verallgemeinertes lineares Modell ist eine (oft nichtlineare[4]) Kopplungsfunktion vorhanden, die die durch den linearen Prädiktor beschriebene systematische Komponente und die durch den Erwartungswert der Antwortvariablen beschriebene stochastische Komponente der Verteilung von koppelt: . Die Umkehrfunktion der Kopplungsfunktion, die sogenannte Antwortfunktion überführt die Linearkombination der erklärenden Variablen in den (bedingten) Erwartungswert : .[5]

Verteilungen aus der Familie der verallgemeinerten linearen Modelle

In d​ie Modellklasse d​er verallgemeinerten lineare Modelle lassen s​ich einbetten d​ie Normalverteilung, Binomial-Verteilung, Poisson-Verteilung, Gammaverteilung u​nd die Inverse Normalverteilung, Bernoulli-Verteilung, Skalierte Poisson-Verteilung, Skalierte Binomial-Verteilung, Skalierte negative Binomial-Verteilung.[6]

Exponentialfamilie

Die Verteilung einer Antwortvariablen gehört zur eindimensionalen Exponentialfamilie, wenn sich die Dichtefunktion bzw. Wahrscheinlichkeitsfunktion in folgender Form schreiben lässt:[7]

.

Hierbei sind:

  • die Beobachtungswerte der Antwortvariablen (bekannt)
  • die spezifizierten Gewichte (bekannt)
  • eine vorspezifizierte zweifach differenzierbare Funktion (bekannt)
  • der reellwertige Verteilungsparameter der Dichte; der sogenannte kanonische (natürliche) Parameter (unbekannt)
  • ein vom Erwartungswert unabhängiger Skalenparameter (auch Streuungsparameter genannt), der für die Varianz relevant ist (bekannt)
  • und eine geeignete Funktion zur Normierung der Dichte (Normalisierungskonstante) und die nicht von abhängt (bekannt)

Für die Funktion ist notwendig, dass normalisiert werden kann und die erste und zweite Ableitung existiert. Die zweite Ableitung bestimmt neben dem Skalenparameter die Varianz der Verteilung und wird daher als Varianzfunktion bezeichnet. Für alle Verteilungen der Exponentialfamilie gilt:[8]

Der Parameter ist nicht primär von Interesse und wird daher als Störparameter betrachtet. Beispiele für Verteilungen, die zur Exponentialfamilie gehören:

Verteilung
Kanonischer Parameter
Skalenparameter
vorspezifizierte Funktion
vorspezifizierte Funktion
Normalisierungskonstante
Wahrscheinlichkeitsfunktion
Normalverteilung
Bernoulli-Verteilung
mit
Binomialverteilung
mit
Poisson-Verteilung
mit

Literatur

  • John Nelder, Peter McCullagh: Generalized Linear Models, Chapman and Hall/CRC Press, 2. Auflage 1989

Einzelnachweise

  1. generalized linear model. Glossary of statistical terms. In: International Statistical Institute. 1. Juni 2011, abgerufen am 4. Juli 2020 (englisch).
  2. John Nelder, Robert Wedderburn: Generalized Linear Models. In: Journal of the Royal Statistical Society, Series A (General). 135, 1972, S. 370–384. doi:10.2307/2344614.
  3. Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008., S. 513.
  4. Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008., S. 514.
  5. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 301.
  6. Torsten Becker, et al.: Stochastische Risikomodellierung und statistische Methoden. Springer Spektrum, 2016. S. 308.
  7. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 301.
  8. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 302.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. The authors of the article are listed here. Additional terms may apply for the media files, click on images to show image meta data.