Güte der Regression

Aus MM*Stat

Version vom 14. September 2018, 10:14 Uhr von Siskosth (Diskussion | Beiträge) (Kriminalitätsraten)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Wechseln zu: Navigation, Suche

Regression

Regressionsanalyse • Lineares Regressionsmodell • Schätzung der Regressionsparameter • Güte der Regression • Multiple Choice • Video • Aufgaben • Lösungen
Abhängige Variable • Bestimmtheit der Regression • Bestimmtheitsmaß • Einfache lineare Regressionsfunktion • Endogene Variable • Erklärende Variable • Erklärte Variable • Exogene Variable • Linearer Regressionskoeffizient • Methode der kleinsten Quadrate (Regression) • Multiple lineare Regression • Regressand • Regressionsfunktion • Regressionsgerade • Regressionskonstante • Regressionsparameter • Regressor • Regresswert • Residuum • Restgröße • Unabhängige Variable

Grundbegriffe

Güte (Bestimmtheit) der Regression

Ist die Regressionsfunktion ermittelt, interessiert im Folgenden, wie gut die Regressionsfunktion an die Beobachtungswerte angepasst ist, wie gut sie diese repräsentiert.

Das Bestimmtheitsmaß ist eine für diese Untersuchung geeignete Maßzahl. Die Berechnung des Bestimmtheitsmaßes beruht auf der Aufspaltung der Varianz der abhängigen Variablen Y\;.

Gemäß dem Ziel der Regression ist die Güte der Anpassung umso höher, je kleiner die Summe der quadratischen Abweichungen ist.

\sum{(y_{i}-\hat{y_{i}})}^{2}=\sum \hat{{u_{i}}^{2}}\rightarrow min.

Für die Varianz von Y\; gilt:

s_y^2 = \frac{\sum_{i=1}^{n}{(y_i-\bar y)}^2}{n}

Die Abweichung eines Beobachtungswertes y_{i} vom Mittelwert \bar{y} lässt sich zerlegen in die Abweichung des Beobachtungswertes vom Regresswert und die Abweichung des Regresswertes vom Mittelwert.

y_{i}-\bar{y}=[(y_{i}-{\hat{y_{i}})}+({\hat{y_{i}}}-\bar{y})],\quad i=1,\cdots ,n

Die Grafik veranschaulicht diese Zerlegung.


Analog lässt sich auch die Summe der quadratischen Abweichungen zerlegen:

\sum_{i=1}^{n}{(y_{i}-\bar{y})}^{2}=\sum_{i=1}^{n}[{(y_{i}-\hat{y_{i}})}+({\hat{y_{i}}}-\bar{y})]^{2}

\sum_{i=1}^{n}{(y_{i}-\bar{y})}^{2}=\sum_{i=1}^{n}{(y_{i}-\hat{y_{i}})}^{2}+\sum_{i=1}^{n}{(\hat{y_{i}}-\bar{y})}^{2}

Werden beide Seiten der Gleichung durch n dividiert, ergibt sich:

\frac{\sum_{i}^{n}{(y_{i}-\bar{y})}^{2}}{n}=\frac{\sum_{i=1}^{n}{(y_{i}-\hat{y_{i}})}^{2}}{n}+\frac{\sum_{i=1}^{n}{(\hat{y_{i}}-\bar{y})}^{2}}{n}

\frac{\sum_{i}^{n}{(y_{i}-\bar{y})}^{2}}{n}=\frac{\sum_{i=1}^{n}{\hat{u_{i}}}^{2}}{n}\cdot\frac{\sum_{i=1}^{n}{(\hat{y_{i}}-\bar{y})}^{2}}{n}

S_{y}^{2}=S_{\hat{u}}^{2}+S_{\hat{y}}^{2}

Die Gesamtvarianz von Y\; ist gleich der Summe aus der Varianz der Residuen (nicht erklärter Teil der Varianz von Y\;) und dem durch die Regressionsfunktion erklärten Teil der Varianz von Y\;.

Es folgt:

Bestimmtheitsmaß

Das Bestimmtheitsmaß ist definiert als Anteil der durch die Regressionsfunktion erklärten Varianz von Y an der Gesamtvarianz von Y:

R_{yx}^{2}=\frac{\sum_{i=1}^{n}{\left(\hat{y_{i}}-\bar{y}\right)}^{2}}{\sum_{i=1}^{n}{\left(y_{i}-\bar{y}\right)}^{2}}=\frac{S_{\hat{y}}^{2}}{S_{y}^{2}}

Alternative Möglichkeiten zur Berechnung des Bestimmtheitsmaßes sind:

R_{yx}^{2}=\frac{{\left[\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)\cdot\left(x_{i}-\bar{x}\right)\right]}^{2}}{\sum_{i=1}^{n}{(y_{i}-\bar{y})}^{2}\cdot\sum_{i=1}^{n}{(x_{i}-\bar{x})}^{2}}=\frac{S_{xy}^{2}}{S_{y}^{2}\cdot S_{x}^{2}}

R_{xy}^{2}=\frac{{(n\cdot\sum_{i=1}^{n}x_{i}\cdot y_{i}-\sum_{i=1}^{n}x_{i}\cdot\sum_{i=1}^{n}y_{i})}^{2}}{\left[n\cdot\sum_{i=1}^{n}{x_{i}}^{2}-{\left(\sum_{i=1}^{n}x_{i}\right)}^{2}\right]\left[n\cdot\sum_{i=1}^{n}{y_{i}}^{2}-{\left(\sum_{i=1}^{n}y_{i}\right)}^{2}\right]}

Zusatzinformationen

Je größer der Wert des Bestimmtheitsmaßes, desto besser ist die Anpassung der Regressionsfunktion an die Beobachtungswerte.
Liegen alle Beobachtungswerte auf der Regressionsgeraden, nimmt das Bestimmtheitsmaß den Wert 1 an. Die Gesamtvarianz von Y\; wird durch die Abhängigkeit von X\; erklärt. Es liegt eine vollständige funktionale Abhängigkeit vor.
Bei einem Bestimmtheitsmaß von 0 ist die Gesamtvarianz von Y\; identisch mit der nicht erklärten Varianz (Varianz der Residuen). Das Merkmal X\; hat keinen Einfluss auf das Merkmal Y\;.
  • R_{xy}^{2}=R_{yx}^{2}

Beispiele

Autotypen

Von 74 verschiedenen Autotypen wurden unter anderem folgende Merkmale erhoben:

X_1\; - price
X_2\; - mpg (miles per gallon)
X_3\; - headroom (in inches)
X_4\; - rear seat clearance (distance from front seat back to the rear seat, in inches)
X_5\; - trunk space (in cubic feet)
X_6\; - weight (in pound)
X_7\; - length (in inches)
X_8\; - turning diameter (clearance required to make a U-turn, in feet)
X_9\; - displacement (in cubic inches)

Die Abhängigkeit des Wendekreises (X_8)\; von der Länge (X_7)\; des Fahrzeugs lässt sich grafisch in Form eines Scatterplots veranschaulichen.

Jedes Fahrzeug wird in dem Scatterplot durch einen Punkt (x_7,\; x_8) dargestellt. Zusätzlich ist in dem Plot die Regressionsgerade (schwarz) eingezeichnet.

Die Regressionsanalyse liefert folgende Ergebnisse:

  • Die Regressionskonstante beträgt 7,1739. Eine Interpretation ist für dieses Beispiel nicht sinnvoll; b_{0} ist vor allem ein Ausgleichsparameter.
  • Mit jedem Längenzuwachs um eine Einheit (in diesem Fall ein inch) erhöht sich der Wendekreis um b_{1} = 0,1735 feet.
  • Der Korrelationskoeffizient beträgt 0,90 - ein starker Zusammenhang zwischen Wendekreis und Fahrzeuglänge wird impliziert.
Seine Berechnung beruht auf der Aufspaltung der Varianz der abhängigen Variablen (Wendekreis). Für die Berechnung des Bestimmtheitsmaßes wird die Gesamtvarianz (SS-Total), die nicht erklärte Varianz (SS-Residual) sowie die erklärte Varianz (SS-Regression) ermittelt und in folgende Formel eingesetzt:
R^{2}=\frac{\mbox{SS-Regression}}{\mbox{SS-Total}}=\frac{\sum {(\widehat{y_{i}}-\bar{y})}^{2}}{\sum {(y_{i}-\bar{y})}^{2}}
Es ergibt sich ein Bestimmtheitsmaß von 0,81. Die Anpassung der linearen Regressionsfunktion an die Beobachtungswerte ist im Ergebnis recht gut.
Im Datenpunkt x_{53} beträgt die Fahrzeuglänge 192 inches, der dazugehörige beobachtete Wendekreis 38 feet. Die ermittelte Regressionsfunktion prognostiziert im Mittel für eine Fahrzeuglänge diesen Ausmaßes einen Wendekreis von 40,49 feet.

Kriminalitätsraten

In den U.S.A. wurden 1985 neben anderen Variablen verschiedene Kriminalitätsraten für 50 Bundesstaaten ermittelt:

X_1\; - land area
X_2\; - population
X_3\; - murder
X_4\; - rape
X_5\; - robbery
X_6\; - assault
X_7\; - burglary
X_9\; - auto-theft
X_{10}\; - US states region number
X_{11}\; - US states division number

Die Abhängigkeit der Überfallrate (X_5)\; von der Größe der Bevölkerung (X_2)\; lässt sich grafisch in Form eines Scatterplots veranschaulichen.

Jeder Bundesstaat wird in dem Scatterplot durch einen Punkt (x_2,\; x_5) dargestellt. Zusätzlich ist in dem Plot die Regressionsgerade (schwarz) eingezeichnet.

Die Regressionsanalyse liefert folgende Ergebnisse:

  • Die Regressionskonstante beträgt 48,1134. Eine Interpretation ist für dieses Beispiel nicht sinnvoll; b_{0} ist vor allem ein Ausgleichsparameter.
  • Mit jedem Anstieg der Bevölkerung um eine Einheit (in diesem Fall 1.000 Personen) steigt die Überfallrate um b_{1}=0,0112.
  • Der Korrelationskoeffizient beträgt 0,62 - ein Zusammenhang zwischen Überfallrate und Bevölkerungsgröße wird impliziert.
Seine Berechnung beruht auf der Aufspaltung der Varianz der abhängigen Variablen (Überfallrate).
Für die Berechnung des Bestimmtheitsmaßes wird die Gesamtvarianz (SS-Total), die nicht erklärte Varianz (SS-Residual) sowie die erklärte Varianz (SS-Regression) ermittelt und in folgende Formel eingesetzt:
R^{2}=\frac{\mbox{SS-Regression}}{\mbox{SS-Total}}=\frac{\sum {(\widehat{y_{i}}-\bar{y})}^{2}}{\sum {(y_{i}-\bar{y})}^{2}}=1-\frac{\mbox{SS-Residual}}{\mbox{SS-Total}}

Es ergibt sich ein Bestimmtheitsmaß von 0,39. Die Anpassung der linearen Regressionsfunktion an die Beobachtungswerte ist im Ergebnis relativ gering.

Im Datenpunkt x_{37} beträgt die Größe der Bevölkerung 16370 (Tsd.), die dazugehörige beobachtete Überfallrate 134,1. Die ermittelte Regressionsfunktion prognostiziert im Mittel für eine Bevölkerung dieser Größe eine Überfallrate von 231,66.