Schätzung der Regressionsparameter

Aus MM*Stat

Wechseln zu: Navigation, Suche

Regression

Regressionsanalyse • Lineares Regressionsmodell • Schätzung der Regressionsparameter • Güte der Regression • Multiple Choice • Video • Aufgaben • Lösungen
Abhängige Variable • Bestimmtheit der Regression • Bestimmtheitsmaß • Einfache lineare Regressionsfunktion • Endogene Variable • Erklärende Variable • Erklärte Variable • Exogene Variable • Linearer Regressionskoeffizient • Methode der kleinsten Quadrate (Regression) • Multiple lineare Regression • Regressand • Regressionsfunktion • Regressionsgerade • Regressionskonstante • Regressionsparameter • Regressor • Regresswert • Residuum • Restgröße • Unabhängige Variable

Grundbegriffe

Schätzung der Regressionsparameter

Für die Schätzung der Regressionsparameter müssen zwei Bedingungen erfüllt sein.

1. Bedingung

Die Abweichungen der Regresswerte \hat{y_{i}} von den Beobachtungswerten y_{i} sollen im Mittel gleich Null sein, d.h.

\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})=\sum_{i=1}^{n}\hat{u_{i}}=0

\Rightarrow \bar{\hat{u}}=\frac{1}{n}\cdot \sum_{i=1}^{n}\hat{u_{i}}=0

Diese Bedingung wird aber von einer unendlichen Menge von Regressionsgeraden, die alle durch den Schwerpunkt \bar{x}\;,\bar{y} der Punktwolke verlaufen, erfüllt.

Diese Bedingung für sich allein genommen führt also zu keiner eindeutigen Regressionsgeraden.

2. Bedingung

Es wird eine Regressionsgerade gesucht, für die die Streuung (Varianz) der Residuen

s^{2}_{\hat{u}}=\frac{1}{n-2}\cdot \sum_{i=1}^{n}{(\hat{u_{i}}-\bar{\hat{u}})}^{2}

ein Minimum im Vergleich zu allen anderen Regressionsgeraden ist.

Aus der Erfüllung der 1. Bedingung \bar{\hat{u}}=0 folgt:

s^{2}_{\hat{u}}=\frac{1}{n-2}\cdot \sum_{i=1}^{n}{(\hat{u_{i}}-0)}^{2}=\frac{1}{n-2}\cdot \sum_{i=1}^{n}{\hat{u_{i}}}^{2}=\frac{1}{n-2}\cdot \sum_{i=1}^{n}{(y_{i}-\hat{y_{i}})}^{2}

Die folgende Grafik veranschaulicht die 2. Bedingung:

Die in der Grafik dargestellten Quadrate (sie entsprechen den quadrierten Residuen) sollen minimiert werden.

Daraus ergibt sich der Name der dafür angewandten Methode - die Methode der kleinsten Quadrate (KQ).

Methode der kleinsten Quadrate

Die Methode der kleinsten Quadrate (KQ) hat die Minimierung der Summe der quadratischen Abweichungen (Residual Sum of Squares - RSS) der Regresswerte von den Beobachtungswerten zum Ziel.

\sum_{i=1}^{n}{(y_{i}-\hat{y_{i}})}^{2}\rightarrow min.\quad\mid \hat{y_{i}}=b_{0}+b_{1}\cdot x_{i}

Die zu minimierende Funktion ist eine Gleichung mit zwei Unbekannten (b_{0} und b_{1}). Für das Erreichen eines Minimums müssen die ersten partiellen Ableitungen verschwinden, d.h. sie werden Null gesetzt.

S(b_{0},b_{1})=\sum_{i=1}^{n}{(y_{i}-b_{0}-b_{1}\cdot x_{i})}^{2}\rightarrow min

\frac{\partial S(b_0,b_1)}{\partial b_0}=-2\cdot \sum_{i=1}^{n}(y_i-b_0-b_1\cdot x_i)= 0

\frac{\partial S(b_0,b_1)}{\partial b_1}=-2\cdot\sum_{i=1}^{n}(y_i-b_0-b_1\cdot x_i)\cdot x_i= 0

Mit Hilfe der Hesse-Matrix lässt sich überprüfen, ob es sich um ein Minimum handelt

\begin{pmatrix}\frac{{\partial}^2S(b_0,b_1)}{\partial {b_0}^2}& \frac{{\partial}^2S(b_0,b_1)}{\partial {b_0}\cdot \partial{b_1}}\\
 \frac{{\partial}^2S(b_0,b_1)}{\partial {b_1}\cdot \partial{b_0}}&  \frac{{\partial}^2S(b_0,b_1)}{\partial {b_1}^2}\end{pmatrix}=
\begin{pmatrix} 2\cdot n & 2\cdot\sum_{i=1}^n x_i\\
2\cdot\sum_{i=1}^n x_i&2\cdot\sum_{i=1}^{n} {x_i}^2
\end{pmatrix}

Diese ist positiv-definit und somit handelt es sich bei den Extremwerten um Minima.

Die erste Ableitung führt zu den beiden Normalgleichungen, mit deren Hilfe sich die geschätzten Regressionsparameter \hat{b_{0}} und \hat{b_{1}} durch die Auflösung der Gleichungen nach \hat{b_{0}} bzw. \hat{b_{1}} berechnen lassen:

n\cdot {\hat{b_{0}}}+{\hat{b_{1}}}\cdot \sum_{i=1}^{n}x_{i}=\sum_{i=1}^{n}y_{i}

{\hat{b_{0}}}\cdot \sum_{i=1}^{n}x_{i}+{\hat{b_{1}}}\cdot \sum_{i=1}^{n}{x_{i}}^{2}=\sum_{i=1}^{n}x_{i}\cdot y_{i}

Die Auflösung der Normalgleichungen mit Hilfe der Cramer'schen Regel liefert:

{\hat{b_{0}}}=\frac{\begin{vmatrix} \sum y_{i} & \sum x_{i} \\
\sum x_{i}\cdot y_{i} & \sum {x_{i}}^{2}\end{vmatrix}
}{\begin{vmatrix}n & \sum x_{i} \\
\sum x_{i} & \sum {x_{i}}^{2}\end{vmatrix}}=\frac{\sum y_{i}\cdot \sum {x_{i}}^{2}-\sum x_{i}\cdot \sum x_{i}\cdot y_{i}}{n\cdot \sum {x_{i}}^{2}-\sum x_{i}\cdot \sum x_{i}}

{\hat{b_{1}}}=\frac{\begin{vmatrix}
n & \sum y_{i} \\
\sum x_{i} & \sum x_{i}\cdot y_{i}
\end{vmatrix}}
{\begin{vmatrix}
n & \sum x_{i} \\
\sum x_{i} & \sum {x_{i}}^{2}\end{vmatrix}
}=\frac{n\cdot \sum x_{i}\cdot y_{i}-\sum x_{i}\cdot \sum y_{i}}{n\cdot \sum {x_{i}}^{2}-\sum x_{i}\cdot \sum x_{i}}

Werden die ursprünglichen Normalgleichungen durch n dividiert, erhält man im Ergebnis vereinfachte Formeln zur Berechnung der Regressionsparameter:

{\hat{b_{0}}}+{\hat{b_{1}}}\cdot \bar{x} =\bar{y}
{\hat{b_{0}}}\cdot \bar{x}+{\hat{b_{1}}}\cdot \bar{x^{2}} =\overline{xy}

Für die Konstante b_{0} ergibt sich:

b_{0}=\bar{y}-{\hat{b_{1}}}\cdot \bar{x}

Für den linearen Regressionskoeffizienten b_{1} ergibt sich:

(\bar{y}-{\hat{b_{1}}}\cdot \bar{x})\cdot \bar{x}+{\hat{b_{1}}}\cdot \bar{x^{2}} =\overline{xy}
{\hat{b_{1}}}\cdot (\bar{x^{2}}-{\bar{x}}^{2}) =\overline{xy}-\overline{x}\cdot \bar{y}
\hat{b_{1}}\cdot S_{X}^{2} =S_{XY}\;
{\hat{b_{1}}} =\frac{S_{XY}}{S_{X}^{2}}

Zusatzinformationen

  • Die Varianz von X\; muss größer sein als Null: {S_{X}}^{2}>0
  • Wie schon aus den vereinfachten Normalgleichungen zu ersehen, gilt
Für x_{i}=\bar{x} wird {\hat{y_{i}}}=\bar{y}, d.h. der Punkt (\bar{x},\bar{y}) liegt auf der Regressionsgeraden
{\hat{y_{i}}}={\hat{b_{0}}}+{\hat{b_{1}}}\cdot x_{i}=\bar{y}+{\hat{b_{1}}}\cdot (x_{i}-\bar{x})=\bar{y}
{\hat{b_{1}}}=\frac{S_{XY}}{S_{X}^{2}},\quad r_{XY}=\frac{S_{XY}}{S_{X}\cdot S_{Y}}
\Rightarrow {\hat{b_{1}}}=r_{XY}\cdot\frac{S_{Y}}{S_{X}}
Eine lineare Regression (y|x) von x auf y (\hat{y_i}={\hat{b_{0}}}+{\hat{b_{1}}}\cdot x_{i}) entspricht nicht der linearen Regression (x|y) von y auf x (\hat{x_i}=\hat{b_{0}}^{*}+{\hat{b_{1}}}^{*}\cdot y_i)!
{\hat{b_{0}}}=\bar{y}-{\hat{b_{1}}}\cdot\bar{x} \qquad
{\hat{b_{0}}}^{*}=\bar{x}-{\hat{b_{1}}}^{*}\cdot\bar{y}
{\hat{b_{1}}}=\frac{S_{XY}}{{S_{X}}^{2}} \qquad
{\hat{b_{1}}}^{*}=\frac{S_{XY}}{{S_{Y}}^{2}}

Beispiele

Losgröße und Arbeitszeit

X\; - Losgröße

Y\; - Arbeitszeit

n=10 Produktionsdurchläufe im Unternehmen

i x_{i} y_{i} x_{i}\cdot y_{i} x_{i}^{2} y_{i}^{2} \hat{y_{i}} \hat{u_{i}}
1 30 73 2,190 900 5,329 70 3
2 20 50 1,000 400 2,500 50 0
3 60 128 7,680 3,600 16,384 130 -2
4 80 170 1,360 6,400 28,900 170 0
5 40 87 3,480 1,600 7,569 90 -3
6 50 108 5,400 2,500 11,664 110 -2
7 60 135 8,100 3,600 18,225 130 5
8 30 69 2,070 900 4,761 70 -1
9 70 148 10,360 4,900 21,904 150 -2
10 60 132 72,920 3,600 17,424 130 2
\sum 500 1,100 61,800 28,400 134,660 1,100 0

Berechnung der Hilfsgrößen (Mittelwerte, Varianzen und Standardabweichungen):

\bar{x} = 50 s_{x}^{2} =\frac{3400}{10}=340 s_{x} =18,44
\bar{y} = 110 s_{x}^{2} =\frac{13660}{10}=13366 s_{y} =36,96

Für die Kovarianz und den Korrelationskoeffizienten ergibt sich:

s_{xy}=\frac{6800}{10}=680\quad \mbox{bzw.} \quad r_{xy}=\frac{680}{18,44\cdot36,96}=0,9977

Damit lassen sich die Regressionsparameter b_{0} und b_{1} berechnen:

{\hat{b_{1}}}=\frac{680}{340}=2

{\hat{b_{0}}}=110-2\cdot (50)=10

Es ergibt sich folgende Regressionsgleichung:

{\hat{y_{i}}}=10+2\cdot x_{i}

Haushaltsnettoeinkommen und Konsumausgaben

Von 10 Zwei-Personen-Haushalten wurden jeweils das monatliche Haushaltsnettoeinkommen sowie die Konsumausgaben ermittelt:

Haushalt 1 2 3 4 5 6 7 8 9 10
HH-Nettoeinkommen in Euro (x_i) 3500 5000 4300 6100 1000 4800 2900 2400 5600 4100
Konsumausgaben in Euro (y_i) 2000 3500 3100 3900 900 3000 2100 1900 2900 2100


Anhand der Punktwolke im folgenden Scatterplot ist bereits zu erkennen, dass das Haushaltsnettoeinkommen einen positiven Einfluss auf die Konsumausgaben bei den 10 Zwei-Personen-Haushalten ausübt, der offensichtlich mittels einer linearen Regressionsfunktion geschätzt werden kann.

Gesucht ist die lineare Regressionsfunktion der Konsumausgaben in Abhängigkeit vom HH-Nettoeinkommen.

Für die Schätzung der Regressionsparameter sind einige Zwischenberechnungen notwendig

HH x_i y_i x_i \cdot y_i {x_i}^2 {y_i}^2
1 3500 2000 7000000 12250000 4000000
2 5000 3500 17500000 25000000 12250000
3 4300 3100 13330000 18490000 9610000
4 6100 3900 23790000 37210000 15210000
5 1000 900 900000 1000000 810000
6 4800 3000 14400000 23040000 9000000
7 2900 2100 6090000 8410000 4410000
8 2400 1900 4560000 5760000 3610000
9 5600 2900 16240000 31360000 8410000
10 4100 2100 8610000 16810000 4410000
Summe 39700 25400 112420000 179330000 71720000


Gemäß der angegebenen Formeln lassen sich die Regressionsparameter b_{0} und b_{1} wie folgt errechnen:

{\widehat{b_{0}}} =\frac{\sum y_{i}\cdot\sum {x_{i}}^{2}-\sum x_{i}\cdot \sum x_{i}\cdot y_{i}}{n\cdot\sum {x_{i}}^{2}-\sum x_{i}\cdot\sum x_{i}}
=\frac{(25400\cdot 179330000)-(39700\cdot 112420000)}{(10\cdot 179330000)-(39700\cdot 39700)}
\,=423,13
{\widehat{b_{1}}} =\frac{n\cdot \sum x_{i}\cdot y_{i}-\sum x_{i}\cdot\sum y_{i}}{n\cdot\sum {x_{i}}^{2}-\sum x_{i}\cdot\sum x_{i}}
=\frac{(10\cdot 112420000)-(39700\cdot 25400)}{(10\cdot 179330000)-(39700\cdot 39700)}
\,=0,5332

Damit ergibt sich die folgende lineare Regressionsfunktion:

{\widehat{y_{i}}}=423,13+0,5332\cdot x_{i}

(Konsumausgaben = 423,13 + 0,5332 \cdot Haushaltsnettoeinkommen)

Die Regressionsgerade lässt sich im Scatterplot darstellen:

Der Anstieg der Geraden entspricht der Konsumquote:

Mit jeder Mark mehr Einkommen erhöhen sich im Mittel der beobachteten 10 Zwei-Personen-Haushalte die Konsumausgaben um 0,53 Euro.

Nach Berechnung der Standardabweichung von x bzw. y sowie der Kovarianz zwischen x und y lässt sich der Korrelationskoeffizient r wie folgt ermitteln:

r_{xy}= \frac{S_{xy}} {S_x\cdot S_y}  = \frac{1286900}{1553,5 \cdot 894,68} = 0,926

Er weist auf einen starken Zusammenhang zwischen Konsumausgaben und HH-Nettoeinkommen hin.

Die Güte der Anpassung der Regressionsfunktion an die Daten lässt sich mit Hilfe des Bestimmtheitsmaßes ermitteln. Es ist der Anteil der durch die Regressionsfunktion erklärten Varianz an der Gesamtvarianz der Konsumausgaben (Y):

R^{2}=\frac{\sum {(\widehat{y_{i}}-\bar{y})}^{2}}{\sum {(y_{i}-\bar{y})}^{2}}=\frac{6175715,85}{7204000,00}=0,857

Das Bestimmtheitsmaß zeigt, dass 86% der Varianz der Konsumausgaben durch die lineare Abhängigkeit vom Haushaltsnettoeinkommen bei den 10 Zwei-Personen-Haushalten erklärt werden kann.