Schätzung der Regressionsparameter

Regression

Regressionsanalyse • Lineares Regressionsmodell • Schätzung der Regressionsparameter • Güte der Regression • Multiple Choice • Video • Aufgaben • Lösungen

Abhängige Variable • Bestimmtheit der Regression • Bestimmtheitsmaß • Einfache lineare Regressionsfunktion • Endogene Variable • Erklärende Variable • Erklärte Variable • Exogene Variable • Linearer Regressionskoeffizient • Methode der kleinsten Quadrate (Regression) • Multiple lineare Regression • Regressand • Regressionsfunktion • Regressionsgerade • Regressionskonstante • Regressionsparameter • Regressor • Regresswert • Residuum • Restgröße • Unabhängige Variable

Grundbegriffe

Schätzung der Regressionsparameter

Für die Schätzung der Regressionsparameter müssen zwei Bedingungen erfüllt sein.

1. Bedingung

Die Abweichungen der Regresswerte ${\hat {y_{i}}}$ von den Beobachtungswerten $y_{i}$ sollen im Mittel gleich Null sein, d.h.

$\sum _{i=1}^{n}(y_{i}-{\hat {y_{i}}})=\sum _{i=1}^{n}{\hat {u_{i}}}=0$

$\Rightarrow {\bar {\hat {u}}}={\frac {1}{n}}\cdot \sum _{i=1}^{n}{\hat {u_{i}}}=0$

Diese Bedingung wird aber von einer unendlichen Menge von Regressionsgeraden, die alle durch den Schwerpunkt ${\bar {x}}\;,{\bar {y}}$ der Punktwolke verlaufen, erfüllt.

Diese Bedingung für sich allein genommen führt also zu keiner eindeutigen Regressionsgeraden.

2. Bedingung

Es wird eine Regressionsgerade gesucht, für die die Streuung (Varianz) der Residuen

$s_{\hat {u}}^{2}={\frac {1}{n-2}}\cdot \sum _{i=1}^{n}{({\hat {u_{i}}}-{\bar {\hat {u}}})}^{2}$

ein Minimum im Vergleich zu allen anderen Regressionsgeraden ist.

Aus der Erfüllung der 1. Bedingung ${\bar {\hat {u}}}=0$ folgt:

$s_{\hat {u}}^{2}={\frac {1}{n-2}}\cdot \sum _{i=1}^{n}{({\hat {u_{i}}}-0)}^{2}={\frac {1}{n-2}}\cdot \sum _{i=1}^{n}{\hat {u_{i}}}^{2}={\frac {1}{n-2}}\cdot \sum _{i=1}^{n}{(y_{i}-{\hat {y_{i}}})}^{2}$

Die folgende Grafik veranschaulicht die 2. Bedingung:

Die in der Grafik dargestellten Quadrate (sie entsprechen den quadrierten Residuen) sollen minimiert werden.

Daraus ergibt sich der Name der dafür angewandten Methode - die Methode der kleinsten Quadrate (KQ).

Methode der kleinsten Quadrate

Die Methode der kleinsten Quadrate (KQ) hat die Minimierung der Summe der quadratischen Abweichungen (Residual Sum of Squares - RSS) der Regresswerte von den Beobachtungswerten zum Ziel.

$\sum _{i=1}^{n}{(y_{i}-{\hat {y_{i}}})}^{2}\rightarrow min.\quad \mid {\hat {y_{i}}}=b_{0}+b_{1}\cdot x_{i}$

Die zu minimierende Funktion ist eine Gleichung mit zwei Unbekannten $(b_{0}$ und $b_{1})$ . Für das Erreichen eines Minimums müssen die ersten partiellen Ableitungen verschwinden, d.h. sie werden Null gesetzt.

$S(b_{0},b_{1})=\sum _{i=1}^{n}{(y_{i}-b_{0}-b_{1}\cdot x_{i})}^{2}\rightarrow min$

${\frac {\partial S(b_{0},b_{1})}{\partial b_{0}}}=-2\cdot \sum _{i=1}^{n}(y_{i}-b_{0}-b_{1}\cdot x_{i})=0$

${\frac {\partial S(b_{0},b_{1})}{\partial b_{1}}}=-2\cdot \sum _{i=1}^{n}(y_{i}-b_{0}-b_{1}\cdot x_{i})\cdot x_{i}=0$

Mit Hilfe der Hesse-Matrix lässt sich überprüfen, ob es sich um ein Minimum handelt

${\begin{pmatrix}{\frac {{\partial }^{2}S(b_{0},b_{1})}{\partial {b_{0}}^{2}}}&{\frac {{\partial }^{2}S(b_{0},b_{1})}{\partial {b_{0}}\cdot \partial {b_{1}}}}\\{\frac {{\partial }^{2}S(b_{0},b_{1})}{\partial {b_{1}}\cdot \partial {b_{0}}}}&{\frac {{\partial }^{2}S(b_{0},b_{1})}{\partial {b_{1}}^{2}}}\end{pmatrix}}={\begin{pmatrix}2\cdot n&2\cdot \sum _{i=1}^{n}x_{i}\\2\cdot \sum _{i=1}^{n}x_{i}&2\cdot \sum _{i=1}^{n}{x_{i}}^{2}\end{pmatrix}}$

Diese ist positiv-definit und somit handelt es sich bei den Extremwerten um Minima.

Die erste Ableitung führt zu den beiden Normalgleichungen, mit deren Hilfe sich die geschätzten Regressionsparameter ${\hat {b_{0}}}$ und ${\hat {b_{1}}}$ durch die Auflösung der Gleichungen nach ${\hat {b_{0}}}$ bzw. ${\hat {b_{1}}}$ berechnen lassen:

$n\cdot {\hat {b_{0}}}+{\hat {b_{1}}}\cdot \sum _{i=1}^{n}x_{i}=\sum _{i=1}^{n}y_{i}$

${\hat {b_{0}}}\cdot \sum _{i=1}^{n}x_{i}+{\hat {b_{1}}}\cdot \sum _{i=1}^{n}{x_{i}}^{2}=\sum _{i=1}^{n}x_{i}\cdot y_{i}$

Die Auflösung der Normalgleichungen mit Hilfe der Cramer'schen Regel liefert:

${\hat {b_{0}}}={\frac {\begin{vmatrix}\sum y_{i}&\sum x_{i}\\\sum x_{i}\cdot y_{i}&\sum {x_{i}}^{2}\end{vmatrix}}{\begin{vmatrix}n&\sum x_{i}\\\sum x_{i}&\sum {x_{i}}^{2}\end{vmatrix}}}={\frac {\sum y_{i}\cdot \sum {x_{i}}^{2}-\sum x_{i}\cdot \sum x_{i}\cdot y_{i}}{n\cdot \sum {x_{i}}^{2}-\sum x_{i}\cdot \sum x_{i}}}$

${\hat {b_{1}}}={\frac {\begin{vmatrix}n&\sum y_{i}\\\sum x_{i}&\sum x_{i}\cdot y_{i}\end{vmatrix}}{\begin{vmatrix}n&\sum x_{i}\\\sum x_{i}&\sum {x_{i}}^{2}\end{vmatrix}}}={\frac {n\cdot \sum x_{i}\cdot y_{i}-\sum x_{i}\cdot \sum y_{i}}{n\cdot \sum {x_{i}}^{2}-\sum x_{i}\cdot \sum x_{i}}}$

Werden die ursprünglichen Normalgleichungen durch $n$ dividiert, erhält man im Ergebnis vereinfachte Formeln zur Berechnung der Regressionsparameter:

${\hat {b_{0}}}+{\hat {b_{1}}}\cdot {\bar {x}}$	$={\bar {y}}$
${\hat {b_{0}}}\cdot {\bar {x}}+{\hat {b_{1}}}\cdot {\bar {x^{2}}}$	$={\overline {xy}}$

Für die Konstante $b_{0}$ ergibt sich:

$b_{0}={\bar {y}}-{\hat {b_{1}}}\cdot {\bar {x}}$

Für den linearen Regressionskoeffizienten $b_{1}$ ergibt sich:

$({\bar {y}}-{\hat {b_{1}}}\cdot {\bar {x}})\cdot {\bar {x}}+{\hat {b_{1}}}\cdot {\bar {x^{2}}}$	$={\overline {xy}}$
${\hat {b_{1}}}\cdot ({\bar {x^{2}}}-{\bar {x}}^{2})$	$={\overline {xy}}-{\overline {x}}\cdot {\bar {y}}$
${\hat {b_{1}}}\cdot S_{X}^{2}$	$=S_{XY}\;$
${\hat {b_{1}}}$	$={\frac {S_{XY}}{S_{X}^{2}}}$

Zusatzinformationen

Die Varianz von $X\;$ muss größer sein als Null: ${S_{X}}^{2}>0$

Wie schon aus den vereinfachten Normalgleichungen zu ersehen, gilt

Für

x_{i}={\bar {x}}

wird

{\hat {y_{i}}}={\bar {y}}

, d.h. der Punkt

({\bar {x}},{\bar {y}})

liegt auf der Regressionsgeraden

{\hat {y_{i}}}={\hat {b_{0}}}+{\hat {b_{1}}}\cdot x_{i}={\bar {y}}+{\hat {b_{1}}}\cdot (x_{i}-{\bar {x}})={\bar {y}}

Werden die Ergebnisse aus der Korrelationsanalyse mit denen der Regressionsanalyse verknüpft, lässt sich der lineare Regressionskoeffizient $b_{1}$ auch wie folgt berechnen:

{\hat {b_{1}}}={\frac {S_{XY}}{S_{X}^{2}}},\quad r_{XY}={\frac {S_{XY}}{S_{X}\cdot S_{Y}}}

\Rightarrow {\hat {b_{1}}}=r_{XY}\cdot {\frac {S_{Y}}{S_{X}}}

Eine lineare Regression

(y|x)

von

x

auf

y

({\hat {y_{i}}}={\hat {b_{0}}}+{\hat {b_{1}}}\cdot x_{i})

entspricht nicht der linearen Regression

(x|y)

von

y

auf

x

({\hat {x_{i}}}={\hat {b_{0}}}^{*}+{\hat {b_{1}}}^{*}\cdot y_{i})

!

{\hat {b_{0}}}={\bar {y}}-{\hat {b_{1}}}\cdot {\bar {x}}\qquad {\hat {b_{0}}}^{*}={\bar {x}}-{\hat {b_{1}}}^{*}\cdot {\bar {y}}

{\hat {b_{1}}}={\frac {S_{XY}}{{S_{X}}^{2}}}\qquad {\hat {b_{1}}}^{*}={\frac {S_{XY}}{{S_{Y}}^{2}}}

Beispiele

Losgröße und Arbeitszeit

$X\;$ - Losgröße

$Y\;$ - Arbeitszeit

$n=10$ Produktionsdurchläufe im Unternehmen

$i$	$x_{i}$	$y_{i}$	$x_{i}\cdot y_{i}$	$x_{i}^{2}$	$y_{i}^{2}$	${\hat {y_{i}}}$	${\hat {u_{i}}}$
1	30	73	2,190	900	5,329	70	3
2	20	50	1,000	400	2,500	50	0
3	60	128	7,680	3,600	16,384	130	-2
4	80	170	1,360	6,400	28,900	170	0
5	40	87	3,480	1,600	7,569	90	-3
6	50	108	5,400	2,500	11,664	110	-2
7	60	135	8,100	3,600	18,225	130	5
8	30	69	2,070	900	4,761	70	-1
9	70	148	10,360	4,900	21,904	150	-2
10	60	132	72,920	3,600	17,424	130	2
$\sum$	500	1,100	61,800	28,400	134,660	1,100	0

Berechnung der Hilfsgrößen (Mittelwerte, Varianzen und Standardabweichungen):

${\bar {x}}$	$=50$		$s_{x}^{2}$	$={\frac {3400}{10}}=340$		$s_{x}$	$=18,44$
${\bar {y}}$	$=110$		$s_{x}^{2}$	$={\frac {13660}{10}}=13366$		$s_{y}$	$=36,96$

Für die Kovarianz und den Korrelationskoeffizienten ergibt sich:

$s_{xy}={\frac {6800}{10}}=680\quad {\mbox{bzw.}}\quad r_{xy}={\frac {680}{18,44\cdot 36,96}}=0,9977$

Damit lassen sich die Regressionsparameter $b_{0}$ und $b_{1}$ berechnen:

${\hat {b_{1}}}={\frac {680}{340}}=2$

${\hat {b_{0}}}=110-2\cdot (50)=10$

Es ergibt sich folgende Regressionsgleichung:

${\hat {y_{i}}}=10+2\cdot x_{i}$

Haushaltsnettoeinkommen und Konsumausgaben

Von 10 Zwei-Personen-Haushalten wurden jeweils das monatliche Haushaltsnettoeinkommen sowie die Konsumausgaben ermittelt:

Haushalt	1	2	3	4	5	6	7	8	9	10
HH-Nettoeinkommen in Euro ( $x_{i}$ )	3500	5000	4300	6100	1000	4800	2900	2400	5600	4100
Konsumausgaben in Euro ( $y_{i}$ )	2000	3500	3100	3900	900	3000	2100	1900	2900	2100

Anhand der Punktwolke im folgenden Scatterplot ist bereits zu erkennen, dass das Haushaltsnettoeinkommen einen positiven Einfluss auf die Konsumausgaben bei den 10 Zwei-Personen-Haushalten ausübt, der offensichtlich mittels einer linearen Regressionsfunktion geschätzt werden kann.

Gesucht ist die lineare Regressionsfunktion der Konsumausgaben in Abhängigkeit vom HH-Nettoeinkommen.

Für die Schätzung der Regressionsparameter sind einige Zwischenberechnungen notwendig

HH	$x_{i}$	$y_{i}$	$x_{i}\cdot y_{i}$	${x_{i}}^{2}$	${y_{i}}^{2}$
1	3500	2000	7000000	12250000	4000000
2	5000	3500	17500000	25000000	12250000
3	4300	3100	13330000	18490000	9610000
4	6100	3900	23790000	37210000	15210000
5	1000	900	900000	1000000	810000
6	4800	3000	14400000	23040000	9000000
7	2900	2100	6090000	8410000	4410000
8	2400	1900	4560000	5760000	3610000
9	5600	2900	16240000	31360000	8410000
10	4100	2100	8610000	16810000	4410000
Summe	39700	25400	112420000	179330000	71720000

Gemäß der angegebenen Formeln lassen sich die Regressionsparameter $b_{0}$ und $b_{1}$ wie folgt errechnen:

${\widehat {b_{0}}}$	$={\frac {\sum y_{i}\cdot \sum {x_{i}}^{2}-\sum x_{i}\cdot \sum x_{i}\cdot y_{i}}{n\cdot \sum {x_{i}}^{2}-\sum x_{i}\cdot \sum x_{i}}}$
	$={\frac {(25400\cdot 179330000)-(39700\cdot 112420000)}{(10\cdot 179330000)-(39700\cdot 39700)}}$
	$\,=423,13$
${\widehat {b_{1}}}$	$={\frac {n\cdot \sum x_{i}\cdot y_{i}-\sum x_{i}\cdot \sum y_{i}}{n\cdot \sum {x_{i}}^{2}-\sum x_{i}\cdot \sum x_{i}}}$
	$={\frac {(10\cdot 112420000)-(39700\cdot 25400)}{(10\cdot 179330000)-(39700\cdot 39700)}}$
	$\,=0,5332$

Damit ergibt sich die folgende lineare Regressionsfunktion:

${\widehat {y_{i}}}=423,13+0,5332\cdot x_{i}$

(Konsumausgaben = 423,13 + 0,5332 $\cdot$ Haushaltsnettoeinkommen)

Die Regressionsgerade lässt sich im Scatterplot darstellen:

Der Anstieg der Geraden entspricht der Konsumquote:

Mit jeder Mark mehr Einkommen erhöhen sich im Mittel der beobachteten 10 Zwei-Personen-Haushalte die Konsumausgaben um 0,53 Euro.

Nach Berechnung der Standardabweichung von $x$ bzw. $y$ sowie der Kovarianz zwischen $x$ und $y$ lässt sich der Korrelationskoeffizient $r$ wie folgt ermitteln:

$r_{xy}={\frac {S_{xy}}{S_{x}\cdot S_{y}}}={\frac {1286900}{1553,5\cdot 894,68}}=0,926$

Er weist auf einen starken Zusammenhang zwischen Konsumausgaben und HH-Nettoeinkommen hin.

Die Güte der Anpassung der Regressionsfunktion an die Daten lässt sich mit Hilfe des Bestimmtheitsmaßes ermitteln. Es ist der Anteil der durch die Regressionsfunktion erklärten Varianz an der Gesamtvarianz der Konsumausgaben (Y):

$R^{2}={\frac {\sum {({\widehat {y_{i}}}-{\bar {y}})}^{2}}{\sum {(y_{i}-{\bar {y}})}^{2}}}={\frac {6175715,85}{7204000,00}}=0,857$

Das Bestimmtheitsmaß zeigt, dass 86% der Varianz der Konsumausgaben durch die lineare Abhängigkeit vom Haushaltsnettoeinkommen bei den 10 Zwei-Personen-Haushalten erklärt werden kann.

Schätzung der Regressionsparameter

Aus MM*Stat

Inhaltsverzeichnis

Grundbegriffe

Schätzung der Regressionsparameter

1. Bedingung

2. Bedingung

Methode der kleinsten Quadrate

Zusatzinformationen

Beispiele

Losgröße und Arbeitszeit

Haushaltsnettoeinkommen und Konsumausgaben