Grundbegriffe
Schätzung der Regressionsparameter
Für die Schätzung der Regressionsparameter müssen zwei Bedingungen erfüllt sein.
1. Bedingung
Die Abweichungen der Regresswerte
von den Beobachtungswerten
sollen im Mittel gleich Null sein, d.h.
Diese Bedingung wird aber von einer unendlichen Menge von Regressionsgeraden, die alle durch den Schwerpunkt
der Punktwolke verlaufen, erfüllt.
Diese Bedingung für sich allein genommen führt also zu keiner eindeutigen Regressionsgeraden.
2. Bedingung
Es wird eine Regressionsgerade gesucht, für die die Streuung (Varianz) der Residuen
ein Minimum im Vergleich zu allen anderen Regressionsgeraden ist.
Aus der Erfüllung der 1. Bedingung
folgt:
Die folgende Grafik veranschaulicht die 2. Bedingung:
Die in der Grafik dargestellten Quadrate (sie entsprechen den quadrierten Residuen) sollen minimiert werden.
Daraus ergibt sich der Name der dafür angewandten Methode - die Methode der kleinsten Quadrate (KQ).
Methode der kleinsten Quadrate
Die Methode der kleinsten Quadrate (KQ) hat die Minimierung der Summe der quadratischen Abweichungen (Residual Sum of Squares - RSS) der Regresswerte von den Beobachtungswerten zum Ziel.
Die zu minimierende Funktion ist eine Gleichung mit zwei Unbekannten
und
. Für das Erreichen eines Minimums müssen die ersten partiellen Ableitungen verschwinden, d.h. sie werden Null gesetzt.
Mit Hilfe der Hesse-Matrix lässt sich überprüfen, ob es sich um ein Minimum handelt
Diese ist positiv-definit und somit handelt es sich bei den
Extremwerten um Minima.
Die erste Ableitung führt zu den beiden Normalgleichungen, mit deren Hilfe sich die geschätzten Regressionsparameter
und
durch die Auflösung der Gleichungen nach
bzw.
berechnen lassen:
Die Auflösung der Normalgleichungen mit Hilfe der Cramer'schen Regel liefert:
Werden die ursprünglichen Normalgleichungen durch
dividiert, erhält man im Ergebnis vereinfachte Formeln zur Berechnung der Regressionsparameter:
|
|
|
|
Für die Konstante
ergibt sich:
Für den linearen Regressionskoeffizienten
ergibt sich:
|
|
|
|
|
|
|
|
Zusatzinformationen
- Die Varianz von
muss größer sein als Null: 
- Wie schon aus den vereinfachten Normalgleichungen zu ersehen, gilt
- Für
wird
, d.h. der Punkt
liegt auf der Regressionsgeraden



- Eine lineare Regression
von
auf
entspricht nicht der linearen Regression
von
auf
!
|
|
Beispiele
Losgröße und Arbeitszeit
- Losgröße
- Arbeitszeit
Produktionsdurchläufe im Unternehmen
|
|
|
|
|
|
|
|
1
|
30
|
73
|
2,190
|
900
|
5,329
|
70
|
3
|
2
|
20
|
50
|
1,000
|
400
|
2,500
|
50
|
0
|
3
|
60
|
128
|
7,680
|
3,600
|
16,384
|
130
|
-2
|
4
|
80
|
170
|
1,360
|
6,400
|
28,900
|
170
|
0
|
5
|
40
|
87
|
3,480
|
1,600
|
7,569
|
90
|
-3
|
6
|
50
|
108
|
5,400
|
2,500
|
11,664
|
110
|
-2
|
7
|
60
|
135
|
8,100
|
3,600
|
18,225
|
130
|
5
|
8
|
30
|
69
|
2,070
|
900
|
4,761
|
70
|
-1
|
9
|
70
|
148
|
10,360
|
4,900
|
21,904
|
150
|
-2
|
10
|
60
|
132
|
72,920
|
3,600
|
17,424
|
130
|
2
|
|
500
|
1,100
|
61,800
|
28,400
|
134,660
|
1,100
|
0
|
Berechnung der Hilfsgrößen (Mittelwerte, Varianzen und Standardabweichungen):
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Für die Kovarianz und den Korrelationskoeffizienten ergibt sich:
Damit lassen sich die Regressionsparameter
und
berechnen:
Es ergibt sich folgende Regressionsgleichung:
Haushaltsnettoeinkommen und Konsumausgaben
Von 10 Zwei-Personen-Haushalten wurden jeweils das monatliche Haushaltsnettoeinkommen sowie die Konsumausgaben ermittelt:
Haushalt
|
1
|
2
|
3
|
4
|
5
|
6
|
7
|
8
|
9
|
10
|
HH-Nettoeinkommen in Euro ( )
|
3500
|
5000
|
4300
|
6100
|
1000
|
4800
|
2900
|
2400
|
5600
|
4100
|
Konsumausgaben in Euro ( )
|
2000
|
3500
|
3100
|
3900
|
900
|
3000
|
2100
|
1900
|
2900
|
2100
|
Anhand der Punktwolke im folgenden Scatterplot ist bereits zu erkennen, dass das Haushaltsnettoeinkommen einen positiven Einfluss auf die Konsumausgaben bei den 10 Zwei-Personen-Haushalten ausübt, der offensichtlich mittels einer linearen Regressionsfunktion geschätzt werden kann.
Gesucht ist die lineare Regressionsfunktion der Konsumausgaben in Abhängigkeit vom HH-Nettoeinkommen.
Für die Schätzung der Regressionsparameter sind einige Zwischenberechnungen notwendig
HH
|
|
|
|
|
|
1
|
3500
|
2000
|
7000000
|
12250000
|
4000000
|
2
|
5000
|
3500
|
17500000
|
25000000
|
12250000
|
3
|
4300
|
3100
|
13330000
|
18490000
|
9610000
|
4
|
6100
|
3900
|
23790000
|
37210000
|
15210000
|
5
|
1000
|
900
|
900000
|
1000000
|
810000
|
6
|
4800
|
3000
|
14400000
|
23040000
|
9000000
|
7
|
2900
|
2100
|
6090000
|
8410000
|
4410000
|
8
|
2400
|
1900
|
4560000
|
5760000
|
3610000
|
9
|
5600
|
2900
|
16240000
|
31360000
|
8410000
|
10
|
4100
|
2100
|
8610000
|
16810000
|
4410000
|
Summe
|
39700
|
25400
|
112420000
|
179330000
|
71720000
|
Gemäß der angegebenen Formeln lassen sich die Regressionsparameter
und
wie folgt errechnen:
|
|
|
|
|
|
|
|
|
|
|
|
Damit ergibt sich die folgende lineare Regressionsfunktion:
(Konsumausgaben = 423,13 + 0,5332
Haushaltsnettoeinkommen)
Die Regressionsgerade lässt sich im Scatterplot darstellen:
Der Anstieg der Geraden entspricht der Konsumquote:
Mit jeder Mark mehr Einkommen erhöhen sich im Mittel der beobachteten 10 Zwei-Personen-Haushalte die Konsumausgaben um 0,53 Euro.
Nach Berechnung der Standardabweichung von
bzw.
sowie der Kovarianz zwischen
und
lässt sich der Korrelationskoeffizient
wie folgt ermitteln:
Er weist auf einen starken Zusammenhang zwischen Konsumausgaben und HH-Nettoeinkommen hin.
Die Güte der Anpassung der Regressionsfunktion an die Daten lässt sich mit Hilfe des Bestimmtheitsmaßes ermitteln. Es ist der Anteil der durch die
Regressionsfunktion erklärten Varianz an der Gesamtvarianz der Konsumausgaben (Y):
Das Bestimmtheitsmaß zeigt, dass 86% der Varianz der Konsumausgaben durch die lineare Abhängigkeit vom Haushaltsnettoeinkommen bei den 10 Zwei-Personen-Haushalten erklärt werden kann.