Konfidenzintervall für den Erwartungswert bei unbekannter Varianz/Beispiel: Haushaltsnettoeinkommen

Aus MM*Stat

Wechseln zu: Navigation, Suche

Beispiele

Haushaltsnettoeinkommen

Für eine Grundgesamtheit von N = 2000 Privathaushalten sei die Zufallsvariable X\; das Haushaltsnettoeinkommen (in €).

Das mittlere Haushaltsnettoeinkommen dieser Grundgesamtheit, d.h. der Erwartungswert E[X] = \mu, ist unbekannt und soll geschätzt werden.

Über die Punktschätzung hinaus soll ein Konfidenzintervall zum Konfidenzniveau 1-\alpha=0,95 und für die konkreten Stichproben das Schätzintervall angegeben werden.

Zur Schätzung von \mu wird der Stichprobenmittelwert

\bar{X}=\frac{1}{n}\cdot\sum\limits_{i=1}^{n}X_{i}

als Schätzfunktion verwendet.

Eine Zufallsstichprobe vom Umfang n liefert die Stichprobenwerte x_{1},\ldots, x_{n}.

Nach Einsetzen dieser Stichprobenwerte in die Schätzfunktion erhält man einen Schätzwert

\bar{x}=\frac{1}{n}\cdot\sum\limits_{i=1}^{n}x_{i}

als Punktschätzung für das mittlere Haushaltsnettoeinkommen der Grundgesamtheit.

Die Angabe des Konfidenzintervalls wird entscheidend von den Informationen, die über die Grundgesamtheit vorliegen, bestimmt.

Konfidenzintervall bei normalverteilter Grundgesamtheit

Es wird wiederum davon ausgegangen, dass die Zufallsvariable X\; (Haushaltsnettoeinkommen) in der Grundgesamtheit normalverteilt ist, jedoch sei nunmehr die Standardabweichung unbekannt: X\sim N(\mu;\sigma)\;.

Für die Bestimmung eines Konfidenzintervalls für \mu muß die Varianz \sigma^{2} geschätzt werden, was mittels der Schätzfunktion S^{2} erfolgt.

Aufgrund dieser Informationen ist

\left[  \bar{X}-t_{n-1;1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}};\;\bar{X}+t_{n-1;1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\right]

ein Konfidenzintervall für den unbekannten Parameter \mu der Zufallsvariablen X\; (Haushaltnettoeinkommen) zum Konfidenzniveau

P\left(  \bar{X}-t_{n-1;1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\leq\mu\leq\bar{X}+t_{n-1;1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\right)  =1-\alpha

Zum vorgegebenen Konfidenzniveau 1-\alpha=0.95 findet man in der Tabelle der Verteilungsfunktion der t-Verteilung:

t_{n-1;1-\frac{\alpha}{2}}=t_{19;0,975}=2,093.

Nach der Ziehung der Stichprobe ist

\left[  \bar{x}-2,093\cdot\frac{s}{\sqrt{n}};\;\bar{x}+2,093\cdot\frac{s}{\sqrt {n}}\right]

das sich für die Stichprobe ergebende Schätzintervall, in dem die Punktschätzwerte \bar{x} und s sowie n einzusetzen sind.

Um diese Veränderung in der Bestimmung des Konfidenzintervalls zu veranschaulichen, wird von den gleichen 25 einfachen Zufallsstichproben vom Umfang n = 20 wie unter Punkt 1.1. ausgegangen.

Für die Stichprobe Nr. 25, deren Stichprobenwerte in der Tabelle 1 enthalten sind, ergibt sich ein mittleres Haushaltsnettoeinkommen von

\bar{x}=\frac{48300}{20}=2415\,\euro

und eine Standardabweichung

s=1001,065\,\euro

und damit das Schätzintervall

\left[  2415-2,093\cdot\frac{1001,065}{\sqrt{20}};\; 2415+2,093\cdot\frac{1001,065}{\sqrt{20}}\right] =[2415-468,51;\; 2415+468,51]
=[1946,49;\; 2883,51]

Die Interpretation dieses Schätzintervalls ist wie vorher.

Tabelle 3 enthält das mittlere Haushaltsnettoeinkommen \bar{x}, die Standardabweichung s, das Schätzintervall sowie den Schätzfehler e für die 25 Zufallsstichproben.

Tabelle 3: Mittleres Haushaltsnettoeinkommen (€) \bar{x}, Standardabweichung s, Schätzintervall und Schätzfehler e für 25 Zufallsstichproben vom Umfang n = 20

i\; \bar{x} s\; v_{u}\; v_{o}\; e\;
1 2413,40 1032,150 1930,34 2896,46 966,12
2 2317,00 872,325 1908,74 2825,26 816,52
3 2567,50 1002,008 2098,55 3036,45 937,90
4 2060,90 812,365 1680,71 2441,09 760,38
5 2363,50 1376,648 1719,22 3007,78 1288,56
6 2774,30 1213,779 2206,24 3342,63 1136,12
7 2298,80 843,736 1903,92 2693,68 789,76
8 2241,15 1116,827 1718,46 2763,84 1045,38
9 1915.30 1113,122 1394,35 2436,25 1041,90
10 2062,15 856,069 1661,50 2462,80 801,30
11 2267,75 1065,227 1769,21 2766,29 997,08
12 2163,10 1040,966 1675,92 2650,28 974,36
13 2635,00 1154,294 2094,78 3175,22 1080,44
14 2126,50 1103,508 1610,05 2642,95 1032,90
15 2243,15 1126,913 1715,74 2770,56 1054,82
16 2361,25 1166,260 1815,43 2907,07 1091,64
17 2607,25 848,019 2210,37 3004,13 793,76
18 2319,55 941,236 1879,04 2760,06 881,02
19 2203,85 974,980 1747,55 2660,15 912,60
20 2395,25 899,461 1974,29 2816,21 841,92
21 2659,00 969,720 2205,16 3112,84 907,68
22 2168,50 763,222 1811,31 2525,69 714,38
23 2110,30 1127,608 1582,57 2638,03 1055,46
24 1884,90 928,420 1450,39 2319,41 869,02
25 2415,00 1001,065 1946,49 2883,51 937,02

Die folgende Abbildung enthält die grafische Darstellung der 25 Punktschätzwerte und Schätzintervalle.

Auch hier wird einzig und allein zum Zweck der Veranschaulichung der wahre Mittelwert \mu der Grundgesamtheit als gestrichelte Linie in die Grafik eingefügt.

In diesem Fall überdeckt nur ein Schätzintervall (der Stichprobe Nr. 24) nicht den wahren Wert \mu des mittleren Haushaltsnettoeinkommens.

Aus Tabelle 3 und Abb. 2 ist zu erkennen, dass hier die Länge L der Intervalle und der Schätzfehler E von Stichprobe zu Stichprobe variieren und somit Zufallsvariablen sind.

Die Ursache liegt in der unbekannten Standardabweichung s der Grundgesamtheit, die geschätzt werden muss und in verschiedenen Schätzwerten resultiert.

Konfidenzintervall bei beliebig verteilter Grundgesamtheit

Es soll jetzt der in der Praxis am häufigsten auftretende Fall betrachtet werden, dass die Verteilung der Zufallsvariablen X\; und die Standardabweichung \sigma in der Grundgesamtheit unbekannt sind.

Um überhaupt ein Konfidenzintervall angeben zu können, muss der Stichprobenumfang n ausreichend groß sein, so dass der Zentrale Grenzwertsatz zur Anwendung kommen kann. Es wird n = 100 gewählt.

Dann ist

\left[  \bar{X}-z_{1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}},\quad\bar{X}+z_{1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\right]

ein approximatives Konfidenzintervall für den unbekannten Parameter \mu der Zufallsvariablen X\; (Haushaltnettoeinkommen) zum näherungsweisen Konfidenzniveau

P\left(  \bar{X}-z_{1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\leq\mu\leq\bar{X}+z_{1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\right)  \approx1-\alpha

Zum vorgegebenen Konfidenzniveau 1-\alpha=0,95 findet man in der Tabelle der Verteilungsfunktion der Standardnormalverteilung:

z_{1-\frac{\alpha}{2}}=z_{0.975}=1.96.

Für 50 einfache Zufallsstichproben sind in der Abb. 3 die Punktschätzwerte und Schätzintervalle enthalten, wobei wiederum einzig und allein zum Zweck der Veranschaulichung der wahre Mittelwert \mu der Grundgesamtheit als gepunktete Linie in die Grafik eingefügt wurde.

Auf die Angabe der numerischen Resultate wird verzichtet.

Auch hier ist zu sehen, dass die Länge L der Intervalle und der Schätzfehler E von Stichprobe zu Stichprobe variieren und somit Zufallsvariablen sind, was auf die unbekannte Standardabweichung der Grundgesamtheit zurückzuführen ist.

Von den 50 Schätzintervallen überdeckt zwei Schätzintervalle (4%) nicht den wahren Wert \mu des mittleren Haushaltsnettoeinkommens.