Konfidenzintervall für den Erwartungswert bei bekannter Varianz
Aus MM*Stat
Unterseiten |
Grundbegriffe
Konfidenzintervall bei Normalverteilung der Grundgesamtheit
Die Zufallsvariable in der Grundgesamtheit sei normalverteilt mit und :
Dann ist
ein Konfidenzintervall für den unbekannten Parameter der normalverteilten Zufallsvariablen mit bekannter Varianz zum Konfidenzniveau
Wurde die Stichprobe gezogen und liegen die Stichprobenwerte vor, dann ist
das arithmetische Mittel dieser Stichprobe (als eine Realisation von ) und
das sich für diese Stichprobe ergebende Schätzintervall.
Die allgemein gegebene Interpretation von Konfidenzintervallen bleibt uneingeschränkt gültig.
Konfidenzintervall bei unbekannter Verteilung der Grundgesamtheit
Wenn die Verteilung der Zufallsvariablen in der Grundgesamtheit unbekannt ist, d.h. beliebig verteilt ist, dann lässt sich keine exakte Aussage über die Verteilung der Schätzfunktion treffen.
Aus vorhergehenden Betrachtungen über den Zentralen Grenzwertsatz ist jedoch bekannt, dass die Verteilung von mit wachsendem Stichprobenumfang gegen eine Normalverteilung strebt.
Somit gilt:
Bei genügend großen Stichprobenumfang ist die Schätzfunktion approximativ normalverteilt:
und die standardisierte Zufallsvariable ist approximativ standardnormalverteilt:
.
Als Faustregel für einen genügend großen Stichprobenumfang gilt .
Dann ist
ein Konfidenzintervall für den unbekannten Parameter , das approximativ das Konfidenzniveau
hat.
Zusatzinformationen
Herleitung des Konfidenzintervalls bei normalverteilter Grundgesamtheit
Die Zufallsvariable in der Grundgesamtheit sei normalverteilt mit und :
Während die Varianz bekannt sei, ist der Erwartungswert unbekannt und soll unter Verwendung einer einfachen Zufallsstichprobe vom Umfang geschätzt werden.
Die Stichprobenvariablen sind dann unabhängig und ebenfalls normalverteilt mit und :
Daraus folgt, dass auch die Schätzfunktion normalverteilt ist mit dem Erwartungswert und der Varianz :
Die standardisierte Zufallsvariable
ist standardnormalverteilt: .
Für die standardisierte Zufallsvariable lässt sich ein zentrales Schwankungsintervall angeben, in dem Realisationen mit einer vorgegebenen Sicherheitswahrscheinlichkeit
annimmt.
Dabei ist das -Quantil und das -Quantil der Standardnormalverteilung.
Aufgrund der Symmetrie der Standardnormalverteilung gilt:
und
Damit folgt:
Für die Wahrscheinlichkeit findet man in der Tabelle der Standardnormalverteilung.
Nach Einsetzen von und einigen elementaren Umformungen der Ungleichung erhält man:
Mit dem letzten Ausdruck ist das Konfidenzniveau für ein Konfidenzintervall für gegeben.
Der Faktor als Vielfaches der Standardabweichung der Schätzfunktion ergibt sich zu: .
Die Bedingungen für ein Konfidenzintervall sind erfüllt, denn die Verteilung ist bekannt (Standardnormalverteilung) und sie hängt nicht von dem unbekannten Parameter ab.
Charakteristika des Konfidenzintervalls bei normalverteilter Grundgesamtheit
- Das angegebene Konfidenzintervall ist ein bezüglich der Wahrscheinlichkeit symmetrisches Konfidenzintervall, denn es gilt:
- Das Konfidenzintervall weist eine weitere Symmetrieeigenschaft auf: Es ist symmetrisch bezüglich der Punktschätzung.
- Die Grenzen des Intervalls haben zu den gleichen Abstand. Dieser Abstand, d.h. die halbe Länge des Intervalls, wird in diesem Fall auch als Schätzfehler bezeichnet und mit symbolisiert.
- und der Schätzfehler hängen nicht von den Stichprobenvariablen ab.
- Bei gegebenen , und ergeben sich von Stichprobe zu Stichprobe unterschiedliche Schätzintervalle, die aber alle die gleiche feste Länge bzw. den gleichen festen Schätzfehler aufweisen.
- Die Länge des Konfidenzintervalls und der Schätzfehler hängen von der Standardabweichung der Grundgesamtheit, vom Stichprobenumfang und über vom vorgegebenen Konfidenzniveau ab.
- Je größer (kleiner) die Standardabweichung ist, desto breiter (schmaler) ist unter sonst gleichen Bedingungen das Intervall.
- Je größer (kleiner) das Konfidenzniveau ist, um so größer (kleiner) ist und umso breiter (schmaler) ist unter sonst gleichen Bedingungen das Intervall.
- Je größer (kleiner) der Stichprobenumfang ist, desto schmaler (breiter) ist unter sonst gleichen Bedingungen das Intervall.
- Im Zusammenspiel von Konfidenzniveau und Stichprobenumfang lässt sich somit eine Steuerung für das Konfidenzintervall erreichen.
Beispiele
Haushaltsnettoeinkommen
Für eine Grundgesamtheit von Privathaushalten sei die Zufallsvariable das Haushaltsnettoeinkommen (in €).
Das mittlere Haushaltsnettoeinkommen dieser Grundgesamtheit, d.h. der Erwartungswert , ist unbekannt und soll geschätzt werden.
Über die Punktschätzung hinaus soll ein Konfidenzintervall zum Konfidenzniveau und für die konkreten Stichproben das Schätzintervall angegeben werden.
Zur Schätzung von wird der Stichprobenmittelwert
als Schätzfunktion verwendet.
Eine Zufallsstichprobe vom Umfang liefert die Stichprobenwerte .
Nach Einsetzen dieser Stichprobenwerte in die Schätzfunktion erhält man einen Schätzwert
als Punktschätzung für das mittlere Haushaltsnettoeinkommen der Grundgesamtheit.
Die Angabe des Konfidenzintervalls wird entscheidend von den Informationen, die über die Grundgesamtheit vorliegen, bestimmt.
Es sei bekannt, dass die Zufallsvariable (Haushaltsnettoeinkommen) in der Grundgesamtheit einer Normalverteilung mit der Standardabweichung folgt:
.
Aufgrund dieser Informationen ist
ein Konfidenzintervall für den unbekannten Parameter der Zufallsvariablen (Haushaltnettoeinkommen) zum Konfidenzniveau
Zum vorgegebenen Konfidenzniveau findet man in der Tabelle der Verteilungsfunktion der Standardnormalverteilung
Nach Einsetzen von und ergibt sich:
und
Nach der Ziehung der Stichprobe ist
das sich für die Stichprobe ergebende Schätzintervall, in dem nur noch der Punktschätzwert und einzusetzen sind.
Eine einfache Zufallsstichprobe vom Umfang Privathaushalten aus der oben genannten Grundgesamtheit liefert die folgenden Stichprobenwerte.
Tabelle 1: Stichprobenwerte des Haushaltsnettoeinkommens einer Stichprobe vom Umfang (der Größe nach geordnet)
Haushaltsnettoeinkommen (€) | Haushaltsnettoeinkommen (€) | ||
1 | 800 | 11 | 2500 |
2 | 1200 | 12 | 2500 |
3 | 1400 | 13 | 2500 |
4 | 1500 | 14 | 2700 |
5 | 1500 | 15 | 2850 |
6 | 1500 | 16 | 3300 |
7 | 1800 | 17 | 3650 |
8 | 1800 | 18 | 3700 |
9 | 2300 | 19 | 4100 |
10 | 2400 | 20 | 4300 |
Das mittlere Haushaltsnettoeinkommen dieser Stichprobe beträgt
und ist ein Schätzwert für das mittlere Haushaltsnettoeinkommen der Grundgesamtheit.
Als Schätzintervall für diese Stichprobe ergibt sich:
Für dieses Schätzintervall kann nichts darüber ausgesagt werden, ob der wahre Wert des mittleren Haushaltsnettoeinkommens der Grundgesamtheit in dem Intervall enthalten ist oder nicht.
Da jedoch für das Schätzverfahren eine Sicherheitswahrscheinlichkeit von 0,95 (d.h. recht nahe bei Eins) gewählt wurde, unterstellt man, eines der Schätzintervalle zum Stichprobenumfang erhalten zu haben, dass den wahren Wert enthält.
Um die Problematik von Konfidenzintervallen zu demonstrieren, werden 24 weitere Zufallsstichproben vom Umfang aus der gleichen Grundgesamtheit gezogen und das mittlere Haushaltsnettoeinkommen und ein Schätzintervall für jede Stichprobe berechnet, die in der folgenden Tabelle für alle 25 Zufallsstichproben enthalten sind.
Tabelle 2: Mittleres Haushaltsnettoeinkommen (€) und Schätzintervall für 25 Zufallsstichproben vom Umfang
1 | 2413,40 | 1969,52 | 2857,28 | 14 | 2126,50 | 1682,62 | 2570,38 |
2 | 2317,00 | 1873,12 | 2760,88 | 15 | 2243,15 | 1799,27 | 2687,03 |
3 | 2567,50 | 2123,62 | 3011,38 | 16 | 2361,25 | 1917,37 | 2805,13 |
4 | 2060,90 | 1617,02 | 2504,78 | 17 | 2607,5 | 2163,37 | 3051,13 |
5 | 2363,50 | 1919,62 | 2807,38 | 18 | 2319,55 | 1875,67 | 2763,43 |
6 | 2774,30 | 2330,42 | 3218,18 | 19 | 2203,85 | 1759,97 | 2647,73 |
7 | 2298,80 | 1854,92 | 2742,68 | 20 | 2395,25 | 1951,37 | 2839,13 |
8 | 2241,15 | 1797,27 | 2685,03 | 21 | 2659,00 | 2215,12 | 3102,88 |
9 | 1915,30 | 1471,42 | 2359,18 | 22 | 2168,50 | 1724,62 | 2612,38 |
10 | 2062,15 | 1618,27 | 2506,03 | 23 | 2110,30 | 1666,42 | 2554,18 |
11 | 2267,75 | 1823,87 | 2711,63 | 24 | 1884,90 | 1441,02 | 2328,78 |
12 | 2163,10 | 1719,22 | 2606,98 | 25 | 2415,00 | 1971,12 | 2858,88 |
13 | 2635,00 | 2191,12 | 3078,88 |
Die folgende Abbildung zeigt die 25 Punktschätzwerte und Schätzintervalle.
Einzig und allein zum Zweck der Veranschaulichung ist der wahre Mittelwert der Grundgesamtheit als gepunktete Linie in der Grafik enthalten.
Anhand dieser Ergebnisse werden verschiedene Charakteristika von Konfidenzintervallen deutlich:
- Die Grenzen und eines Konfidenzintervalls sind Zufallsvariablen, die von Stichprobe zu Stichprobe aufgrund der verschiedenen Stichprobenwerte und der daraus resultierenden Schätzwerte unterschiedliche Werte annehmen können.
- 23 Schätzintervalle (92%) schließen den wahren Wert ein und 2 Schätzintervalle (Stichprobe Nr. 9 und Nr. 24; 8%) schließen ihn nicht ein.
- Widerspricht dies dem festgelegten Konfidenzniveau von 0,95?
- Die Antwort ist nein, denn das Konfidenzniveau bezieht sich auf eine sehr große Anzahl von Stichproben und 25 Stichproben ist wirklich keine große Anzahl.
- Da die Standardabweichung der Grundgesamtheit als bekannt vorausgesetzt wurde, haben alle 25 Schätzintervalle die gleiche Länge von 887,76 bzw. den gleichen Schätzfehler von 443,88.