Konfidenzintervall für den Erwartungswert bei unbekannter Varianz: Unterschied zwischen den Versionen

Aus MM*Stat

Wechseln zu: Navigation, Suche
Keine Bearbeitungszusammenfassung
Keine Bearbeitungszusammenfassung
Zeile 1: Zeile 1:
{{Schaetztheorie}}
{{Schaetztheorie}}
{{SubpageToc|Haushaltsnettoeinkommen|Glühlampen}}


=={{Vorlage:Überschrift}}==
=={{Vorlage:Überschrift}}==
Zeile 119: Zeile 120:


: Die zusätzliche Unsicherheit bezüglich <math>\sigma^{2}</math> ist in die [[t-Verteilung]] "eingearbeitet".
: Die zusätzliche Unsicherheit bezüglich <math>\sigma^{2}</math> ist in die [[t-Verteilung]] "eingearbeitet".
=={{Vorlage:Beispiele}}==
===Haushaltsnettoeinkommen===
Für eine [[Grundgesamtheit]] von <math>N = 2000</math> Privathaushalten sei die [[Zufallsvariable]] <math>X\;</math> das Haushaltsnettoeinkommen (in €).
Das mittlere Haushaltsnettoeinkommen dieser [[Grundgesamtheit]], d.h. der [[Erwartungswert der Grundgesamtheit|Erwartungswert]] <math>E[X] = \mu</math>, ist unbekannt und soll geschätzt werden.
Über die [[Punktschätzung]] hinaus soll ein [[Konfidenzintervall]] zum [[Konfidenzniveau]] <math>1-\alpha=0,95</math> und für die konkreten [[Stichprobe]]n das [[Schätzintervall]] angegeben werden.
Zur [[Schätzung]] von <math>\mu</math> wird der [[Stichprobenmittelwert]]
<math>\bar{X}=\frac{1}{n}\cdot\sum\limits_{i=1}^{n}X_{i}</math>
als [[Schätzfunktion]] verwendet.
Eine [[Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n</math> liefert die [[Stichprobenwerte]] <math>x_{1},\ldots, x_{n}</math>.
Nach Einsetzen dieser [[Stichprobenwerte]] in die [[Schätzfunktion]] erhält man einen [[Schätzwert]]
<math>\bar{x}=\frac{1}{n}\cdot\sum\limits_{i=1}^{n}x_{i}</math>
als [[Punktschätzung]] für das mittlere Haushaltsnettoeinkommen der [[Grundgesamtheit]].
Die Angabe des [[Konfidenzintervall]]s wird entscheidend von den Informationen, die über die [[Grundgesamtheit]] vorliegen, bestimmt.
====Konfidenzintervall bei normalverteilter Grundgesamtheit====
Es wird wiederum davon ausgegangen, dass die [[Zufallsvariable]] <math>X\;</math> (Haushaltsnettoeinkommen) in der [[Grundgesamtheit]] [[Normalverteilung|normalverteilt]] ist, jedoch sei nunmehr die [[Standardabweichung (stochastisch)|Standardabweichung]] unbekannt: <math>X\sim N(\mu;\sigma)\;</math>.
Für die Bestimmung eines [[Konfidenzintervall]]s für <math>\mu</math> muß die [[Varianz der Grundgesamtheit|Varianz]] <math>\sigma^{2}</math> [[Schätzung|geschätzt]] werden, was mittels der [[Schätzfunktion]] <math>S^{2}</math> erfolgt.
Aufgrund dieser Informationen ist
<math>\left[  \bar{X}-t_{n-1;1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}};\;\bar{X}+t_{n-1;1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\right]</math>
ein [[Konfidenzintervall]] für den unbekannten [[Parameter]] <math>\mu</math> der [[Zufallsvariable]]n <math>X\;</math> (Haushaltnettoeinkommen) zum [[Konfidenzniveau]]
<math>P\left(  \bar{X}-t_{n-1;1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\leq\mu\leq\bar{X}+t_{n-1;1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\right)  =1-\alpha</math>
Zum vorgegebenen [[Konfidenzniveau]] <math>1-\alpha=0.95</math> findet man in der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[t-Verteilung]]:
<math>t_{n-1;1-\frac{\alpha}{2}}=t_{19;0,975}=2,093</math>.
Nach der Ziehung der [[Stichprobe]] ist
<math>\left[  \bar{x}-2,093\cdot\frac{s}{\sqrt{n}};\;\bar{x}+2,093\cdot\frac{s}{\sqrt {n}}\right]</math>
das sich für die [[Stichprobe]] ergebende [[Schätzintervall]], in dem die Punkt[[schätzwert]]e <math>\bar{x}</math> und <math>s</math> sowie <math>n</math> einzusetzen sind.
Um diese Veränderung in der Bestimmung des [[Konfidenzintervall]]s zu veranschaulichen, wird von den gleichen 25 [[Einfache Zufallsstichprobe|einfachen Zufallsstichproben]] vom [[Stichprobenumfang|Umfang]] <math>n = 20</math> wie unter Punkt 1.1. ausgegangen.
Für die [[Stichprobe]] Nr. 25, deren [[Stichprobenwerte]] in der Tabelle 1 enthalten sind, ergibt sich ein mittleres Haushaltsnettoeinkommen von
<math>\bar{x}=\frac{48300}{20}=2415\,\euro</math>
und eine [[Standardabweichung (stochastisch)|Standardabweichung]]
<math>s=1001,065\,\euro</math>
und damit das [[Schätzintervall]]
{|
|<math>\left[  2415-2,093\cdot\frac{1001,065}{\sqrt{20}};\; 2415+2,093\cdot\frac{1001,065}{\sqrt{20}}\right]</math>
|<math>=[2415-468,51;\; 2415+468,51]</math>
|-
|
|<math>=[1946,49;\; 2883,51]</math>
|}
Die Interpretation dieses [[Schätzintervall]]s ist wie vorher.
Tabelle 3 enthält das mittlere Haushaltsnettoeinkommen <math>\bar{x}</math>, die [[Standardabweichung (stochastisch)|Standardabweichung]] <math>s</math>, das [[Schätzintervall]] sowie den [[Schätzfehler]] <math>e</math> für die 25 [[Zufallsstichprobe]]n.
Tabelle 3: Mittleres Haushaltsnettoeinkommen (€) <math>\bar{x}</math>, [[Standardabweichung (stochastisch)|Standardabweichung]] <math>s</math>, [[Schätzintervall]] und [[Schätzfehler]] <math>e</math> für 25 [[Zufallsstichprobe]]n vom [[Stichprobenumfang|Umfang]] <math>n = 20</math>
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"
|align="center"|<math>i\;</math>
|align="center"|<math>\bar{x}</math>
|align="center"|<math>s\;</math>
|align="center"|<math>v_{u}\;</math>
|align="center"|<math>v_{o}\;</math>
|align="center"|<math>e\;</math>
|-
|align="center"|1
|align="center"|2413,40
|align="center"|1032,150
|align="center"|1930,34
|align="center"|2896,46
|align="center"|966,12
|-
|align="center"|2
|align="center"|2317,00
|align="center"|872,325
|align="center"|1908,74
|align="center"|2825,26
|align="center"|816,52
|-
|align="center"|3
|align="center"|2567,50
|align="center"|1002,008
|align="center"|2098,55
|align="center"|3036,45
|align="center"|937,90
|-
|align="center"|4
|align="center"|2060,90
|align="center"|812,365
|align="center"|1680,71
|align="center"|2441,09
|align="center"|760,38
|-
|align="center"|5
|align="center"|2363,50
|align="center"|1376,648
|align="center"|1719,22
|align="center"|3007,78
|align="center"|1288,56
|-
|align="center"|6
|align="center"|2774,30
|align="center"|1213,779
|align="center"|2206,24
|align="center"|3342,63
|align="center"|1136,12
|-
|align="center"|7
|align="center"|2298,80
|align="center"|843,736
|align="center"|1903,92
|align="center"|2693,68
|align="center"|789,76
|-
|align="center"|8
|align="center"|2241,15
|align="center"|1116,827
|align="center"|1718,46
|align="center"|2763,84
|align="center"|1045,38
|-
|align="center"|9
|align="center"|1915.30
|align="center"|1113,122
|align="center"|1394,35
|align="center"|2436,25
|align="center"|1041,90
|-
|align="center"|10
|align="center"|2062,15
|align="center"|856,069
|align="center"|1661,50
|align="center"|2462,80
|align="center"|801,30
|-
|align="center"|11
|align="center"|2267,75
|align="center"|1065,227
|align="center"|1769,21
|align="center"|2766,29
|align="center"|997,08
|-
|align="center"|12
|align="center"|2163,10
|align="center"|1040,966
|align="center"|1675,92
|align="center"|2650,28
|align="center"|974,36
|-
|align="center"|13
|align="center"|2635,00
|align="center"|1154,294
|align="center"|2094,78
|align="center"|3175,22
|align="center"|1080,44
|-
|align="center"|14
|align="center"|2126,50
|align="center"|1103,508
|align="center"|1610,05
|align="center"|2642,95
|align="center"|1032,90
|-
|align="center"|15
|align="center"|2243,15
|align="center"|1126,913
|align="center"|1715,74
|align="center"|2770,56
|align="center"|1054,82
|-
|align="center"|16
|align="center"|2361,25
|align="center"|1166,260
|align="center"|1815,43
|align="center"|2907,07
|align="center"|1091,64
|-
|align="center"|17
|align="center"|2607,25
|align="center"|848,019
|align="center"|2210,37
|align="center"|3004,13
|align="center"|793,76
|-
|align="center"|18
|align="center"|2319,55
|align="center"|941,236
|align="center"|1879,04
|align="center"|2760,06
|align="center"|881,02
|-
|align="center"|19
|align="center"|2203,85
|align="center"|974,980
|align="center"|1747,55
|align="center"|2660,15
|align="center"|912,60
|-
|align="center"|20
|align="center"|2395,25
|align="center"|899,461
|align="center"|1974,29
|align="center"|2816,21
|align="center"|841,92
|-
|align="center"|21
|align="center"|2659,00
|align="center"|969,720
|align="center"|2205,16
|align="center"|3112,84
|align="center"|907,68
|-
|align="center"|22
|align="center"|2168,50
|align="center"|763,222
|align="center"|1811,31
|align="center"|2525,69
|align="center"|714,38
|-
|align="center"|23
|align="center"|2110,30
|align="center"|1127,608
|align="center"|1582,57
|align="center"|2638,03
|align="center"|1055,46
|-
|align="center"|24
|align="center"|1884,90
|align="center"|928,420
|align="center"|1450,39
|align="center"|2319,41
|align="center"|869,02
|-
|align="center"|25
|align="center"|2415,00
|align="center"|1001,065
|align="center"|1946,49
|align="center"|2883,51
|align="center"|937,02
|}
Die folgende Abbildung enthält die grafische Darstellung der 25 Punkt[[schätzwert]]e und [[Schätzintervall]]e.
Auch hier wird einzig und allein zum Zweck der Veranschaulichung der wahre [[Mittelwert der Grundgesamtheit|Mittelwert <math>\mu</math> der Grundgesamtheit]] als gestrichelte Linie in die Grafik eingefügt.
<iframe k="wiwi" p="examples/stat_Konfidenzintervall_Konfidenzintervall_varianz_unbekannt1_R00480004800000000000000_plot.html" />
In diesem Fall überdeckt nur ein [[Schätzintervall]] (der [[Stichprobe]] Nr. 24) nicht den wahren Wert <math>\mu</math> des mittleren Haushaltsnettoeinkommens.
Aus Tabelle 3 und Abb. 2 ist zu erkennen, dass hier die [[Länge des Konfidenzintervalls|Länge <math>L</math> der Intervalle]] und der [[Schätzfehler]] <math>E</math> von [[Stichprobe]] zu [[Stichprobe]] variieren und somit [[Zufallsvariable]]n sind.
Die Ursache liegt in der unbekannten [[Standardabweichung (stochastisch)|Standardabweichung]] <math>s</math> der [[Grundgesamtheit]], die geschätzt werden muss und in verschiedenen [[Schätzwert]]en resultiert.
====Konfidenzintervall bei beliebig verteilter Grundgesamtheit====
Es soll jetzt der in der Praxis am häufigsten auftretende Fall betrachtet werden, dass die [[Verteilung (stochastisch)|Verteilung]] der [[Zufallsvariable]]n <math>X\;</math> und die [[Standardabweichung (stochastisch)|Standardabweichung]] <math>\sigma</math> in der [[Grundgesamtheit]] unbekannt sind.
Um überhaupt ein [[Konfidenzintervall]] angeben zu können, muss der [[Stichprobenumfang]] <math>n</math> ausreichend groß sein, so dass der [[Zentraler Grenzwertsatz|Zentrale Grenzwertsatz]] zur Anwendung kommen kann. Es wird <math>n = 100</math> gewählt.
Dann ist
<math>\left[  \bar{X}-z_{1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}},\quad\bar{X}+z_{1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\right]</math>
ein [[Approximation|approximatives]] [[Konfidenzintervall]] für den unbekannten [[Parameter]] <math>\mu</math> der [[Zufallsvariable]]n <math>X\;</math> (Haushaltnettoeinkommen) zum näherungsweisen [[Konfidenzniveau]]
<math>P\left(  \bar{X}-z_{1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\leq\mu\leq\bar{X}+z_{1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\right)  \approx1-\alpha</math>
Zum vorgegebenen [[Konfidenzniveau]] <math>1-\alpha=0,95</math> findet man in der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Standardnormalverteilung]]:
<math>z_{1-\frac{\alpha}{2}}=z_{0.975}=1.96</math>.
Für 50 [[einfache Zufallsstichprobe]]n sind in der Abb. 3 die Punkt[[schätzwert]]e und [[Schätzintervall]]e enthalten, wobei wiederum einzig und allein zum Zweck der Veranschaulichung der wahre [[Mittelwert der Grundgesamtheit|Mittelwert <math>\mu</math> der Grundgesamtheit]] als gepunktete Linie in die Grafik eingefügt wurde.
Auf die Angabe der numerischen Resultate wird verzichtet.
<iframe k="wiwi" p="examples/stat_Konfidenzintervall_Konfidenzintervall_varianz_unbekannt2_R00480004800000000000000_plot.html" />
Auch hier ist zu sehen, dass die [[Länge des Konfidenzintervalls|Länge <math>L</math> der Intervalle]] und der [[Schätzfehler]] <math>E</math> von [[Stichprobe]] zu [[Stichprobe]] variieren und somit [[Zufallsvariable]]n sind, was auf die unbekannte [[Standardabweichung (stochastisch)|Standardabweichung]] der [[Grundgesamtheit]] zurückzuführen ist.
Von den 50 [[Schätzintervall]]en überdeckt zwei [[Schätzintervall]]e (4%) nicht den wahren Wert <math>\mu</math> des mittleren Haushaltsnettoeinkommens.


===Glühlampen===
===Glühlampen===

Version vom 22. November 2018, 16:29 Uhr

Schätztheorie

Grundbegriffe der Schätztheorie • Gütekriterien einer Schätzfunktion • Mittlere quadratische Abweichung (stochastisch) • Erwartungstreue • Effizienz • Konsistenz • Maximum-Likelihood-Methode • Kleinste-Quadrate-Methode • Intervallschätzung • Konfidenzintervall für den Erwartungswert • Konfidenzintervall für den Erwartungswert bei bekannter Varianz • Konfidenzintervall für den Erwartungswert bei unbekannter Varianz • Konfidenzintervall für den Anteilswert • Konfidenzintervall für die Varianz • Konfidenzintervall für die Differenz zweier Erwartungswerte • Bestimmung des Stichprobenumfangs • Multiple Choice • Video • Aufgaben • Lösungen
Absolute Effizienz • Asymptotische Erwartungstreue • Bias • Breite des Konfidenzintervalls • Einseitiges Konfidenzintervall • Grenzen des Konfidenzintervalls • Grenzen des Schätzintervalls • Irrtumswahrscheinlichkeit • Kleinste-Quadrate-Schätzer • Konfidenzintervall • Konfidenzniveau • Konfidenzwahrscheinlichkeit • KQ-Methode • KQ-Schätzer • Länge des Konfidenzintervalls • Likelihood-Funktion • Log-Likelihood-Funktion • Maximum-Likelihood-Schätzer • Maximum-Likelihood-Schätzung • Mean Square Error • Methode der kleinsten Quadrate • ML-Schätzer • ML-Schätzung • Parameterschätzung • Punktschätzung • Realisiertes Konfidenzintervall • Relative Effizienz • Schätzer • Schätzfehler • Schätzfunktion • Schätzintervall • Schätzung • Schätzverfahren • Schätzwert • Symmetrisches Konfidenzintervall • Unbiasedness • Unverzerrtheit • Vertrauenswahrscheinlichkeit • Verzerrung • Zentrales Konfidenzintervall • Zufallsintervall • Zweiseitiges Konfidenzintervall

Grundbegriffe

Konfidenzintervall für den Erwartungswert bei Normalverteilung der Grundgesamtheit

Es gilt:

.

Weiterhin sei die Standardabweichung als Wurzel aus der Stichprobenvarianz und das -Quantil der t-Verteilung.

Dann ist

ein Konfidenzintervall für den unbekannten Parameter der normalverteilten Zufallsvariablen mit unbekannter Varianz zum Konfidenzniveau

Wurde die Stichprobe gezogen und liegen die Stichprobenwerte vor, dann lassen sich daraus

  • die Punktschätzwerte und
bestimmen.

Da die t-Verteilung mit wachsender Anzahl der Freiheitsgrade und somit mit wachsendem Stichprobenumfang gegen die konvergiert, kann bei genügend großem Stichprobenumfang approximativ die Standardnormalverteilung und statt verwendet werden. Man erhält dann ein approximatives Konfidenzintervall.

Konfidenzintervall für den Erwartungswert bei unbekannter Verteilung der Grundgesamtheit

Wenn die Zufallsvariable in der Grundgesamtheit nicht normalverteilt und die Varianz unbekannt ist, kann unter der Voraussetzung eines großen Stichprobenumfanges das Konfidenzintervall

verwendet werden, das näherungsweise das Konfidenzniveau

hat.

Dies lässt sich darauf zurückführen, dass

  • die Schätzfunktion eine konsistente Schätzfunktion für ist und somit auch konsistent ist, d.h. es kann bei sehr großem Stichprobenumfang davon ausgegangen werden, dass hinreichend wenig um den wahren Wert streut;

Zusatzinformationen

Herleitung des Konfidenzintervalls bei normalverteilter Grundgesamtheit

Es gilt:

.

Die standardisierte Zufallsvariable lässt sich jedoch nicht mehr bestimmen, da nunmehr unbekannt ist.

Die Varianz muss aus der Stichprobe geschätzt werden. Eine geeignete Schätzfunktion ist die Stichprobenvarianz

Die Standardabweichung als Wurzel aus wird für die Standardisierung verwendet:

Die Zufallsvariable folgt bei einer einfachen Zufallsstichprobe vom Umfang einer t-Verteilung mit der Anzahl der Freiheitsgrade :

Für die standardisierte Zufallsvariable lässt sich ein zentrales Schwankungsintervall angeben, in dem Realisationen mit einer vorgegebenen Sicherheitswahrscheinlichkeit

annimmt.

Dabei ist das -Quantil und das -Quantil der t-Verteilung.

Aufgrund der Symmetrie der t-Verteilung gilt:

und

Damit folgt:

Für die Wahrscheinlichkeit findet man in der Tabelle der t-Verteilung.

Die Verteilung ist somit bekannt und sie hängt nicht von dem unbekannten Parameter ab, so dass man nach Einsetzen von und einfachen Umformungen der Ungleichung ein Konfidenzintervall

zum Konfidenzniveau

erhält.

Charakteristika des Konfidenzintervalls bei normalverteilter Grundgesamtheit

hängen über von den Stichprobenvariablen ab und sind somit Zufallsvariablen.
Bei gegebenem Stichprobenumfang und Konfidenzniveau ergeben sich von Stichprobe zu Stichprobe unterschiedliche Schätzintervalle, die auch verschiedene Länge bzw. verschiedenen Schätzfehler aufweisen können.
Die zusätzliche Unsicherheit bezüglich ist in die t-Verteilung "eingearbeitet".

Glühlampen

Ein Unternehmen stellt Glühlampen her. Die Marketing-Abteilung benötigt für Werbungszwecke eine Angabe über die durchschnittliche Brenndauer einer bestimmten Sorte von Glühlampen.

Aus statistischer Sicht ergeben sich dabei folgende Überlegungen:

  • Die Erfassung der Grundgesamtheit, d.h. der Gesamtproduktion dieser Sorte von Glühlampen, ist aus zwei Gründen nicht möglich:
    • Da auch in Zukunft diese Glühlampen produziert werden, liegt die Grundgesamtheit nicht vollständig vor.
    • Mit der Feststellung der Brenndauer ist die Zerstörung der Glühlampen verbunden.
  • Um systematische Fehler bei der Erfassung des Brenndauer zu vermeiden, wird eine Zufallsstichprobe gezogen.

Zweiseitiges (approximatives) Konfidenzintervall

Wenn jedoch der Stichprobenumfang genügend groß gewählt wird, kann ein approximatives Konfidenzintervall

zum näherungsweisen Konfidenzniveau

ermittelt werden.

Zum vorgegebenen Konfidenzniveau findet man in der Tabelle der Verteilungsfunktion der Standardnormalverteilung: .

Um einerseits eine ausreichende Approximation durch die Normalverteilung zu garantieren, andererseits aber die Kosten der Stichprobe gering zu halten, soll der Umfang der Stichprobe so klein als notwendig gehalten werden. In diesem Sinn wird gewählt.

Die konkrete Stichprobe führte zu folgenden Punktschätzungen:

  • mittlere Brenndauer in der Stichprobe :
  • Varianz in der Stichprobe:

Damit erhält man das Schätzintervall:

Da für das Schätzverfahren eine hohe Sicherheitswahrscheinlichkeit von 0,95 (d.h. recht nahe bei Eins) gewählt wurde, kann man davon ausgehen, eines der Schätzintervalle zum Stichprobenumfang erhalten zu haben, dass den wahren Wert enthält.

Einseitiges Konfidenzintervall

Aus der Sicht des Leiters der Marketing-Abteilung ist dieses Ergebnis insoweit unbefriedigend, dass aus psychologischen Gründen bei der Werbung keine Angabe über die obere Grenze der mittleren Brenndauer erfolgen sollte.

Er lässt deshalb ein nach oben offenes Konfidenzintervall, d.h. ein einseitiges Konfidenzintervall, bestimmen. Zum näherungsweisen Konfidenzniveau

findet man in der Tabelle der Verteilungsfunktion der Standardnormalverteilung:

.

Mit den Ergebnissen der gleichen Stichprobe ergibt sich für die untere Grenze:

und für das einseitige Schätzintervall

Auch für dieses Ergebnis gilt eine analoge Interpretation: Aufgrund der hohen Sicherheitswahrscheinlichkeit von 0,95 geht man davon aus, eines der einseitigen Schätzintervalle zum Stichprobenumfang erhalten zu haben, dass den wahren Wert enthält.