Konfidenzintervall für den Erwartungswert bei unbekannter Varianz: Unterschied zwischen den Versionen

Aktuelle Version vom 23. Januar 2019, 17:30 Uhr

Schätztheorie

Grundbegriffe der Schätztheorie • Gütekriterien einer Schätzfunktion • Mittlere quadratische Abweichung (stochastisch) • Erwartungstreue • Effizienz • Konsistenz • Maximum-Likelihood-Methode • Kleinste-Quadrate-Methode • Intervallschätzung • Konfidenzintervall für den Erwartungswert • Konfidenzintervall für den Erwartungswert bei bekannter Varianz • Konfidenzintervall für den Erwartungswert bei unbekannter Varianz • Konfidenzintervall für den Anteilswert • Konfidenzintervall für die Varianz • Konfidenzintervall für die Differenz zweier Erwartungswerte • Bestimmung des Stichprobenumfangs • Multiple Choice • Video • Aufgaben • Lösungen

Absolute Effizienz • Asymptotische Erwartungstreue • Bias • Breite des Konfidenzintervalls • Einseitiges Konfidenzintervall • Grenzen des Konfidenzintervalls • Grenzen des Schätzintervalls • Irrtumswahrscheinlichkeit • Kleinste-Quadrate-Schätzer • Konfidenzintervall • Konfidenzniveau • Konfidenzwahrscheinlichkeit • KQ-Methode • KQ-Schätzer • Länge des Konfidenzintervalls • Likelihood-Funktion • Log-Likelihood-Funktion • Maximum-Likelihood-Schätzer • Maximum-Likelihood-Schätzung • Mean Square Error • Methode der kleinsten Quadrate • ML-Schätzer • ML-Schätzung • Parameterschätzung • Punktschätzung • Realisiertes Konfidenzintervall • Relative Effizienz • Schätzer • Schätzfehler • Schätzfunktion • Schätzintervall • Schätzung • Schätzverfahren • Schätzwert • Symmetrisches Konfidenzintervall • Unbiasedness • Unverzerrtheit • Vertrauenswahrscheinlichkeit • Verzerrung • Zentrales Konfidenzintervall • Zufallsintervall • Zweiseitiges Konfidenzintervall

Unterseiten

Beispiel: Haushaltsnettoeinkommen • Beispiel: Glühlampen

Grundbegriffe

Konfidenzintervall für den Erwartungswert bei Normalverteilung der Grundgesamtheit

Es gilt:

$X\sim N(\mu ;\sigma ),\;X_{i}\sim N(\mu ;\sigma )\;\forall \,i\,,\;{\bar {X}}\sim N\left(\mu ;\sigma \left({\bar {X}}\right)\right)$ .

Weiterhin sei $S$ die Standardabweichung als Wurzel aus der Stichprobenvarianz $S^{2}$ und $t_{n-1;1-{\frac {\alpha }{2}}}$ das $\left(1-{\frac {\alpha }{2}}\right)$ -Quantil der t-Verteilung.

Dann ist

$\left[{\bar {X}}-t_{n-1;1-{\frac {\alpha }{2}}}\cdot {\frac {S}{\sqrt {n}}};\quad {\bar {X}}+t_{n-1;1-{\frac {\alpha }{2}}}\cdot {\frac {S}{\sqrt {n}}}\right]$

ein Konfidenzintervall für den unbekannten Parameter $\mu$ der normalverteilten Zufallsvariablen $X\;$ mit unbekannter Varianz $\sigma ^{2}$ zum Konfidenzniveau

$P\left({\bar {X}}-t_{n-1;1-{\frac {\alpha }{2}}}\cdot {\frac {S}{\sqrt {n}}}\leq \mu \leq {\bar {X}}+t_{n-1;1-{\frac {\alpha }{2}}}\cdot {\frac {S}{\sqrt {n}}}\right)=1-\alpha$

Wurde die Stichprobe gezogen und liegen die Stichprobenwerte $x_{1},\ldots ,x_{n}$ vor, dann lassen sich daraus

die Punktschätzwerte ${\bar {x}}$ und $s$

und das Schätzintervall

\left[{\bar {x}}-t_{n-1;1-{\frac {\alpha }{2}}}\cdot {\frac {s}{\sqrt {n}}}\leq \mu \leq {\bar {x}}+t_{n-1;1-{\frac {\alpha }{2}}}\cdot {\frac {s}{\sqrt {n}}}\right]

bestimmen.

Da die t-Verteilung mit wachsender Anzahl der Freiheitsgrade und somit mit wachsendem Stichprobenumfang $n$ gegen die $N(0;1)$ konvergiert, kann bei genügend großem Stichprobenumfang $(n>30)$ approximativ die Standardnormalverteilung und $z_{1-{\frac {\alpha }{2}}}$ statt $t_{n-1;1-{\frac {\alpha }{2}}}$ verwendet werden. Man erhält dann ein approximatives Konfidenzintervall.

Konfidenzintervall für den Erwartungswert bei unbekannter Verteilung der Grundgesamtheit

Wenn die Zufallsvariable $X\;$ in der Grundgesamtheit nicht normalverteilt und die Varianz $\sigma ^{2}$ unbekannt ist, kann unter der Voraussetzung eines großen Stichprobenumfanges $n$ das Konfidenzintervall

$\left[{\bar {X}}-z_{1-{\frac {\alpha }{2}}}{\frac {S}{\sqrt {n}}};{\bar {X}}+z_{1-{\frac {\alpha }{2}}}{\frac {S}{\sqrt {n}}}\right]$

verwendet werden, das näherungsweise das Konfidenzniveau

$P\left({\bar {X}}-z_{1-{\frac {\alpha }{2}}}\cdot {\frac {S}{\sqrt {n}}}\leq \mu \leq {\bar {X}}+z_{1-{\frac {\alpha }{2}}}\cdot {\frac {S}{\sqrt {n}}}\right)=1-\alpha$

hat.

Dies lässt sich darauf zurückführen, dass

bei beliebig verteilter Grundgesamtheit die standardisierte Zufallsvariable $Z\;$ bei großem Stichprobenumfang approximativ standardnormalverteilt ist (Anwendung des zentralen Grenzwertsatzes);

die Schätzfunktion $S^{2}\;$ eine konsistente Schätzfunktion für $\sigma ^{2}$ ist und somit auch $S$ konsistent ist, d.h. es kann bei sehr großem Stichprobenumfang $n$ davon ausgegangen werden, dass $S\;$ hinreichend wenig um den wahren Wert $\sigma$ streut;

die Zufallsvariable $T\;$ , in der $\sigma$ durch $S\;$ ersetzt wurde, ebenfalls bei genügend großem Stichprobenumfang approximativ standardnormalverteilt ist.

Zusatzinformationen

Herleitung des Konfidenzintervalls bei normalverteilter Grundgesamtheit

Es gilt:

$X\sim N(\mu ;\sigma ),\;X_{i}\sim N(\mu ;\sigma )\;\forall \,i\,,\;{\bar {X}}\sim N\left(\mu ;\sigma \left({\bar {X}}\right)\right)$ .

Die standardisierte Zufallsvariable $Z$ lässt sich jedoch nicht mehr bestimmen, da $\sigma ^{2}$ nunmehr unbekannt ist.

Die Varianz $\sigma ^{2}$ muss aus der Stichprobe geschätzt werden. Eine geeignete Schätzfunktion ist die Stichprobenvarianz

$S^{2}={\frac {1}{n-1}}\cdot \sum \limits _{i=1}^{n}\left(X_{i}-{\bar {X}}\right)^{2}$

Die Standardabweichung $S$ als Wurzel aus $S^{2}$ wird für die Standardisierung verwendet:

$T={\sqrt {n}}\cdot {\frac {{\bar {X}}-\mu }{S}}$

Die Zufallsvariable $T\;$ folgt bei einer einfachen Zufallsstichprobe vom Umfang $n$ einer t-Verteilung mit der Anzahl der Freiheitsgrade $f=n-1$ :

$T\sim t(n-1)\;$

Für die standardisierte Zufallsvariable $T\;$ lässt sich ein zentrales Schwankungsintervall angeben, in dem $T\;$ Realisationen mit einer vorgegebenen Sicherheitswahrscheinlichkeit

$P\left(t_{f;{\frac {\alpha }{2}}}\leq T\leq t_{f;1-{\frac {\alpha }{2}}}\right)=1-\alpha$

annimmt.

Dabei ist $t_{f;{\frac {\alpha }{2}}}$ das ${\frac {\alpha }{2}}$ -Quantil und $t_{f;1-{\frac {\alpha }{2}}}$ das $\left(1-{\frac {\alpha }{2}}\right)$ -Quantil der t-Verteilung.

Aufgrund der Symmetrie der t-Verteilung gilt:

$|t_{f;{\frac {\alpha }{2}}}|=|t_{f;1-{\frac {\alpha }{2}}}|$ und $t_{f;{\frac {\alpha }{2}}}=-t_{f;1-{\frac {\alpha }{2}}}$

Damit folgt:

$P\left(-t_{f;1-{\frac {\alpha }{2}}}\leq T\leq t_{f;1-{\frac {\alpha }{2}}}\right)=1-\alpha$

Für die Wahrscheinlichkeit $1-\alpha$ findet man $t_{f;1-{\frac {\alpha }{2}}}$ in der Tabelle der t-Verteilung.

Die Verteilung ist somit bekannt und sie hängt nicht von dem unbekannten Parameter $\mu$ ab, so dass man nach Einsetzen von $T$ und einfachen Umformungen der Ungleichung ein Konfidenzintervall

$\left[{\bar {X}}-t_{n-1;1-{\frac {\alpha }{2}}}\cdot {\frac {S}{\sqrt {n}}};\quad {\bar {X}}+t_{n-1;1-{\frac {\alpha }{2}}}\cdot {\frac {S}{\sqrt {n}}}\right]$

zum Konfidenzniveau

$P\left({\bar {X}}-t_{n-1;1-{\frac {\alpha }{2}}}\cdot {\frac {S}{\sqrt {n}}}\leq \mu \leq {\bar {X}}+t_{n-1;1-{\frac {\alpha }{2}}}\cdot {\frac {S}{\sqrt {n}}}\right)=1-\alpha$

erhält.

Charakteristika des Konfidenzintervalls bei normalverteilter Grundgesamtheit

Das Konfidenzintervall ist ein bezüglich der Wahrscheinlichkeit symmetrisches Konfidenzintervall.
Das Konfidenzintervall ist symmetrisch bezüglich der Punktschätzung. Die Grenzen des Intervalls haben zu ${\bar {X}}$ den gleichen Abstand.
Die Länge $L$ des Konfidenzintervalls und der Schätzfehler $E$

L=2t_{n-1;1-{\frac {\alpha }{2}}}\cdot {\frac {S}{\sqrt {n}}}\quad E=t_{n-1;1-{\frac {\alpha }{2}}}\cdot {\frac {S}{\sqrt {n}}}

hängen über

S

von den Stichprobenvariablen

X_{1},\ldots ,X_{n}

ab und sind somit Zufallsvariablen.

Bei gegebenem Stichprobenumfang

n

und Konfidenzniveau

1-\alpha

ergeben sich von Stichprobe zu Stichprobe unterschiedliche Schätzintervalle, die auch verschiedene Länge bzw. verschiedenen Schätzfehler aufweisen können.

Die Länge des Konfidenzintervalls und der Schätzfehler hängen vom Stichprobenumfang $n$ und über $t_{n-1;1-{\frac {\alpha }{2}}}$ vom vorgegebenen Konfidenzniveau $1-\alpha$ ab.

Da die Quantile $t_{n-1;1-{\frac {\alpha }{2}}}$ aus der t-Verteilung größer sind als die Quantile $z_{1-{\frac {\alpha }{2}}}$ aus der Standardnormalverteilung, sind die Konfidenzintervalle bei unbekannter Varianz der Grundgesamtheit breiter als bei bekannter Varianz, wodurch diese fehlende Information zum Ausdruck kommt.

Die zusätzliche Unsicherheit bezüglich

\sigma ^{2}

ist in die t-Verteilung "eingearbeitet".

@@ Zeile 1: / Zeile 1: @@
 {{Schaetztheorie}}
-{{SubpageToc|Haushaltsnettoeinkommen|Glühlampen}}
+{{SubpageToc|Beispiel: Haushaltsnettoeinkommen|Beispiel: Glühlampen}}
 =={{Vorlage:Überschrift}}==
@@ Zeile 120: / Zeile 120: @@
 : Die zusätzliche Unsicherheit bezüglich <math>\sigma^{2}</math> ist in die [[t-Verteilung]] "eingearbeitet".
-===Glühlampen===
-Ein Unternehmen stellt Glühlampen her. Die Marketing-Abteilung benötigt für Werbungszwecke eine Angabe über die durchschnittliche Brenndauer einer bestimmten Sorte von Glühlampen.
-Aus statistischer Sicht ergeben sich dabei folgende Überlegungen:
-* Die Erfassung der [[Grundgesamtheit]], d.h. der Gesamtproduktion dieser Sorte von Glühlampen, ist aus zwei Gründen nicht möglich:
-** Da auch in Zukunft diese Glühlampen produziert werden, liegt die [[Grundgesamtheit]] nicht vollständig vor.
-** Mit der Feststellung der Brenndauer ist die Zerstörung der Glühlampen verbunden.
-* Um systematische Fehler bei der Erfassung des Brenndauer zu vermeiden, wird eine [[Zufallsstichprobe]] gezogen.
-* Das Ziehen einer [[Einfache Zufallsstichprobe|einfachen Zufallsstichprobe]] ([[Zufallsauswahlmodell mit Zurücklegen|Zufallsauswahl mit Zurücklegen]]) macht bei dieser Problemstellung wegen der Zerstörung der Glühlampen keinen Sinn. Es wird somit eine [[uneingeschränkte Zufallsstichprobe]] ([[Zufallsauswahlmodell ohne Zurücklegen|Zufallsauswahl ohne Zurücklegen]]) gezogen.
-* Da die Gesamtproduktion jedoch sehr groß ist, spielt die Tatsache, dass [[Zufallsauswahlmodell ohne Zurücklegen|ohne Zurücklegen]] gezogen wird, keine Rolle, denn die [[Verteilung der Grundgesamtheit|Verteilung in der Grundgesamtheit]] verändert sich dadurch so gut wie nicht. Die [[Stichprobe]] kann somit als eine [[einfache Zufallsstichprobe]] angesehen werden.
-* Neben einer [[Punktschätzung]] für die unbekannte durchschnittliche Brenndauer soll ein [[symmetrisches Konfidenzintervall]] zum [[Konfidenzniveau]] <math>1 - \alpha = 0,95</math> angegeben werden.
-* Über die [[Verteilung der Grundgesamtheit|Verteilung der Zufallsvariablen]] <math>X = \;</math> "Brenndauer" und die [[Varianz der Grundgesamtheit|Varianz <math>\sigma^{2}</math> in der Grundgesamtheit]] liegen keine Informationen vor.
-====Zweiseitiges (approximatives) Konfidenzintervall====
-Wenn jedoch der [[Stichprobenumfang]] <math>n</math> genügend groß gewählt wird, kann ein [[Approximation|approximatives]] [[Konfidenzintervall]]
-<math>\left[  \bar{X}-z_{1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}};\;\bar{X}+z_{1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\right]</math>
-zum näherungsweisen [[Konfidenzniveau]]
-<math>P\left(  \bar{X}-z_{1-\frac{\alpha}{2}}\cdot\frac{X}{\sqrt{n}}\leq\mu\leq\bar{X}+z_{1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\right)  \approx1-\alpha</math>
-ermittelt werden.
-Zum vorgegebenen [[Konfidenzniveau]] <math>1-\alpha=0,95</math> findet man in der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Standardnormalverteilung]]: <math>z_{1-\frac{\alpha}{2}}=z_{0,975}=1,96</math>.
-Um einerseits eine ausreichende [[Approximation]] durch die [[Normalverteilung]] zu garantieren, andererseits aber die Kosten der [[Stichprobe]] gering zu halten, soll der [[Stichprobenumfang|Umfang der Stichprobe]] so klein als notwendig gehalten werden. In diesem Sinn wird <math>n = 50</math> gewählt.
-Die konkrete [[Stichprobe]] führte zu folgenden [[Punktschätzung]]en:
-*mittlere Brenndauer in der [[Stichprobe]] <math>\bar{x}</math>: <math>1600 \; \mbox{Stunden}</math>
-*[[Varianz (stochastisch)|Varianz]] <math>s^{2}</math> in der [[Stichprobe]]: <math>8100 \; \mbox{Stunden}^{2}</math>
-*[[Standardabweichung (stochastisch)|Standardabweichung]] <math>s</math> in der [[Stichprobe]]: <math>90 \; \mbox{Stunden}</math>
-Damit erhält man das [[Schätzintervall]]:
-{|
-|<math>\left[  1600-1,96\cdot\frac{90}{\sqrt{50}};\; 1600+1,96\cdot\frac{90}{\sqrt{50}}\right]</math>
-|<math>=[1600-24,95;\;1600+24,95]</math>
-|-
-|
-|<math>=[1575,05;\;1624,95]</math>
-|}
-Da für das [[Schätzverfahren]] eine hohe [[Sicherheitswahrscheinlichkeit]] von 0,95 (d.h. recht nahe bei Eins) gewählt wurde, kann man davon ausgehen, eines der [[Schätzintervall]]e zum [[Stichprobenumfang]] <math>n = 50</math> erhalten zu haben, dass den wahren Wert <math>\mu</math> enthält.
-====Einseitiges Konfidenzintervall====
-Aus der Sicht des Leiters der Marketing-Abteilung ist dieses Ergebnis insoweit unbefriedigend, dass aus psychologischen Gründen bei der Werbung keine Angabe über die [[Grenzen des Konfidenzintervalls|obere Grenze]] der mittleren Brenndauer erfolgen sollte.
-Er lässt deshalb ein nach oben offenes [[Konfidenzintervall]], d.h. ein [[einseitiges Konfidenzintervall]], bestimmen. Zum näherungsweisen [[Konfidenzniveau]]
-<math>P\left(  \bar{X}-z_{1-\alpha}\cdot\frac{S}{\sqrt{n}}\leq\mu\right)  =1-\alpha=0,95</math>
-findet man in der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Standardnormalverteilung]]:
-<math>z_{1-\alpha}=z_{0,95}=1,645</math>.
-Mit den Ergebnissen der gleichen [[Stichprobe]] ergibt sich für die [[Grenzen des Konfidenzintervalls|untere Grenze]]:
-<math>v_{u}=1600-1,645\cdot\frac{90}{\sqrt{50}}=1600-20,94=1579,06\mbox{ Stunden}</math>
-und für das einseitige [[Schätzintervall]]
-<math>\left[1579,06;\;+\infty\right)</math>
-Auch für dieses Ergebnis gilt eine analoge Interpretation: Aufgrund der hohen [[Sicherheitswahrscheinlichkeit]] von 0,95 geht man davon aus, eines der einseitigen [[Schätzintervall]]e zum [[Stichprobenumfang]] <math>n = 50</math> erhalten zu haben, dass den wahren Wert <math>\mu</math> enthält.
-<!--==Interaktives Beispiel==
-Es steht eine Grundgesamtheit von <math>N = 500</math> Angestellten einer Versicherungsgesellschaft zur Verfügung. An den Angestellten wurden die Variablen
-<math>X_1 =\;</math> Jahresprovision in DM,
-<math>X_2 =\;</math> Versicherungsabschlüsse pro Monat,
-<math>X_3 =\;</math> Krankheitstage pro Kalenderjahr,
-<math>X_4 =\;</math> Wochenarbeitszeit in Stunden
-beobachtet. Der [[STAT-Glossar#Erwartungswert|Erwartungswert]] <math>\mu</math>, die [[STAT-Glossar#Varianz|Varianz]] <math>\sigma^{2}</math> und die Verteilung der Variablen in der Grundgesamtheit sind unbekannt.
-Ermitteln Sie auf der Basis einer einfachen Zufallsstichprobe eine
-Punkt- und Intervallschätzung für den unbekannten [[STAT-Glossar#Erwartungswert|Erwartungswert]]
-<math>\mu</math>.
-Mit diesem Beispiel haben Sie die Möglichkeit, den Einfluss des
-[[STAT-Glossar#Konfidenzniveau|Konfidenzniveaus]] und des [[STAT-Glossar#Stichprobenumfang|Stichprobenumfanges]] auf die Breite des
-Konfidenzintervalls zu studieren. Dazu empfiehlt es sich, nur eine
-der beiden Größen zu verändern, während die andere konstant
-gehalten wird.
-Treffen Sie bitte nachfolgend ihre Entscheidungen über
-* die zu analysierende Variable,
-* den [[STAT-Glossar#Stichprobenumfang|Stichprobenumfang]] <math>n</math>,
-* das [[STAT-Glossar#Konfidenzniveau|Konfidenzniveau]] <math>1-\alpha</math> (als Dezimalzahl, z.B. 0,95).
-Hinweis:
-Berücksichtigen Sie bei diesen Entscheidungen, welche
-Informationen Sie über die Grundgesamtheit haben.
-'''Ausgabe:'''
-Als Ergebnis gibt dieses interaktive Beispiel
-# einen ''[[STAT-Glossar#Scatterplot|Scatterplot]]'' der ausgewählten Variable,
-# den dazu gehörigen ''[[STAT-Glossar#Boxplot|Boxplot]]'' und
-# das -zum gewählte [[STAT-Glossar#Konfidenzniveau|Konfidenzniveau]] passende- ''Konfidenzintervall''
-aus. Wenn man die gleiche Variable anschließend ein weiteres Mal
-auswählt, aber ein anderes/n [[STAT-Glossar#Konfidenzniveau|Konfidenzniveau]]/[[STAT-Glossar#Stichprobenumfang|Stichprobenumfang]]
-angibt, so werden im nächsten Ausgabefenster auch die alten
-''Konfidenzintervalle'' angezeigt (zum Vergleich).-->