Konfidenzintervall für den Erwartungswert bei unbekannter Varianz: Unterschied zwischen den Versionen

Aus MM*Stat

Wechseln zu: Navigation, Suche
 
(Eine dazwischenliegende Version desselben Benutzers wird nicht angezeigt)
Zeile 1: Zeile 1:
 
{{Schaetztheorie}}
 
{{Schaetztheorie}}
{{SubpageToc|Haushaltsnettoeinkommen|Glühlampen}}
+
{{SubpageToc|Beispiel: Haushaltsnettoeinkommen|Beispiel: Glühlampen}}
  
 
=={{Vorlage:Überschrift}}==
 
=={{Vorlage:Überschrift}}==
Zeile 120: Zeile 120:
  
 
: Die zusätzliche Unsicherheit bezüglich <math>\sigma^{2}</math> ist in die [[t-Verteilung]] "eingearbeitet".
 
: Die zusätzliche Unsicherheit bezüglich <math>\sigma^{2}</math> ist in die [[t-Verteilung]] "eingearbeitet".
 
===Glühlampen===
 
 
Ein Unternehmen stellt Glühlampen her. Die Marketing-Abteilung benötigt für Werbungszwecke eine Angabe über die durchschnittliche Brenndauer einer bestimmten Sorte von Glühlampen.
 
 
Aus statistischer Sicht ergeben sich dabei folgende Überlegungen:
 
 
* Die Erfassung der [[Grundgesamtheit]], d.h. der Gesamtproduktion dieser Sorte von Glühlampen, ist aus zwei Gründen nicht möglich:
 
** Da auch in Zukunft diese Glühlampen produziert werden, liegt die [[Grundgesamtheit]] nicht vollständig vor.
 
** Mit der Feststellung der Brenndauer ist die Zerstörung der Glühlampen verbunden.
 
 
* Um systematische Fehler bei der Erfassung des Brenndauer zu vermeiden, wird eine [[Zufallsstichprobe]] gezogen.
 
 
* Das Ziehen einer [[Einfache Zufallsstichprobe|einfachen Zufallsstichprobe]] ([[Zufallsauswahlmodell mit Zurücklegen|Zufallsauswahl mit Zurücklegen]]) macht bei dieser Problemstellung wegen der Zerstörung der Glühlampen keinen Sinn. Es wird somit eine [[uneingeschränkte Zufallsstichprobe]] ([[Zufallsauswahlmodell ohne Zurücklegen|Zufallsauswahl ohne Zurücklegen]]) gezogen.
 
 
* Da die Gesamtproduktion jedoch sehr groß ist, spielt die Tatsache, dass [[Zufallsauswahlmodell ohne Zurücklegen|ohne Zurücklegen]] gezogen wird, keine Rolle, denn die [[Verteilung der Grundgesamtheit|Verteilung in der Grundgesamtheit]] verändert sich dadurch so gut wie nicht. Die [[Stichprobe]] kann somit als eine [[einfache Zufallsstichprobe]] angesehen werden.
 
 
* Neben einer [[Punktschätzung]] für die unbekannte durchschnittliche Brenndauer soll ein [[symmetrisches Konfidenzintervall]] zum [[Konfidenzniveau]] <math>1 - \alpha = 0,95</math> angegeben werden.
 
 
* Über die [[Verteilung der Grundgesamtheit|Verteilung der Zufallsvariablen]] <math>X = \;</math> "Brenndauer" und die [[Varianz der Grundgesamtheit|Varianz <math>\sigma^{2}</math> in der Grundgesamtheit]] liegen keine Informationen vor.
 
 
====Zweiseitiges (approximatives) Konfidenzintervall====
 
 
Wenn jedoch der [[Stichprobenumfang]] <math>n</math> genügend groß gewählt wird, kann ein [[Approximation|approximatives]] [[Konfidenzintervall]]
 
 
<math>\left[  \bar{X}-z_{1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}};\;\bar{X}+z_{1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\right]</math>
 
 
zum näherungsweisen [[Konfidenzniveau]]
 
 
<math>P\left(  \bar{X}-z_{1-\frac{\alpha}{2}}\cdot\frac{X}{\sqrt{n}}\leq\mu\leq\bar{X}+z_{1-\frac{\alpha}{2}}\cdot\frac{S}{\sqrt{n}}\right)  \approx1-\alpha</math>
 
 
ermittelt werden.
 
 
Zum vorgegebenen [[Konfidenzniveau]] <math>1-\alpha=0,95</math> findet man in der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Standardnormalverteilung]]: <math>z_{1-\frac{\alpha}{2}}=z_{0,975}=1,96</math>.
 
 
Um einerseits eine ausreichende [[Approximation]] durch die [[Normalverteilung]] zu garantieren, andererseits aber die Kosten der [[Stichprobe]] gering zu halten, soll der [[Stichprobenumfang|Umfang der Stichprobe]] so klein als notwendig gehalten werden. In diesem Sinn wird <math>n = 50</math> gewählt.
 
 
Die konkrete [[Stichprobe]] führte zu folgenden [[Punktschätzung]]en:
 
 
*mittlere Brenndauer in der [[Stichprobe]] <math>\bar{x}</math>: <math>1600 \; \mbox{Stunden}</math>
 
 
*[[Varianz (stochastisch)|Varianz]] <math>s^{2}</math> in der [[Stichprobe]]: <math>8100 \; \mbox{Stunden}^{2}</math>
 
 
*[[Standardabweichung (stochastisch)|Standardabweichung]] <math>s</math> in der [[Stichprobe]]: <math>90 \; \mbox{Stunden}</math>
 
 
Damit erhält man das [[Schätzintervall]]:
 
 
{|
 
|<math>\left[  1600-1,96\cdot\frac{90}{\sqrt{50}};\; 1600+1,96\cdot\frac{90}{\sqrt{50}}\right]</math>
 
|<math>=[1600-24,95;\;1600+24,95]</math>
 
|-
 
|
 
|<math>=[1575,05;\;1624,95]</math>
 
|}
 
 
Da für das [[Schätzverfahren]] eine hohe [[Sicherheitswahrscheinlichkeit]] von 0,95 (d.h. recht nahe bei Eins) gewählt wurde, kann man davon ausgehen, eines der [[Schätzintervall]]e zum [[Stichprobenumfang]] <math>n = 50</math> erhalten zu haben, dass den wahren Wert <math>\mu</math> enthält.
 
 
====Einseitiges Konfidenzintervall====
 
 
Aus der Sicht des Leiters der Marketing-Abteilung ist dieses Ergebnis insoweit unbefriedigend, dass aus psychologischen Gründen bei der Werbung keine Angabe über die [[Grenzen des Konfidenzintervalls|obere Grenze]] der mittleren Brenndauer erfolgen sollte.
 
 
Er lässt deshalb ein nach oben offenes [[Konfidenzintervall]], d.h. ein [[einseitiges Konfidenzintervall]], bestimmen. Zum näherungsweisen [[Konfidenzniveau]]
 
 
<math>P\left(  \bar{X}-z_{1-\alpha}\cdot\frac{S}{\sqrt{n}}\leq\mu\right)  =1-\alpha=0,95</math>
 
 
findet man in der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Standardnormalverteilung]]:
 
 
<math>z_{1-\alpha}=z_{0,95}=1,645</math>.
 
 
Mit den Ergebnissen der gleichen [[Stichprobe]] ergibt sich für die [[Grenzen des Konfidenzintervalls|untere Grenze]]:
 
 
<math>v_{u}=1600-1,645\cdot\frac{90}{\sqrt{50}}=1600-20,94=1579,06\mbox{ Stunden}</math>
 
 
und für das einseitige [[Schätzintervall]]
 
 
<math>\left[1579,06;\;+\infty\right)</math>
 
 
Auch für dieses Ergebnis gilt eine analoge Interpretation: Aufgrund der hohen [[Sicherheitswahrscheinlichkeit]] von 0,95 geht man davon aus, eines der einseitigen [[Schätzintervall]]e zum [[Stichprobenumfang]] <math>n = 50</math> erhalten zu haben, dass den wahren Wert <math>\mu</math> enthält.
 
 
<!--==Interaktives Beispiel==
 
 
 
Es steht eine Grundgesamtheit von <math>N = 500</math> Angestellten einer Versicherungsgesellschaft zur Verfügung. An den Angestellten wurden die Variablen
 
 
<math>X_1 =\;</math> Jahresprovision in DM,
 
 
<math>X_2 =\;</math> Versicherungsabschlüsse pro Monat,
 
 
<math>X_3 =\;</math> Krankheitstage pro Kalenderjahr,
 
 
<math>X_4 =\;</math> Wochenarbeitszeit in Stunden
 
 
beobachtet. Der [[STAT-Glossar#Erwartungswert|Erwartungswert]] <math>\mu</math>, die [[STAT-Glossar#Varianz|Varianz]] <math>\sigma^{2}</math> und die Verteilung der Variablen in der Grundgesamtheit sind unbekannt.
 
 
Ermitteln Sie auf der Basis einer einfachen Zufallsstichprobe eine
 
Punkt- und Intervallschätzung für den unbekannten [[STAT-Glossar#Erwartungswert|Erwartungswert]]
 
<math>\mu</math>.
 
 
Mit diesem Beispiel haben Sie die Möglichkeit, den Einfluss des
 
[[STAT-Glossar#Konfidenzniveau|Konfidenzniveaus]] und des [[STAT-Glossar#Stichprobenumfang|Stichprobenumfanges]] auf die Breite des
 
Konfidenzintervalls zu studieren. Dazu empfiehlt es sich, nur eine
 
der beiden Größen zu verändern, während die andere konstant
 
gehalten wird.
 
 
Treffen Sie bitte nachfolgend ihre Entscheidungen über
 
 
* die zu analysierende Variable,
 
* den [[STAT-Glossar#Stichprobenumfang|Stichprobenumfang]] <math>n</math>,
 
* das [[STAT-Glossar#Konfidenzniveau|Konfidenzniveau]] <math>1-\alpha</math> (als Dezimalzahl, z.B. 0,95).
 
 
 
Hinweis:
 
 
Berücksichtigen Sie bei diesen Entscheidungen, welche
 
Informationen Sie über die Grundgesamtheit haben.
 
 
 
'''Ausgabe:'''
 
 
Als Ergebnis gibt dieses interaktive Beispiel
 
 
# einen ''[[STAT-Glossar#Scatterplot|Scatterplot]]'' der ausgewählten Variable,
 
# den dazu gehörigen ''[[STAT-Glossar#Boxplot|Boxplot]]'' und
 
# das -zum gewählte [[STAT-Glossar#Konfidenzniveau|Konfidenzniveau]] passende- ''Konfidenzintervall''
 
 
 
aus. Wenn man die gleiche Variable anschließend ein weiteres Mal
 
auswählt, aber ein anderes/n [[STAT-Glossar#Konfidenzniveau|Konfidenzniveau]]/[[STAT-Glossar#Stichprobenumfang|Stichprobenumfang]]
 
angibt, so werden im nächsten Ausgabefenster auch die alten
 
''Konfidenzintervalle'' angezeigt (zum Vergleich).-->
 

Aktuelle Version vom 23. Januar 2019, 16:30 Uhr

Schätztheorie

Grundbegriffe der Schätztheorie • Gütekriterien einer Schätzfunktion • Mittlere quadratische Abweichung (stochastisch) • Erwartungstreue • Effizienz • Konsistenz • Maximum-Likelihood-Methode • Kleinste-Quadrate-Methode • Intervallschätzung • Konfidenzintervall für den Erwartungswert • Konfidenzintervall für den Erwartungswert bei bekannter Varianz • Konfidenzintervall für den Erwartungswert bei unbekannter Varianz • Konfidenzintervall für den Anteilswert • Konfidenzintervall für die Varianz • Konfidenzintervall für die Differenz zweier Erwartungswerte • Bestimmung des Stichprobenumfangs • Multiple Choice • Video • Aufgaben • Lösungen
Absolute Effizienz • Asymptotische Erwartungstreue • Bias • Breite des Konfidenzintervalls • Einseitiges Konfidenzintervall • Grenzen des Konfidenzintervalls • Grenzen des Schätzintervalls • Irrtumswahrscheinlichkeit • Kleinste-Quadrate-Schätzer • Konfidenzintervall • Konfidenzniveau • Konfidenzwahrscheinlichkeit • KQ-Methode • KQ-Schätzer • Länge des Konfidenzintervalls • Likelihood-Funktion • Log-Likelihood-Funktion • Maximum-Likelihood-Schätzer • Maximum-Likelihood-Schätzung • Mean Square Error • Methode der kleinsten Quadrate • ML-Schätzer • ML-Schätzung • Parameterschätzung • Punktschätzung • Realisiertes Konfidenzintervall • Relative Effizienz • Schätzer • Schätzfehler • Schätzfunktion • Schätzintervall • Schätzung • Schätzverfahren • Schätzwert • Symmetrisches Konfidenzintervall • Unbiasedness • Unverzerrtheit • Vertrauenswahrscheinlichkeit • Verzerrung • Zentrales Konfidenzintervall • Zufallsintervall • Zweiseitiges Konfidenzintervall

Grundbegriffe

Konfidenzintervall für den Erwartungswert bei Normalverteilung der Grundgesamtheit

Es gilt:

.

Weiterhin sei die Standardabweichung als Wurzel aus der Stichprobenvarianz und das -Quantil der t-Verteilung.

Dann ist

ein Konfidenzintervall für den unbekannten Parameter der normalverteilten Zufallsvariablen mit unbekannter Varianz zum Konfidenzniveau

Wurde die Stichprobe gezogen und liegen die Stichprobenwerte vor, dann lassen sich daraus

  • die Punktschätzwerte und
bestimmen.

Da die t-Verteilung mit wachsender Anzahl der Freiheitsgrade und somit mit wachsendem Stichprobenumfang gegen die konvergiert, kann bei genügend großem Stichprobenumfang approximativ die Standardnormalverteilung und statt verwendet werden. Man erhält dann ein approximatives Konfidenzintervall.

Konfidenzintervall für den Erwartungswert bei unbekannter Verteilung der Grundgesamtheit

Wenn die Zufallsvariable in der Grundgesamtheit nicht normalverteilt und die Varianz unbekannt ist, kann unter der Voraussetzung eines großen Stichprobenumfanges das Konfidenzintervall

verwendet werden, das näherungsweise das Konfidenzniveau

hat.

Dies lässt sich darauf zurückführen, dass

  • die Schätzfunktion eine konsistente Schätzfunktion für ist und somit auch konsistent ist, d.h. es kann bei sehr großem Stichprobenumfang davon ausgegangen werden, dass hinreichend wenig um den wahren Wert streut;

Zusatzinformationen

Herleitung des Konfidenzintervalls bei normalverteilter Grundgesamtheit

Es gilt:

.

Die standardisierte Zufallsvariable lässt sich jedoch nicht mehr bestimmen, da nunmehr unbekannt ist.

Die Varianz muss aus der Stichprobe geschätzt werden. Eine geeignete Schätzfunktion ist die Stichprobenvarianz

Die Standardabweichung als Wurzel aus wird für die Standardisierung verwendet:

Die Zufallsvariable folgt bei einer einfachen Zufallsstichprobe vom Umfang einer t-Verteilung mit der Anzahl der Freiheitsgrade :

Für die standardisierte Zufallsvariable lässt sich ein zentrales Schwankungsintervall angeben, in dem Realisationen mit einer vorgegebenen Sicherheitswahrscheinlichkeit

annimmt.

Dabei ist das -Quantil und das -Quantil der t-Verteilung.

Aufgrund der Symmetrie der t-Verteilung gilt:

und

Damit folgt:

Für die Wahrscheinlichkeit findet man in der Tabelle der t-Verteilung.

Die Verteilung ist somit bekannt und sie hängt nicht von dem unbekannten Parameter ab, so dass man nach Einsetzen von und einfachen Umformungen der Ungleichung ein Konfidenzintervall

zum Konfidenzniveau

erhält.

Charakteristika des Konfidenzintervalls bei normalverteilter Grundgesamtheit

hängen über von den Stichprobenvariablen ab und sind somit Zufallsvariablen.
Bei gegebenem Stichprobenumfang und Konfidenzniveau ergeben sich von Stichprobe zu Stichprobe unterschiedliche Schätzintervalle, die auch verschiedene Länge bzw. verschiedenen Schätzfehler aufweisen können.
Die zusätzliche Unsicherheit bezüglich ist in die t-Verteilung "eingearbeitet".