Konfidenzintervall für die Differenz zweier Erwartungswerte: Unterschied zwischen den Versionen

Aus MM*Stat

Wechseln zu: Navigation, Suche
(Die Seite wurde neu angelegt: „{{Schaetztheorie}} =={{Vorlage:Überschrift}}== ===Konfidenzintervall für die Differenz zweier Erwartungswerte=== Von den vielen Möglichkeiten, ''Konfiden…“)
 
Keine Bearbeitungszusammenfassung
 
Zeile 1: Zeile 1:
{{Schaetztheorie}}
{{Schaetztheorie}}
{{SubpageToc|Beispiel: Benzinverbrauch}}


=={{Vorlage:Überschrift}}==
=={{Vorlage:Überschrift}}==
Zeile 165: Zeile 166:


* Die [[Konfidenzintervall]]e sind außerdem von den [[Stichprobenumfang|Stichprobenumfängen]] <math>n_{1}</math> und <math>n_{2}</math> und vom vorgegebenen [[Konfidenzniveau]] <math>1-\alpha</math> abhängig.
* Die [[Konfidenzintervall]]e sind außerdem von den [[Stichprobenumfang|Stichprobenumfängen]] <math>n_{1}</math> und <math>n_{2}</math> und vom vorgegebenen [[Konfidenzniveau]] <math>1-\alpha</math> abhängig.
=={{Vorlage:Beispiele}}==
===Benzinverbrauch===
Der Automobilclub ADAC will eine Aussage über die Differenz des mittleren Benzinverbrauchs pro 100 km bei Fahrten auf Autobahnen für zwei vergleichbare Typen von Personenkraftwagen der Hersteller <math>A</math> und <math>B</math> treffen.
Zu diesem Zweck soll ein [[Konfidenzintervall]] für die Differenz der beiden [[Erwartungswert der Grundgesamtheit|Erwartungswerte]] <math>\mu _{1}-\mu_{2}</math> zum [[Konfidenzniveau]] <math>1-\alpha=0,95</math> bestimmt werden.
Bevor die [[Stichprobe]]n gezogen werden können, sind einige [[Statistik|statistische]] Überlegungen notwendig.
* Es sei bekannt, dass die [[Zufallsvariable]]n
**<math>X_{1} =\;</math> Benzinverbrauch pro 100 km des Autos vom Hersteller <math>A</math>
**<math>X_{2} =\;</math> Benzinverbrauch pro 100 km des Autos vom Hersteller <math>B</math>
[[Normalverteilung|normalverteilt]] sind mit den unbekannten [[Erwartungswert]]en <math>E[X_{1}]=\mu_{1}</math> bzw.
<math>E[X_{2}]=\mu_{2}</math> und den unbekannten [[Varianz der Grundgesamtheit|Varianzen]] <math>Var(X_{1})=\sigma_{1}^{2}</math> bzw. <math>Var(X_{2})=\sigma_{2}^{2}</math>.
* Des weiteren kann nicht von einer Gleichheit der [[Varianz der Grundgesamtheit|Varianzen]] in den beiden [[Grundgesamtheit]]en ausgegangen werden. Um jedoch für das [[Konfidenzintervall]] mit der [[Normalverteilung]] arbeiten zu können, müssen die [[Stichprobenumfang|Stichprobenumfänge]] <math>n_{1}\geq30</math> und <math>n_{2}\geq30</math> sein.
* Da die Gesamtproduktion des jeweiligen Autotyps bei beiden Herstellern ([[Grundgesamtheit]]en) sehr groß ist, spielt es keine entscheidende Rolle, ob das [[Zufallsauswahlmodell mit Zurücklegen|Zufallsauswahlmodell mit]] oder [[Zufallsauswahlmodell ohne Zurücklegen|ohne Zurücklegen]] angewandt wird, so dass von der [[Realisation|Realisierung]] [[Einfache Zufallsstichprobe|einfacher Zufallsstichproben]] ausgegangen werden kann.
* Aufgrund der Problemstellung kann die [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] der beiden [[Zufallsstichprobe]]n unterstellt werden.
Daraus folgt, dass das [[Konfidenzintervall]] für die Differenz <math>\mu_{1}-\mu_{2}</math> gemäß
<math>\left[(\bar{X}_{1}-\bar{X}_{2})-z_{1-\frac{\alpha}{2}}\cdot\sqrt{\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}}},\;(\bar{X}_{1}-\bar{X}_{2})+z_{1-\frac{\alpha}{2}}\cdot\sqrt{\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}}}\right]</math>
bestimmt werden kann mit näherungsweisem [[Konfidenzniveau]]
<math>P\left((\bar{X}_{1}-\bar{X}_{2})-z_{1-\frac{\alpha}{2}}\cdot\sqrt{\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}}}\,\;\leq\;\mu_{1}-\mu_{2}\;\leq\;(\bar{X}_{1}-\bar{X}_{2})+z_{1-\frac{\alpha}{2}}\cdot\sqrt{\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}}}\right)=0,95</math>
Aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Standardnormalverteilung|N(0;1)-Verteilung]] findet man <math>z_{1-\frac{\alpha}{2}}=1,96</math>.
Es werden vom ADAC 36 Autos des Herstellers <math>A</math> und 40 Autos des Herstellers <math>B</math> unter gleichen Bedingungen getestet, die zu folgenden [[Stichprobe]]nergebnissen führten:
{|
|align="center"|<math>\bar{X}_{1}= \frac{9,2 \mbox{ l}}{100 \mbox{ km}},\; s_1 = \frac{0,6 \mbox{ l}}{100 \mbox{ km}}</math>
|-
|align="center"|<math>\bar{X}_{2} = \frac{8,4 \mbox{ l}}{100 \mbox{ km}},\; s_2 = \frac{0,4 \mbox{ l}}{100 \mbox{ km}}</math>
|}
Als [[Schätzintervall]] resultiert:
<math>\left[  (9,2-8,4)-1,96\cdot\sqrt{\frac{0,6^{2}}{36}+\frac{0,4^{2}}{40}};\; (9,2-8,4)+1,96\cdot\sqrt{\frac{0,6^{2}}{36}+\frac{0,4^{2}}{40}}\right]=[0,586;\;1,032]</math>
Da ein hohes [[Konfidenzniveau]] vorgegeben wurde, wird unterstellt, eines der [[Schätzintervall]]e erhalten zu haben, dass die wahre Differenz <math>\mu_{1}-\mu_{2}</math> enthält.
Dieses [[Schätzintervall]] überdeckt nicht den Wert 0, so dass von einem [[Statistik|statistisch]] bedeutsamen (signifikanten) Unterschied zwischen <math>\mu_{1}</math> und <math>\mu_{2}</math> auf dem verwendeten [[Konfidenzniveau]] ausgegangen werden kann.
===Kassakurs===
Die X-AG will den Kurs ihrer Aktien an zwei deutschen Wertpapierbörsen (Frankfurt und Berlin) analysieren.
In den Vergleich wird u.a. der Kassakurs, der einmal täglich um 12.00 Uhr an beiden Börsen ermittelt wird, einbezogen. Hierbei interessiert insbesondere eine Aussage über die Differenz der mittleren Kassakurse beider Börsen.
Neben einer [[Punktschätzung]] für die unbekannte Differenz der mittleren Kassakurse soll ein [[Konfidenzintervall]] zum [[Konfidenzniveau]] <math>1-\alpha = 0,95</math> angegeben werden.
Die [[Zufallsvariable]]n der beiden [[Grundgesamtheit]]en sind:
<math>X_{1}=\;</math> Kassakurs an der Frankfurter Wertpapierbörse
<math>X_{2}=\;</math> Kassakurs an der Berliner Wertpapierbörse,
mit den unbekannten [[Erwartungswert der Grundgesamtheit|Erwartungswerten]] <math>E[X_{1}]=\mu_{1}</math> bzw. <math>E[X_{2}]=\mu_{2}</math> und den unbekannten [[Varianz der Grundgesamtheit|Varianzen]] <math>Var(X_{1})=\sigma_{1}^{2}</math> bzw. <math>Var(X_{2})=\sigma_{2}^{2}</math>.
Zu Demonstrationszwecken sei angenommen, dass
* die Kursfestsetzung an beiden Börsenplätzen unabhängig voneinander erfolgt,
* die [[Varianz der Grundgesamtheit|Varianzen]] in beiden [[Grundgesamtheit]]en gleich sind ([[Varianzhomogenität]]).
Aus jeder [[Grundgesamtheit]] wird eine [[Zufallsstichprobe]] gezogen, mit dem [[Stichprobenumfang|Umfang]] <math>n_{1}</math> in Frankfurt und mit dem [[Stichprobenumfang|Umfang]] <math>n_{2}</math> in Berlin.
Damit eine tägliche Notierung nicht wiederholt in die [[Stichprobe]] gelangt, wird das [[Zufallsauswahlmodell ohne Zurücklegen]] angewandt.
Da die X-AG bereits seit längerer Zeit an beiden Börsen gehandelt wird, können die [[Grundgesamtheit]]en als sehr groß angesehen werden.
Es spielt deshalb keine entscheidende Rolle, ob das [[Zufallsauswahlmodell mit Zurücklegen|Zufallsauswahlmodell mit]] oder [[Zufallsauswahlmodell ohne Zurücklegen|ohne Zurücklegen]] angewandt wird, so dass von der [[Realisation|Realisierung]] [[Einfache Zufallsstichprobe|einfacher Zufallsstichproben]] ausgegangen werden kann.
Aufgrund obiger Annahmen kann außerdem die [[Unabhängigkeit (stochastisch)|Unabhängigkeit]] der beiden [[Zufallsstichprobe]]n unterstellt werden.
Um in diesem Beispiel verschiedene Möglichkeiten der Konstruktion von [[Konfidenzintervall]]en für die Differenz <math>\mu_{1}-\mu_{2}</math> zweier [[Erwartungswert der Grundgesamtheit|Erwartungswerte]] demonstrieren zu können, wird die Annahme über die [[Verteilung (stochastisch)|Verteilung]] der [[Zufallsvariable]]n <math>X_{1}\;</math> und <math>X_{2}\;</math> in folgender Weise variiert:
* <math> X_{1}\;</math> und <math>X_{2}\;</math> sind [[Normalverteilung|normalverteilt]] (was zugestandenermaßen nicht sehr realitätsnah ist),
* die [[Verteilung (stochastisch)|Verteilungen]] von <math>X_{1}\;</math> und <math>X_{2}\;</math> sind unbekannt.
====Normalverteilte Zufallsvariablen====
Aufgrund der Voraussetzungen gilt:
<math>X_{1}\sim N(\mu_{1};\sigma^{2})\;</math> und <math>X_{2}\sim N(\mu_{2};\sigma ^{2})\;</math>.
Als [[Standardisierung|standardisierte]] [[Zufallsvariable]] wird
<math>T=\cfrac{D-E(D)}{S_{D}}=\cfrac{(\bar{X}_{1}-\bar{X}_{2})-(\mu_{1}-\mu_{2})}{\sqrt{\cfrac{n_{1}+n_{2}}{n_{1}n_{2}}\cdot\cfrac{(n_{1}-1)\cdot S_{1}^{2}+(n_{2}-1)\cdot S_{2}^{2}}{n_{1}+n_{2}-2}}}</math>
verwendet, die einer [[t-Verteilung]] mit der Anzahl der [[Freiheitsgrad]]e <math>f=n_{1}+n_{2}-2</math> folgt.
Bei Gültigkeit der genannten Voraussetzungen und unbekannten gleichen [[Varianz der Grundgesamtheit|Varianzen]] <math>\sigma_{1}^{2} = \sigma_{2}^{2}</math> ist
<math>\left[(\bar{X}_{1}-\bar{X}_{2})-t_{n_{1}+n_{2}-2;1-\frac{\alpha}{2}}\cdot S_{D},\;(\bar{X}_{1}-\bar{X}_{2})+t_{n_{1}+n_{2}-2;1-\frac{\alpha}{2}}\cdot S_{D}\right]</math>
ein [[Konfidenzintervall]] für die Differenz <math>\mu_{1}-\mu_{2}</math> der [[Erwartungswert der Grundgesamtheit|Erwartungswerte]] der beiden Kassakurse zum [[Konfidenzniveau]]
<math>P\left((\bar{X}_{1}-\bar{X}_{2})-t_{n_{1}+n_{2}-2;1-\frac{\alpha}{2}}\cdot S_{D}\;\leq\quad\mu_{1}-\mu_{2}\quad\leq\;(\bar{X}_{1}-\bar{X}_{2})+t_{n_{1}+n_{2}-2;1-\frac{\alpha}{2}}\cdot S_{D}\right)=1-\alpha=0.95</math>
Für das vorgegebene [[Konfidenzniveau]] <math>1-\alpha=0.95</math>, findet man <math>t_{f, 1-\frac{\alpha}{2}}</math> aus der Tabelle
der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[t-Verteilung]].
Aus beiden [[Grundgesamtheit]]en wird an gleichen Tagen eine [[uneingeschränkte Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n = 10</math> täglichen Kassakursen (in DM) gezogen, die zu folgenden [[Stichprobenwerte]]n (Spalten 2 und 3 der nachstehenden Tabelle)
führten.
{| border="1" cellpadding="3" style="text-align:center;margin:1em 1em 1em 0; background:#f9f9f9; border:1px #AAA solid; border-collapse:collapse; empty-cells:show;"
|align="center"|<math>i\;</math>
|align="center"|Kassakurse an der Frankfurter Börse <math>x_{1i}\;</math>
|align="center"|Kassakurse an der Frankfurter Börse <math>x_{2i}\;</math>
|align="center"|<math>(x_{1i}-\bar{x}_{1})^{2}</math>
|align="center"|<math>(x_{2i}-\bar{x}_{2})^{2}</math>
|-
|align="center"|1
|align="center"|18,50
|align="center"|18,45
|align="center"|0,0841
|align="center"|0,1296
|-
|align="center"|2
|align="center"|19,00
|align="center"|18,90
|align="center"|0,0441
|align="center"|0,0081
|-
|align="center"|3
|align="center"|18,70
|align="center"|18,80
|align="center"|0,0081
|align="center"|0,0001
|-
|align="center"|4
|align="center"|19,30
|align="center"|19,50
|align="center"|0,2601
|align="center"|0,4761
|-
|align="center"|5
|align="center"|17,10
|align="center"|17,30
|align="center"|2,8561
|align="center"|2,2801
|-
|align="center"|6
|align="center"|18,30
|align="center"|18,10
|align="center"|0,2401
|align="center"|0,5041
|-
|align="center"|7
|align="center"|18,60
|align="center"|18,80
|align="center"|0,0361
|align="center"|0,0001
|-
|align="center"|8
|align="center"|19,00
|align="center"|18,85
|align="center"|0,0441
|align="center"|0,0016
|-
|align="center"|9
|align="center"|19,40
|align="center"|19,50
|align="center"|0,3721
|align="center"|0,4761
|-
|align="center"|10
|align="center"|20,00
|align="center"|19,90
|align="center"|1,4641
|align="center"|1,1881
|}
Daraus ergeben sich gemäß
<math>\bar{x}_{1}= \frac{1}{n_{1}}\cdot \sum\limits_{i=1}^{n_{1}} x_{1i}\qquad\qquad\bar{x}_{2}= \frac{1}{n_{2}}\cdot\sum\limits_{i=1}^{n_{2}} x_{2i}</math>
die [[Punktschätzung]]en für <math>\mu_{1}</math> und <math>\mu_{2}</math>
<math>\bar{x}_{1}=18,79 \mbox{ DM}</math>
<math>\bar{x}_{2}=18,81 \mbox{ DM}</math>
und gemäß
<math>s_{1}^{2}=\frac{1}{n_{1}-1}\cdot \sum\limits_{i=1}^{n_{1}} (x_{1i}- \bar{x_{1}})^{2} \qquad\qquad s_{2}^{2}=\frac{1}{n_{2}-1}\cdot \sum\limits_{i=1}^{n_{2}} (x_{2i}- \bar{x_{2}})^{2}</math>
die [[Punktschätzung]]en für <math>\sigma_{1}^{2}</math> und <math>\sigma_{2}^{2}</math>:
<math>s_{1}^{2}=0,601</math>
<math>s_{2}^{2}=0,563</math>
Wegen der unterstellten [[Varianzhomogenität]] in beiden [[Grundgesamtheit]]en ergibt sich eine [[Punktschätzung]] <math>s^{2}</math> für die gemeinsame [[Varianz (stochastisch)|Varianz]] (pooled variance) <math>\sigma^{2}</math> als gewogenes [[Arithmetisches Mittel|arithmetisches Mittel]] aus den beiden [[Stichprobenvarianz]]en:
<math>s^{2}=\frac{(n_{1}-1)\cdot s_{1}^{2}+(n_{2}-1)\cdot s_{2}^{2}}{n_{1}+n_{2}-2}=\frac{9\cdot0.601+9\cdot0.563}{18}=0.582</math>
Als [[Punktschätzung]] <math>s_{D}^{2}</math> für <math>\sigma_{D}^{2}</math>, der [[Varianz (stochastisch)|Varianz]] der Differenz der beiden [[Stichprobenmittelwert]]e resultiert:
<math>s_{D}^{2}=s^{2}\cdot\left( \frac{1}{n_{1}}+\frac{1}{n_{2}}\right)=0,582\cdot\frac{1}{5}=0,1164
</math>
Die [[Standardabweichung (stochastisch)|Standardabweichung]] ist somit <math>s_{D}=\sqrt{0,1164}=0,3412</math>.
Der [[Freiheitsgrad]] <math>f</math> beträgt <math>f=n_1+n_2-2=10+10-2=18</math> und aus der Tabelle der [[t-Verteilung]] kann man ablesen, dass <math>t_{18;0.975}=2.101</math>.
Mit diesen Ergebnissen kann das [[Schätzintervall]] für die Differenz der beiden [[Erwartungswert]]e der Kassakurse ermittelt werden:
<math>\left[\left(18,79-18,81\right)-2,101\cdot0,3412,\;\left(18,79-18,81\right)+2,101 \cdot 0,3412\right]=\left[-0,7369, \; 0.6969\right]</math>
Da ein hohes [[Konfidenzniveau]] vorgegeben wurde, kann unterstellt werden, eines der [[Schätzintervall]]e erhalten zu haben, dass die wahre Differenz <math>\mu_{1}</math> und <math>\mu_{2}</math> enthält.
Das errechnete [[Schätzintervall]] überdeckt den Wert 0, so dass von einem [[Statistik|statistisch]] nicht bedeutsamen Unterschied zwischen dem mittleren Kassakurs der Frankfurter Börse <math>\mu_{1}</math> und dem mittleren Kassakurs der Berliner Börse <math>\mu_{2}</math> auf dem verwendeten [[Konfidenzniveau]] ausgegangen werden kann.
====Unbekannte Verteilung der Zufallsvariablen====
Es wird nun die Voraussetzung der [[Normalverteilung]] der beiden [[Zufallsvariable]]n <math>X_{1}\;</math> und <math>X_{2}\;</math> fallen gelassen.
Die Konsequenz ist, dass keine Aussage über die [[Verteilung des Stichprobenmittelwertes|Verteilung der beiden Stichprobenmittelwerte]] <math>\bar{X}_{1}</math> und <math>\bar{X}_{2}</math> und damit über ihre Differenz <math>\bar{X}_{1}-\bar{X}_{2}</math> getroffen werden kann.
Um dennoch ein [[Konfidenzintervall]] für die Differenz <math>\mu_{1} - \mu_{2}</math> der [[Erwartungswert]]e der beiden Kassakurse konstruieren zu können, müssen beide [[Stichprobenumfang|Stichprobenumfänge]] <math>n_{1} \geq 30 </math> und <math>n_{2} \geq 30</math> gewählt werden, damit der [[Zentraler Grenzwertsatz|Zentrale Grenzwertsatz]] wirksam wird.
Die [[Standardisierung|standardisierte]] [[Zufallsvariable]]
<math>T = \cfrac{D-E(D)}{S_{D}}=\cfrac{(\bar{X}_{1}-\bar{X}_{2})-(\mu_{1}-\mu_{2})}{\sqrt{\cfrac{n_{1}+n_{2}}{n_{1}n_{2}}\cdot\cfrac{(n_{1}-1)\cdot S_{1}^{2}+(n_{2}-1)\cdot S_{2}^{2}}{n_{1}+n_{2}-2}}}</math>
ist dann [[Approximation|approximativ]] [[Standardnormalverteilung|standardnormalverteilt]]. Bei Gültigkeit der genannten Voraussetzungen und unbekannten gleichen [[Varianz der Grundgesamtheit|Varianzen]] <math>\sigma_{1}^{2} = \sigma_{2}^{2}</math> ist
<math>\left[ (\bar{X}_{1}-\bar{X}_{2})-z_{1-\frac{\alpha}{2}}\cdot S_{D},\;(\bar{X}_{1}-\bar{X}_{2})+z_{1-\frac{\alpha}{2}}\cdot S_{D}\right]</math>
ein [[Konfidenzintervall]] für die Differenz <math>\mu_{1}-\mu_{2}</math> der [[Erwartungswert]]e der beiden Kassakurse zum [[Approximation|approximativen]] [[Konfidenzniveau]]
<math> P\left( (\bar{X}_{1}-\bar{X}_{2})-z_{1-\frac{\alpha}{2}}\cdot S_{D}\;\leq\;\mu_{1}-\mu_{2}\;\leq\;(\bar{X}_{1}-\bar{X}_{2})+z_{1-\frac {\alpha}{2}}\cdot S_{D}\right)\approx1-\alpha=0,95</math>
Für das vorgegebene [[Konfidenzniveau]] <math>1-\alpha</math> findet man <math>z_{1-\frac{\alpha}{2}}=z_{0,975}=1,96</math> aus der Tabelle der [[Verteilungsfunktion (stochastisch, eindimensional)|Verteilungsfunktion]] der [[Standardnormalverteilung]]
Aus beiden [[Grundgesamtheit]]en wird eine [[uneingeschränkte Zufallsstichprobe]] vom [[Stichprobenumfang|Umfang]] <math>n = 50</math> täglichen Kassakursen (in DM) gezogen.
Als [[Punktschätzung]]en habe sich ergeben:
<math>\bar{X}_{1}=18,80\ \qquad\qquad s_{1}^{2}=0,5967</math>
<math>\bar{X}_{2}=18,83\ \qquad\qquad s_{2}^{2}=0,6188</math>
Wegen der unterstellten [[Varianzhomogenität]] in beiden [[Grundgesamtheit]]en ergibt sich für die [[Punktschätzung]] <math>s^{2}</math> der gemeinsamen [[Varianz (stochastisch)|Varianz]]:
<math>s^{2}=\frac{49\cdot0,5967+49\cdot0,6188}{98}=0,6078</math>
Als [[Punktschätzung]] <math>s_{D}^{2}</math> für <math>\sigma_{D}^{2}</math>, der [[Varianz (stochastisch)|Varianz]] der Differenz der beiden [[Stichprobenmittelwert]]e resultiert:
<math>s_{D}^{2}=s^{2}\cdot \left(  \frac{1}{n_{1}}+\frac{1}{n_{2}}\right)  =0,6078\cdot\frac{1}{25}=0,0243</math>
Die [[Standardabweichung (stochastisch)|Standardabweichung]] ist somit <math>s_{D}=\sqrt{0,0243}=0.1559</math>.
Für das [[Schätzintervall]] der Differenz der beiden [[Erwartungswert]]e der Kassakurse resultiert:
<math>[(18,80-18,83)-1,96\cdot0,1559;\;(18,80-18,83)+1,96\cdot0,1559]=[-0,3356;\; 0,2756]</math>
Die Interpretation ist analog zur 1. Version zu führen.
Vergleicht man beide Versionen dieses Beispiels miteinander, so kann folgendes konstatiert werden:
* In der 1. Version liegen mehr Informationen über die [[Grundgesamtheit]]en vor als in der 2. Version.
* Die Differenz der beiden [[Stichprobenmittelwert]]e und die gemeinsame [[Varianz (stochastisch)|Varianz]] <math>s^{2}</math> bewegen sich in beiden Versionen in etwa gleichen Größenordnungen.
* Die [[Varianz (stochastisch)|Varianz]] <math>s_{D}^{2}</math> bzw. die [[Standardabweichung (stochastisch)|Standardabweichung]] <math>s_{D}</math> der Differenz der [[Stichprobenmittelwert]]e ist in der 2. Version deutlich kleiner als in der 1. Version. Dies ist offensichtlich auf die wesentlich größeren [[Stichprobenumfang|Stichprobenumfänge]] zurückzuführen.
* Die [[Länge des Konfidenzintervalls|Länge]] des [[Schätzintervall]]s ist in der 2. Version deutlich kleiner als in der 1. Version.
Die fehlende Information über die [[Grundgesamtheit]] äußert sich darin, dass das [[Konfidenzniveau]] nur [[Approximation|approximativ]] gilt.
In welchem Ausmaß das wirkliche [[Konfidenzniveau]] vom [[Approximation|approximativen]] abweicht, kann nicht gesagt werden.
<!--==Interaktives Beispiel==
Es steht eine Grundgesamtheit von <math>N = 3100</math> Mittelklassefahrzeugen der Hersteller Speed, Eco, Space und Run zur Verfügung. An den Fahrzeugen wurden die Variablen
<math>X_1 =\;</math> Benzinverbrauch pro 100 km der Autos vom Hersteller Speed,
<math>X_2 =\;</math> Benzinverbrauch pro 100 km der Autos vom Hersteller Eco,
<math>X_3 =\;</math> Benzinverbrauch pro 100 km der Autos vom Hersteller Space,
<math>X_4 =\;</math> Benzinverbrauch pro 100 km der Autos vom Hersteller Run
beobachtet. Die Erwartungswerte und Varianzen der Variablen in den Grundgesamtheiten sind unbekannt. Es soll eine Aussage über die Differenz des mittleren Benzinverbrauchs pro 100 km zweier ausgewählter Fahrzeugtypen getroffen werden.
Ermitteln Sie auf der Basis einer einfachen Zufallsstichprobe eine Punkt- und Intervallschätzung für die unbekannte Differenz der Erwartungswerte <math>\mu_{1}</math> und <math>\mu_{2}</math>. Es ist von einer Varianzheterogenität und
einer Normalverteilung der Variablen in den Grundgesamtheiten auszugehen.
Mit diesem Beispiel haben Sie die Möglichkeit, den Einfluss des [[STAT-Glossar#Konfidenzniveau|Konfidenzniveaus]] und der Stichprobenumfänge auf die Breite des Konfidenzintervalls zu studieren. Dazu empfiehlt es sich, nur eine der beiden Größen zu verändern, während die andere konstant gehalten wird.
Treffen Sie bitte nachfolgend ihre Entscheidungen über
* die zu analysierenden Variablen,
* die Stichprobenumfänge <math>n_{1}</math> und <math>n_{2}</math>
* das [[STAT-Glossar#Konfidenzniveau|Konfidenzniveau]] <math>1-\alpha</math> (als Dezimalzahl, z.B. 0.95)
Hinweis:
Berücksichtigen Sie bei diesen Entscheidungen, welche Informationen Sie über die
Grundgesamtheit haben.
'''Ausgabe:'''
Als Ergebnis gibt dieses interaktive Beispiel
# die ''Boxplots'' zu den beiden ausgewählten Variablen und
# das -zum gewählte [[STAT-Glossar#Konfidenzniveau|Konfidenzniveau]] passende- ''Konfidenzintervall''
aus.
Wenn man die gleiche Variable weiter verwendet, aber ein(en) anderes/n
[[STAT-Glossar#Konfidenzniveau|Konfidenzniveau]]/[[STAT-Glossar#Stichprobenumfang|Stichprobenumfang]] angibt, so werden im Ausgabefenster auch die alten
''Konfidenzintervalle'' angezeigt (zum Vergleich).-->

Aktuelle Version vom 22. November 2018, 16:17 Uhr

Schätztheorie

Grundbegriffe der Schätztheorie • Gütekriterien einer Schätzfunktion • Mittlere quadratische Abweichung (stochastisch) • Erwartungstreue • Effizienz • Konsistenz • Maximum-Likelihood-Methode • Kleinste-Quadrate-Methode • Intervallschätzung • Konfidenzintervall für den Erwartungswert • Konfidenzintervall für den Erwartungswert bei bekannter Varianz • Konfidenzintervall für den Erwartungswert bei unbekannter Varianz • Konfidenzintervall für den Anteilswert • Konfidenzintervall für die Varianz • Konfidenzintervall für die Differenz zweier Erwartungswerte • Bestimmung des Stichprobenumfangs • Multiple Choice • Video • Aufgaben • Lösungen
Absolute Effizienz • Asymptotische Erwartungstreue • Bias • Breite des Konfidenzintervalls • Einseitiges Konfidenzintervall • Grenzen des Konfidenzintervalls • Grenzen des Schätzintervalls • Irrtumswahrscheinlichkeit • Kleinste-Quadrate-Schätzer • Konfidenzintervall • Konfidenzniveau • Konfidenzwahrscheinlichkeit • KQ-Methode • KQ-Schätzer • Länge des Konfidenzintervalls • Likelihood-Funktion • Log-Likelihood-Funktion • Maximum-Likelihood-Schätzer • Maximum-Likelihood-Schätzung • Mean Square Error • Methode der kleinsten Quadrate • ML-Schätzer • ML-Schätzung • Parameterschätzung • Punktschätzung • Realisiertes Konfidenzintervall • Relative Effizienz • Schätzer • Schätzfehler • Schätzfunktion • Schätzintervall • Schätzung • Schätzverfahren • Schätzwert • Symmetrisches Konfidenzintervall • Unbiasedness • Unverzerrtheit • Vertrauenswahrscheinlichkeit • Verzerrung • Zentrales Konfidenzintervall • Zufallsintervall • Zweiseitiges Konfidenzintervall

Grundbegriffe

Konfidenzintervall für die Differenz zweier Erwartungswerte

Von den vielen Möglichkeiten, Konfidenzintervalle für die Differenz zweier Erwartungswerte zu konstruieren, wird nur diejenige behandelt, für die nachstehende Voraussetzungen gelten:

  • Gegeben sind zwei Grundgesamtheiten, in denen die Zufallsvariablen und normalverteilt sind mit bzw. und bzw. , d.h. und .

Von besonderem Interesse bei der praktischen Anwendung von Konfidenzintervallen für die Differenz zweier Erwartungswerte ist es, ob der Wert 0 dabei überdeckt wird oder nicht.

Sobald das aus den Stichproben resultierende Schätzintervall den Wert nicht einschließt, ist ein Unterschied zwischen und auf dem verwendeten Konfidenzniveau bedeutsam.

Da die Zufallsvariablen und normalverteilt sind, gilt dies auch für die Stichprobenmittelwerte und (vgl. Abschnitt "Verteilung des Stichprobenmittelwertes").

Weiterhin sind:

Zusammenfassend kann geschrieben werden:

Aufgrund der Reproduktivitätseigenschaft der Normalverteilung folgt, dass die Differenz der beiden Stichprobenmittelwerte

ebenfalls normalverteilt ist mit dem Erwartungswert

und der Varianz

Die standardisierte Zufallsvariable

ist demzufolge standardnormalverteilt .

Anhand des Nenners von wird deutlich, dass für die Konstruktion von Konfidenzintervallen für unterschieden werden muss nach:

Konfidenzintervall für die Differenz zweier Erwartungswerte bei bekannten Varianzen

Bei Gültigkeit der eingangs genannten Voraussetzungen und bekannten Varianzen und ist

ein Konfidenzintervall für die Differenz zweier Erwartungswerte zum Konfidenzniveau

Für die vorgegebene Wahrscheinlichkeit findet man aus der Tabelle der Verteilungsfunktion der Standardnormalverteilung.

Wurden die beiden Stichproben gezogen, erhält man ein entsprechendes Schätzintervall.

Sofern keine Normalverteilung in den beiden Grundgesamtheiten unterstellt werden kann, die beiden Stichprobenumfänge jedoch und sind, kann wegen des zentralen Grenzwertsatzes das Konfidenzintervall ebenfalls verwendet werden. Das Konfidenzniveau ist dann approximativ .

Konfidenzintervall für die Differenz zweier Erwartungswerte bei unbekannten Varianzen

In diesem Fall werden und mittels der erwartungstreuen und konsistenten Schätzfunktionen

aus den Stichproben geschätzt.

Annahme der Varianzhomogenität

Unter der Annahme der Varianzhomogenität, d.h. beide Grundgesamtheiten haben gleiche Varianz , ergibt sich eine Schätzung für die gemeinsame Varianz als gewogenes arithmetisches Mittel aus den beiden Stichprobenvarianzen:

wird auch als pooled variance bezeichnet.

Als Schätzfunktion für folgt:

Die Standardabweichung als Wurzel aus wird für die Standardisierung verwendet, so dass die sich ergebende Zufallsvariable

einer t-Verteilung mit der Anzahl der Freiheitsgrade folgt.

Mit diesen Ergebnissen lässt sich ein Konfidenzintervall angeben:

Bei Gültigkeit der eingangs genannten Voraussetzungen und unbekannten gleichen Varianzen ist:

ein Konfidenzintervall für die Differenz zweier Erwartungswerte zum Konfidenzniveau

Für die vorgegebene Wahrscheinlichkeit findet man in der Tabelle der Verteilungsfunktion der t-Verteilung.

Sofern die beiden Stichprobenumfänge genügend groß sind (Faustregel: und ) kann durch aus der Standardnormalverteilung ersetzt werden. Das Konfidenzniveau ist dann approximativ .

Annahme der Varianzheterogenität

Unter der Annahme der Varianzheterogenität, d.h. beide Grundgesamtheiten haben ungleiche Varianz ergibt sich als Schätzfunktion für

Wenn die beiden Stichprobenumfänge genügend groß sind ( und ), lässt sich folgende Aussage treffen:

Bei Gültigkeit der eingangs genannten Voraussetzungen und unbekannten ungleichen Varianzen und ist

ein approximatives Konfidenzintervall für die Differenz zweier Erwartungswerte zum näherungsweisen Konfidenzniveau

Für die vorgegebene Wahrscheinlichkeit findet man aus der Tabelle der Verteilungsfunktion der Standardnormalverteilung.

Für kleine Stichprobenumfänge und gibt es die Möglichkeit, unter Verwendung der t-Verteilung Konfidenzintervalle für anzugeben.

Zusatzinformationen

Charakteristika des Konfidenzintervalls bei bekannten Varianzen

Charakteristika des Konfidenzintervalls bei unbekannten Varianzen