Konfidenzintervall für die Differenz zweier Erwartungswerte/Beispiel: Benzinverbrauch

Aus MM*Stat

Wechseln zu: Navigation, Suche

Beispiele

Benzinverbrauch

Der Automobilclub ADAC will eine Aussage über die Differenz des mittleren Benzinverbrauchs pro 100 km bei Fahrten auf Autobahnen für zwei vergleichbare Typen von Personenkraftwagen der Hersteller A und B treffen.

Zu diesem Zweck soll ein Konfidenzintervall für die Differenz der beiden Erwartungswerte \mu _{1}-\mu_{2} zum Konfidenzniveau 1-\alpha=0,95 bestimmt werden.

Bevor die Stichproben gezogen werden können, sind einige statistische Überlegungen notwendig.

  • Es sei bekannt, dass die Zufallsvariablen
    • X_{1} =\; Benzinverbrauch pro 100 km des Autos vom Hersteller A
    • X_{2} =\; Benzinverbrauch pro 100 km des Autos vom Hersteller B

normalverteilt sind mit den unbekannten Erwartungswerten E[X_{1}]=\mu_{1} bzw. E[X_{2}]=\mu_{2} und den unbekannten Varianzen Var(X_{1})=\sigma_{1}^{2} bzw. Var(X_{2})=\sigma_{2}^{2}.

Daraus folgt, dass das Konfidenzintervall für die Differenz \mu_{1}-\mu_{2} gemäß

\left[(\bar{X}_{1}-\bar{X}_{2})-z_{1-\frac{\alpha}{2}}\cdot\sqrt{\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}}},\;(\bar{X}_{1}-\bar{X}_{2})+z_{1-\frac{\alpha}{2}}\cdot\sqrt{\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}}}\right]

bestimmt werden kann mit näherungsweisem Konfidenzniveau

P\left((\bar{X}_{1}-\bar{X}_{2})-z_{1-\frac{\alpha}{2}}\cdot\sqrt{\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}}}\,\;\leq\;\mu_{1}-\mu_{2}\;\leq\;(\bar{X}_{1}-\bar{X}_{2})+z_{1-\frac{\alpha}{2}}\cdot\sqrt{\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}}}\right)=0,95

Aus der Tabelle der Verteilungsfunktion der N(0;1)-Verteilung findet man z_{1-\frac{\alpha}{2}}=1,96.

Es werden vom ADAC 36 Autos des Herstellers A und 40 Autos des Herstellers B unter gleichen Bedingungen getestet, die zu folgenden Stichprobenergebnissen führten:

\bar{X}_{1}= \frac{9,2 \mbox{ l}}{100 \mbox{ km}},\; s_1 = \frac{0,6 \mbox{ l}}{100 \mbox{ km}}
\bar{X}_{2} = \frac{8,4 \mbox{ l}}{100 \mbox{ km}},\; s_2 = \frac{0,4 \mbox{ l}}{100 \mbox{ km}}

Als Schätzintervall resultiert:

\left[  (9,2-8,4)-1,96\cdot\sqrt{\frac{0,6^{2}}{36}+\frac{0,4^{2}}{40}};\; (9,2-8,4)+1,96\cdot\sqrt{\frac{0,6^{2}}{36}+\frac{0,4^{2}}{40}}\right]=[0,586;\;1,032]

Da ein hohes Konfidenzniveau vorgegeben wurde, wird unterstellt, eines der Schätzintervalle erhalten zu haben, dass die wahre Differenz \mu_{1}-\mu_{2} enthält.

Dieses Schätzintervall überdeckt nicht den Wert 0, so dass von einem statistisch bedeutsamen (signifikanten) Unterschied zwischen \mu_{1} und \mu_{2} auf dem verwendeten Konfidenzniveau ausgegangen werden kann.

Kassakurs

Die X-AG will den Kurs ihrer Aktien an zwei deutschen Wertpapierbörsen (Frankfurt und Berlin) analysieren.

In den Vergleich wird u.a. der Kassakurs, der einmal täglich um 12.00 Uhr an beiden Börsen ermittelt wird, einbezogen. Hierbei interessiert insbesondere eine Aussage über die Differenz der mittleren Kassakurse beider Börsen.

Neben einer Punktschätzung für die unbekannte Differenz der mittleren Kassakurse soll ein Konfidenzintervall zum Konfidenzniveau 1-\alpha = 0,95 angegeben werden.

Die Zufallsvariablen der beiden Grundgesamtheiten sind:

X_{1}=\; Kassakurs an der Frankfurter Wertpapierbörse

X_{2}=\; Kassakurs an der Berliner Wertpapierbörse,

mit den unbekannten Erwartungswerten E[X_{1}]=\mu_{1} bzw. E[X_{2}]=\mu_{2} und den unbekannten Varianzen Var(X_{1})=\sigma_{1}^{2} bzw. Var(X_{2})=\sigma_{2}^{2}.

Zu Demonstrationszwecken sei angenommen, dass

Aus jeder Grundgesamtheit wird eine Zufallsstichprobe gezogen, mit dem Umfang n_{1} in Frankfurt und mit dem Umfang n_{2} in Berlin.

Damit eine tägliche Notierung nicht wiederholt in die Stichprobe gelangt, wird das Zufallsauswahlmodell ohne Zurücklegen angewandt.

Da die X-AG bereits seit längerer Zeit an beiden Börsen gehandelt wird, können die Grundgesamtheiten als sehr groß angesehen werden.

Es spielt deshalb keine entscheidende Rolle, ob das Zufallsauswahlmodell mit oder ohne Zurücklegen angewandt wird, so dass von der Realisierung einfacher Zufallsstichproben ausgegangen werden kann.

Aufgrund obiger Annahmen kann außerdem die Unabhängigkeit der beiden Zufallsstichproben unterstellt werden.

Um in diesem Beispiel verschiedene Möglichkeiten der Konstruktion von Konfidenzintervallen für die Differenz \mu_{1}-\mu_{2} zweier Erwartungswerte demonstrieren zu können, wird die Annahme über die Verteilung der Zufallsvariablen X_{1}\; und X_{2}\; in folgender Weise variiert:

Normalverteilte Zufallsvariablen

Aufgrund der Voraussetzungen gilt:

X_{1}\sim N(\mu_{1};\sigma^{2})\; und X_{2}\sim N(\mu_{2};\sigma ^{2})\;.

Als standardisierte Zufallsvariable wird

T=\cfrac{D-E(D)}{S_{D}}=\cfrac{(\bar{X}_{1}-\bar{X}_{2})-(\mu_{1}-\mu_{2})}{\sqrt{\cfrac{n_{1}+n_{2}}{n_{1}n_{2}}\cdot\cfrac{(n_{1}-1)\cdot S_{1}^{2}+(n_{2}-1)\cdot S_{2}^{2}}{n_{1}+n_{2}-2}}}

verwendet, die einer t-Verteilung mit der Anzahl der Freiheitsgrade f=n_{1}+n_{2}-2 folgt.

Bei Gültigkeit der genannten Voraussetzungen und unbekannten gleichen Varianzen \sigma_{1}^{2} = \sigma_{2}^{2} ist

\left[(\bar{X}_{1}-\bar{X}_{2})-t_{n_{1}+n_{2}-2;1-\frac{\alpha}{2}}\cdot S_{D},\;(\bar{X}_{1}-\bar{X}_{2})+t_{n_{1}+n_{2}-2;1-\frac{\alpha}{2}}\cdot S_{D}\right]

ein Konfidenzintervall für die Differenz \mu_{1}-\mu_{2} der Erwartungswerte der beiden Kassakurse zum Konfidenzniveau

P\left((\bar{X}_{1}-\bar{X}_{2})-t_{n_{1}+n_{2}-2;1-\frac{\alpha}{2}}\cdot S_{D}\;\leq\quad\mu_{1}-\mu_{2}\quad\leq\;(\bar{X}_{1}-\bar{X}_{2})+t_{n_{1}+n_{2}-2;1-\frac{\alpha}{2}}\cdot S_{D}\right)=1-\alpha=0.95

Für das vorgegebene Konfidenzniveau 1-\alpha=0.95, findet man t_{f, 1-\frac{\alpha}{2}} aus der Tabelle der Verteilungsfunktion der t-Verteilung.

Aus beiden Grundgesamtheiten wird an gleichen Tagen eine uneingeschränkte Zufallsstichprobe vom Umfang n = 10 täglichen Kassakursen (in DM) gezogen, die zu folgenden Stichprobenwerten (Spalten 2 und 3 der nachstehenden Tabelle) führten.

i\; Kassakurse an der Frankfurter Börse x_{1i}\; Kassakurse an der Frankfurter Börse x_{2i}\; (x_{1i}-\bar{x}_{1})^{2} (x_{2i}-\bar{x}_{2})^{2}
1 18,50 18,45 0,0841 0,1296
2 19,00 18,90 0,0441 0,0081
3 18,70 18,80 0,0081 0,0001
4 19,30 19,50 0,2601 0,4761
5 17,10 17,30 2,8561 2,2801
6 18,30 18,10 0,2401 0,5041
7 18,60 18,80 0,0361 0,0001
8 19,00 18,85 0,0441 0,0016
9 19,40 19,50 0,3721 0,4761
10 20,00 19,90 1,4641 1,1881

Daraus ergeben sich gemäß

\bar{x}_{1}= \frac{1}{n_{1}}\cdot \sum\limits_{i=1}^{n_{1}} x_{1i}\qquad\qquad\bar{x}_{2}= \frac{1}{n_{2}}\cdot\sum\limits_{i=1}^{n_{2}} x_{2i}

die Punktschätzungen für \mu_{1} und \mu_{2}

\bar{x}_{1}=18,79 \mbox{ DM}

\bar{x}_{2}=18,81 \mbox{ DM}

und gemäß

s_{1}^{2}=\frac{1}{n_{1}-1}\cdot \sum\limits_{i=1}^{n_{1}} (x_{1i}- \bar{x_{1}})^{2} \qquad\qquad s_{2}^{2}=\frac{1}{n_{2}-1}\cdot \sum\limits_{i=1}^{n_{2}} (x_{2i}- \bar{x_{2}})^{2}

die Punktschätzungen für \sigma_{1}^{2} und \sigma_{2}^{2}:

s_{1}^{2}=0,601

s_{2}^{2}=0,563

Wegen der unterstellten Varianzhomogenität in beiden Grundgesamtheiten ergibt sich eine Punktschätzung s^{2} für die gemeinsame Varianz (pooled variance) \sigma^{2} als gewogenes arithmetisches Mittel aus den beiden Stichprobenvarianzen:

s^{2}=\frac{(n_{1}-1)\cdot s_{1}^{2}+(n_{2}-1)\cdot s_{2}^{2}}{n_{1}+n_{2}-2}=\frac{9\cdot0.601+9\cdot0.563}{18}=0.582

Als Punktschätzung s_{D}^{2} für \sigma_{D}^{2}, der Varianz der Differenz der beiden Stichprobenmittelwerte resultiert:

s_{D}^{2}=s^{2}\cdot\left( \frac{1}{n_{1}}+\frac{1}{n_{2}}\right)=0,582\cdot\frac{1}{5}=0,1164

Die Standardabweichung ist somit s_{D}=\sqrt{0,1164}=0,3412.

Der Freiheitsgrad f beträgt f=n_1+n_2-2=10+10-2=18 und aus der Tabelle der t-Verteilung kann man ablesen, dass t_{18;0.975}=2.101.

Mit diesen Ergebnissen kann das Schätzintervall für die Differenz der beiden Erwartungswerte der Kassakurse ermittelt werden:

\left[\left(18,79-18,81\right)-2,101\cdot0,3412,\;\left(18,79-18,81\right)+2,101 \cdot 0,3412\right]=\left[-0,7369, \; 0.6969\right]

Da ein hohes Konfidenzniveau vorgegeben wurde, kann unterstellt werden, eines der Schätzintervalle erhalten zu haben, dass die wahre Differenz \mu_{1} und \mu_{2} enthält.

Das errechnete Schätzintervall überdeckt den Wert 0, so dass von einem statistisch nicht bedeutsamen Unterschied zwischen dem mittleren Kassakurs der Frankfurter Börse \mu_{1} und dem mittleren Kassakurs der Berliner Börse \mu_{2} auf dem verwendeten Konfidenzniveau ausgegangen werden kann.

Unbekannte Verteilung der Zufallsvariablen

Es wird nun die Voraussetzung der Normalverteilung der beiden Zufallsvariablen X_{1}\; und X_{2}\; fallen gelassen.

Die Konsequenz ist, dass keine Aussage über die Verteilung der beiden Stichprobenmittelwerte \bar{X}_{1} und \bar{X}_{2} und damit über ihre Differenz \bar{X}_{1}-\bar{X}_{2} getroffen werden kann.

Um dennoch ein Konfidenzintervall für die Differenz \mu_{1} - \mu_{2} der Erwartungswerte der beiden Kassakurse konstruieren zu können, müssen beide Stichprobenumfänge n_{1} \geq 30 und n_{2} \geq 30 gewählt werden, damit der Zentrale Grenzwertsatz wirksam wird.

Die standardisierte Zufallsvariable

T = \cfrac{D-E(D)}{S_{D}}=\cfrac{(\bar{X}_{1}-\bar{X}_{2})-(\mu_{1}-\mu_{2})}{\sqrt{\cfrac{n_{1}+n_{2}}{n_{1}n_{2}}\cdot\cfrac{(n_{1}-1)\cdot S_{1}^{2}+(n_{2}-1)\cdot S_{2}^{2}}{n_{1}+n_{2}-2}}}

ist dann approximativ standardnormalverteilt. Bei Gültigkeit der genannten Voraussetzungen und unbekannten gleichen Varianzen \sigma_{1}^{2} = \sigma_{2}^{2} ist

\left[ (\bar{X}_{1}-\bar{X}_{2})-z_{1-\frac{\alpha}{2}}\cdot S_{D},\;(\bar{X}_{1}-\bar{X}_{2})+z_{1-\frac{\alpha}{2}}\cdot S_{D}\right]

ein Konfidenzintervall für die Differenz \mu_{1}-\mu_{2} der Erwartungswerte der beiden Kassakurse zum approximativen Konfidenzniveau

 P\left( (\bar{X}_{1}-\bar{X}_{2})-z_{1-\frac{\alpha}{2}}\cdot S_{D}\;\leq\;\mu_{1}-\mu_{2}\;\leq\;(\bar{X}_{1}-\bar{X}_{2})+z_{1-\frac {\alpha}{2}}\cdot S_{D}\right)\approx1-\alpha=0,95

Für das vorgegebene Konfidenzniveau 1-\alpha findet man z_{1-\frac{\alpha}{2}}=z_{0,975}=1,96 aus der Tabelle der Verteilungsfunktion der Standardnormalverteilung

Aus beiden Grundgesamtheiten wird eine uneingeschränkte Zufallsstichprobe vom Umfang n = 50 täglichen Kassakursen (in DM) gezogen.

Als Punktschätzungen habe sich ergeben:

\bar{X}_{1}=18,80\ \qquad\qquad s_{1}^{2}=0,5967

\bar{X}_{2}=18,83\ \qquad\qquad s_{2}^{2}=0,6188

Wegen der unterstellten Varianzhomogenität in beiden Grundgesamtheiten ergibt sich für die Punktschätzung s^{2} der gemeinsamen Varianz:

s^{2}=\frac{49\cdot0,5967+49\cdot0,6188}{98}=0,6078

Als Punktschätzung s_{D}^{2} für \sigma_{D}^{2}, der Varianz der Differenz der beiden Stichprobenmittelwerte resultiert:

s_{D}^{2}=s^{2}\cdot \left(  \frac{1}{n_{1}}+\frac{1}{n_{2}}\right)  =0,6078\cdot\frac{1}{25}=0,0243

Die Standardabweichung ist somit s_{D}=\sqrt{0,0243}=0.1559.

Für das Schätzintervall der Differenz der beiden Erwartungswerte der Kassakurse resultiert:

[(18,80-18,83)-1,96\cdot0,1559;\;(18,80-18,83)+1,96\cdot0,1559]=[-0,3356;\; 0,2756]

Die Interpretation ist analog zur 1. Version zu führen.

Vergleicht man beide Versionen dieses Beispiels miteinander, so kann folgendes konstatiert werden:

  • In der 1. Version liegen mehr Informationen über die Grundgesamtheiten vor als in der 2. Version.

Die fehlende Information über die Grundgesamtheit äußert sich darin, dass das Konfidenzniveau nur approximativ gilt.

In welchem Ausmaß das wirkliche Konfidenzniveau vom approximativen abweicht, kann nicht gesagt werden.