Konfidenzintervall für die Differenz zweier Erwartungswerte

Aus MM*Stat

Version vom 18. Mai 2018, 15:41 Uhr von Jacobdan (Diskussion | Beiträge) (Die Seite wurde neu angelegt: „{{Schaetztheorie}} =={{Vorlage:Überschrift}}== ===Konfidenzintervall für die Differenz zweier Erwartungswerte=== Von den vielen Möglichkeiten, ''Konfiden…“)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Wechseln zu: Navigation, Suche

Schätztheorie

Grundbegriffe der Schätztheorie • Gütekriterien einer Schätzfunktion • Mittlere quadratische Abweichung (stochastisch) • Erwartungstreue • Effizienz • Konsistenz • Maximum-Likelihood-Methode • Kleinste-Quadrate-Methode • Intervallschätzung • Konfidenzintervall für den Erwartungswert • Konfidenzintervall für den Erwartungswert bei bekannter Varianz • Konfidenzintervall für den Erwartungswert bei unbekannter Varianz • Konfidenzintervall für den Anteilswert • Konfidenzintervall für die Varianz • Konfidenzintervall für die Differenz zweier Erwartungswerte • Bestimmung des Stichprobenumfangs • Multiple Choice • Video • Aufgaben • Lösungen
Absolute Effizienz • Asymptotische Erwartungstreue • Bias • Breite des Konfidenzintervalls • Einseitiges Konfidenzintervall • Grenzen des Konfidenzintervalls • Grenzen des Schätzintervalls • Irrtumswahrscheinlichkeit • Kleinste-Quadrate-Schätzer • Konfidenzintervall • Konfidenzniveau • Konfidenzwahrscheinlichkeit • KQ-Methode • KQ-Schätzer • Länge des Konfidenzintervalls • Likelihood-Funktion • Log-Likelihood-Funktion • Maximum-Likelihood-Schätzer • Maximum-Likelihood-Schätzung • Mean Square Error • Methode der kleinsten Quadrate • ML-Schätzer • ML-Schätzung • Parameterschätzung • Punktschätzung • Realisiertes Konfidenzintervall • Relative Effizienz • Schätzer • Schätzfehler • Schätzfunktion • Schätzintervall • Schätzung • Schätzverfahren • Schätzwert • Symmetrisches Konfidenzintervall • Unbiasedness • Unverzerrtheit • Vertrauenswahrscheinlichkeit • Verzerrung • Zentrales Konfidenzintervall • Zufallsintervall • Zweiseitiges Konfidenzintervall

Grundbegriffe

Konfidenzintervall für die Differenz zweier Erwartungswerte

Von den vielen Möglichkeiten, Konfidenzintervalle für die Differenz zweier Erwartungswerte zu konstruieren, wird nur diejenige behandelt, für die nachstehende Voraussetzungen gelten:

  • Gegeben sind zwei Grundgesamtheiten, in denen die Zufallsvariablen und normalverteilt sind mit bzw. und bzw. , d.h. und .

Von besonderem Interesse bei der praktischen Anwendung von Konfidenzintervallen für die Differenz zweier Erwartungswerte ist es, ob der Wert 0 dabei überdeckt wird oder nicht.

Sobald das aus den Stichproben resultierende Schätzintervall den Wert nicht einschließt, ist ein Unterschied zwischen und auf dem verwendeten Konfidenzniveau bedeutsam.

Da die Zufallsvariablen und normalverteilt sind, gilt dies auch für die Stichprobenmittelwerte und (vgl. Abschnitt "Verteilung des Stichprobenmittelwertes").

Weiterhin sind:

Zusammenfassend kann geschrieben werden:

Aufgrund der Reproduktivitätseigenschaft der Normalverteilung folgt, dass die Differenz der beiden Stichprobenmittelwerte

ebenfalls normalverteilt ist mit dem Erwartungswert

und der Varianz

Die standardisierte Zufallsvariable

ist demzufolge standardnormalverteilt .

Anhand des Nenners von wird deutlich, dass für die Konstruktion von Konfidenzintervallen für unterschieden werden muss nach:

Konfidenzintervall für die Differenz zweier Erwartungswerte bei bekannten Varianzen

Bei Gültigkeit der eingangs genannten Voraussetzungen und bekannten Varianzen und ist

ein Konfidenzintervall für die Differenz zweier Erwartungswerte zum Konfidenzniveau

Für die vorgegebene Wahrscheinlichkeit findet man aus der Tabelle der Verteilungsfunktion der Standardnormalverteilung.

Wurden die beiden Stichproben gezogen, erhält man ein entsprechendes Schätzintervall.

Sofern keine Normalverteilung in den beiden Grundgesamtheiten unterstellt werden kann, die beiden Stichprobenumfänge jedoch und sind, kann wegen des zentralen Grenzwertsatzes das Konfidenzintervall ebenfalls verwendet werden. Das Konfidenzniveau ist dann approximativ .

Konfidenzintervall für die Differenz zweier Erwartungswerte bei unbekannten Varianzen

In diesem Fall werden und mittels der erwartungstreuen und konsistenten Schätzfunktionen

aus den Stichproben geschätzt.

Annahme der Varianzhomogenität

Unter der Annahme der Varianzhomogenität, d.h. beide Grundgesamtheiten haben gleiche Varianz , ergibt sich eine Schätzung für die gemeinsame Varianz als gewogenes arithmetisches Mittel aus den beiden Stichprobenvarianzen:

wird auch als pooled variance bezeichnet.

Als Schätzfunktion für folgt:

Die Standardabweichung als Wurzel aus wird für die Standardisierung verwendet, so dass die sich ergebende Zufallsvariable

einer t-Verteilung mit der Anzahl der Freiheitsgrade folgt.

Mit diesen Ergebnissen lässt sich ein Konfidenzintervall angeben:

Bei Gültigkeit der eingangs genannten Voraussetzungen und unbekannten gleichen Varianzen ist:

ein Konfidenzintervall für die Differenz zweier Erwartungswerte zum Konfidenzniveau

Für die vorgegebene Wahrscheinlichkeit findet man in der Tabelle der Verteilungsfunktion der t-Verteilung.

Sofern die beiden Stichprobenumfänge genügend groß sind (Faustregel: und ) kann durch aus der Standardnormalverteilung ersetzt werden. Das Konfidenzniveau ist dann approximativ .

Annahme der Varianzheterogenität

Unter der Annahme der Varianzheterogenität, d.h. beide Grundgesamtheiten haben ungleiche Varianz ergibt sich als Schätzfunktion für

Wenn die beiden Stichprobenumfänge genügend groß sind ( und ), lässt sich folgende Aussage treffen:

Bei Gültigkeit der eingangs genannten Voraussetzungen und unbekannten ungleichen Varianzen und ist

ein approximatives Konfidenzintervall für die Differenz zweier Erwartungswerte zum näherungsweisen Konfidenzniveau

Für die vorgegebene Wahrscheinlichkeit findet man aus der Tabelle der Verteilungsfunktion der Standardnormalverteilung.

Für kleine Stichprobenumfänge und gibt es die Möglichkeit, unter Verwendung der t-Verteilung Konfidenzintervalle für anzugeben.

Zusatzinformationen

Charakteristika des Konfidenzintervalls bei bekannten Varianzen

Charakteristika des Konfidenzintervalls bei unbekannten Varianzen

Beispiele

Benzinverbrauch

Der Automobilclub ADAC will eine Aussage über die Differenz des mittleren Benzinverbrauchs pro 100 km bei Fahrten auf Autobahnen für zwei vergleichbare Typen von Personenkraftwagen der Hersteller und treffen.

Zu diesem Zweck soll ein Konfidenzintervall für die Differenz der beiden Erwartungswerte zum Konfidenzniveau bestimmt werden.

Bevor die Stichproben gezogen werden können, sind einige statistische Überlegungen notwendig.

  • Es sei bekannt, dass die Zufallsvariablen
    • Benzinverbrauch pro 100 km des Autos vom Hersteller
    • Benzinverbrauch pro 100 km des Autos vom Hersteller

normalverteilt sind mit den unbekannten Erwartungswerten bzw. und den unbekannten Varianzen bzw. .

Daraus folgt, dass das Konfidenzintervall für die Differenz gemäß

bestimmt werden kann mit näherungsweisem Konfidenzniveau

Aus der Tabelle der Verteilungsfunktion der N(0;1)-Verteilung findet man .

Es werden vom ADAC 36 Autos des Herstellers und 40 Autos des Herstellers unter gleichen Bedingungen getestet, die zu folgenden Stichprobenergebnissen führten:

Als Schätzintervall resultiert:

Da ein hohes Konfidenzniveau vorgegeben wurde, wird unterstellt, eines der Schätzintervalle erhalten zu haben, dass die wahre Differenz enthält.

Dieses Schätzintervall überdeckt nicht den Wert 0, so dass von einem statistisch bedeutsamen (signifikanten) Unterschied zwischen und auf dem verwendeten Konfidenzniveau ausgegangen werden kann.

Kassakurs

Die X-AG will den Kurs ihrer Aktien an zwei deutschen Wertpapierbörsen (Frankfurt und Berlin) analysieren.

In den Vergleich wird u.a. der Kassakurs, der einmal täglich um 12.00 Uhr an beiden Börsen ermittelt wird, einbezogen. Hierbei interessiert insbesondere eine Aussage über die Differenz der mittleren Kassakurse beider Börsen.

Neben einer Punktschätzung für die unbekannte Differenz der mittleren Kassakurse soll ein Konfidenzintervall zum Konfidenzniveau angegeben werden.

Die Zufallsvariablen der beiden Grundgesamtheiten sind:

Kassakurs an der Frankfurter Wertpapierbörse

Kassakurs an der Berliner Wertpapierbörse,

mit den unbekannten Erwartungswerten bzw. und den unbekannten Varianzen bzw. .

Zu Demonstrationszwecken sei angenommen, dass

Aus jeder Grundgesamtheit wird eine Zufallsstichprobe gezogen, mit dem Umfang in Frankfurt und mit dem Umfang in Berlin.

Damit eine tägliche Notierung nicht wiederholt in die Stichprobe gelangt, wird das Zufallsauswahlmodell ohne Zurücklegen angewandt.

Da die X-AG bereits seit längerer Zeit an beiden Börsen gehandelt wird, können die Grundgesamtheiten als sehr groß angesehen werden.

Es spielt deshalb keine entscheidende Rolle, ob das Zufallsauswahlmodell mit oder ohne Zurücklegen angewandt wird, so dass von der Realisierung einfacher Zufallsstichproben ausgegangen werden kann.

Aufgrund obiger Annahmen kann außerdem die Unabhängigkeit der beiden Zufallsstichproben unterstellt werden.

Um in diesem Beispiel verschiedene Möglichkeiten der Konstruktion von Konfidenzintervallen für die Differenz zweier Erwartungswerte demonstrieren zu können, wird die Annahme über die Verteilung der Zufallsvariablen und in folgender Weise variiert:

  • und sind normalverteilt (was zugestandenermaßen nicht sehr realitätsnah ist),
  • die Verteilungen von und sind unbekannt.

Normalverteilte Zufallsvariablen

Aufgrund der Voraussetzungen gilt:

und .

Als standardisierte Zufallsvariable wird

verwendet, die einer t-Verteilung mit der Anzahl der Freiheitsgrade folgt.

Bei Gültigkeit der genannten Voraussetzungen und unbekannten gleichen Varianzen ist

ein Konfidenzintervall für die Differenz der Erwartungswerte der beiden Kassakurse zum Konfidenzniveau

Für das vorgegebene Konfidenzniveau , findet man aus der Tabelle der Verteilungsfunktion der t-Verteilung.

Aus beiden Grundgesamtheiten wird an gleichen Tagen eine uneingeschränkte Zufallsstichprobe vom Umfang täglichen Kassakursen (in DM) gezogen, die zu folgenden Stichprobenwerten (Spalten 2 und 3 der nachstehenden Tabelle) führten.

Kassakurse an der Frankfurter Börse Kassakurse an der Frankfurter Börse
1 18,50 18,45 0,0841 0,1296
2 19,00 18,90 0,0441 0,0081
3 18,70 18,80 0,0081 0,0001
4 19,30 19,50 0,2601 0,4761
5 17,10 17,30 2,8561 2,2801
6 18,30 18,10 0,2401 0,5041
7 18,60 18,80 0,0361 0,0001
8 19,00 18,85 0,0441 0,0016
9 19,40 19,50 0,3721 0,4761
10 20,00 19,90 1,4641 1,1881

Daraus ergeben sich gemäß

die Punktschätzungen für und

und gemäß

die Punktschätzungen für und :

Wegen der unterstellten Varianzhomogenität in beiden Grundgesamtheiten ergibt sich eine Punktschätzung für die gemeinsame Varianz (pooled variance) als gewogenes arithmetisches Mittel aus den beiden Stichprobenvarianzen:

Als Punktschätzung für , der Varianz der Differenz der beiden Stichprobenmittelwerte resultiert:

Die Standardabweichung ist somit .

Der Freiheitsgrad beträgt und aus der Tabelle der t-Verteilung kann man ablesen, dass .

Mit diesen Ergebnissen kann das Schätzintervall für die Differenz der beiden Erwartungswerte der Kassakurse ermittelt werden:

Da ein hohes Konfidenzniveau vorgegeben wurde, kann unterstellt werden, eines der Schätzintervalle erhalten zu haben, dass die wahre Differenz und enthält.

Das errechnete Schätzintervall überdeckt den Wert 0, so dass von einem statistisch nicht bedeutsamen Unterschied zwischen dem mittleren Kassakurs der Frankfurter Börse und dem mittleren Kassakurs der Berliner Börse auf dem verwendeten Konfidenzniveau ausgegangen werden kann.

Unbekannte Verteilung der Zufallsvariablen

Es wird nun die Voraussetzung der Normalverteilung der beiden Zufallsvariablen und fallen gelassen.

Die Konsequenz ist, dass keine Aussage über die Verteilung der beiden Stichprobenmittelwerte und und damit über ihre Differenz getroffen werden kann.

Um dennoch ein Konfidenzintervall für die Differenz der Erwartungswerte der beiden Kassakurse konstruieren zu können, müssen beide Stichprobenumfänge und gewählt werden, damit der Zentrale Grenzwertsatz wirksam wird.

Die standardisierte Zufallsvariable

ist dann approximativ standardnormalverteilt. Bei Gültigkeit der genannten Voraussetzungen und unbekannten gleichen Varianzen ist

ein Konfidenzintervall für die Differenz der Erwartungswerte der beiden Kassakurse zum approximativen Konfidenzniveau

Für das vorgegebene Konfidenzniveau findet man aus der Tabelle der Verteilungsfunktion der Standardnormalverteilung

Aus beiden Grundgesamtheiten wird eine uneingeschränkte Zufallsstichprobe vom Umfang täglichen Kassakursen (in DM) gezogen.

Als Punktschätzungen habe sich ergeben:

Wegen der unterstellten Varianzhomogenität in beiden Grundgesamtheiten ergibt sich für die Punktschätzung der gemeinsamen Varianz:

Als Punktschätzung für , der Varianz der Differenz der beiden Stichprobenmittelwerte resultiert:

Die Standardabweichung ist somit .

Für das Schätzintervall der Differenz der beiden Erwartungswerte der Kassakurse resultiert:

Die Interpretation ist analog zur 1. Version zu führen.

Vergleicht man beide Versionen dieses Beispiels miteinander, so kann folgendes konstatiert werden:

  • In der 1. Version liegen mehr Informationen über die Grundgesamtheiten vor als in der 2. Version.
  • Die Differenz der beiden Stichprobenmittelwerte und die gemeinsame Varianz bewegen sich in beiden Versionen in etwa gleichen Größenordnungen.

Die fehlende Information über die Grundgesamtheit äußert sich darin, dass das Konfidenzniveau nur approximativ gilt.

In welchem Ausmaß das wirkliche Konfidenzniveau vom approximativen abweicht, kann nicht gesagt werden.