Verteilung der Stichprobenvarianz: Unterschied zwischen den Versionen

Aus MM*Stat

Wechseln zu: Navigation, Suche
 
Zeile 1: Zeile 1:
 
{{Stichprobentheorie}}
 
{{Stichprobentheorie}}
{{SubpageToc}}
+
{{SubpageToc|Beispiele}}
  
 
=={{Vorlage:Überschrift}}==
 
=={{Vorlage:Überschrift}}==

Aktuelle Version vom 22. November 2018, 16:45 Uhr

Stichprobentheorie

Stichprobentheorie • Stichprobe • Verteilung der Grundgesamtheit • Stichprobenvariable • Stichprobenfunktion • Zufallsauswahlmodelle • Stichprobenmittelwert • Schwaches Gesetz der großen Zahlen • Verteilung des Stichprobenmittelwertes • Verteilung der Stichprobenvarianz • Verteilung des Stichprobenanteilswertes • Multiple Choice • Video • Aufgaben • Lösungen
Anteilswert der Grundgesamtheit • Auswahlsatz • Einfache Zufallsauswahl • Einfache Zufallsstichprobe • Erwartungswert der Grundgesamtheit • Erwartungswert des Stichprobenmittelwertes • Induktiver Schluss • Mittelwert der Grundgesamtheit • Parameter der Grundgesamtheit • Parameter des Stichprobenmittelwertes • Standardabweichung des Stichprobenmittelwertes • Standardfehler • Statistisches Element • Stichprobenanteilswert • Stichprobengröße • Stichprobenumfang • Stichprobenwerte • Stichprobenvarianz • Stichprobenverteilung • Uneingeschränkte Zufallsauswahl • Uneingeschränkte Zufallsstichprobe • Varianz der Grundgesamtheit • Varianz des Stichprobenmittelwertes • Varianzhomogenität • Varianzheterogenität • Verteilung einer Stichprobenfunktion • Zufallsauswahl • Zufallsauswahlmodell mit Zurücklegen • Zufallsauswahlmodell ohne Zurücklegen • Zufallsstichprobe

Grundbegriffe

Stichprobenvarianz

Gegeben sei eine Grundgesamtheit mit der Zufallsvariablen X\; mit E[X]=\mu und Var(X)=\sigma^{2}.

Aus dieser Grundgesamtheit wird eine Zufallsstichprobe vom Umfang n gezogen.

Der Stichprobenvarianz liegt die Summe der quadrierten Abweichungen der Stichprobenvariablen X_{i}\; (i =1,\ldots, n) vom Mittelwert der Grundgesamtheit zugrunde.

Abhängig von den Informationen, die über den Mittelwert bekannt sind, gibt es unterschiedliche Definitionen der Stichprobenvarianz.

Erwartungswert der Grundgesamtheit bekannt

In diesem Fall ist die Stichprobenvarianz gegeben durch

 S^{*2}=\frac{1}{n}\cdot \sum\limits_{i=1}^{n}(X_{i}-\mu)^{2}

Erwartungswert der Grundgesamtheit unbekannt

Da der Erwartungswert \mu der Grundgesamtheit unbekannt ist, muss er durch den Stichprobenmittelwert \bar{X} ersetzt werden.

Es wird dann im Allgemeinen die Stichprobenvarianz

S^{2}=\frac{1}{n-1}\cdot \sum\limits_{i=1}^{n}(X_{i}-\bar{X})^{2}

verwendet.

Analog zur deskriptiven Statistik kann die Stichprobenvarianz auch als

S^{\prime2}=\frac{1}{n}\cdot \sum\limits_{i=1}^{n}(X_{i}-\bar{X})^{2}

definiert werden.

Verteilung der Stichprobenvarianz

Die Ableitung der Verteilung der Stichprobenvarianzen S^{*2} und S^{2} soll für den Fall einer normalverteilten Grundgesamtheit, d.h. X\sim N(\mu;\;\sigma), und einer einfachen Zufallsstichprobe erfolgen.

Entsprechend dieser Voraussetzungen gilt, dass die Stichprobenvariablen X_{i}\; (i=1,\ldots, n) unabhängig voneinander und ebenfalls normalverteilt mit E\left[X_{i}\right]=\mu und Var(X_{i})=\sigma^{2} sind:

X_{i}\sim N(\mu,\;\sigma) für alle i=1,\ldots, n

Weiterhin ist der Stichprobenmittelwert \bar{X} normalverteilt mit E\left[\bar{X}\right]=\mu und Var(\bar{X})=\sigma^{2}(\bar{x})=\frac{\sigma^{2}}{n}:

\bar{X}\sim N(\mu,\sigma(\bar{X}))

Verteilung der Stichprobenvarianz bei bekanntem Erwartungswert

Aus der Definition der Stichprobenvarianz S^{*2}\; folgt:

n\cdot S^{*2} = \sum\limits_{i=1}^{n}( X_{i}-\mu)^{2}

und nach Division durch \sigma^{2}

\frac{n\cdot S^{2}}{\sigma^{2}}=\frac{1}{\sigma^{2}}\cdot \sum\limits_{i=1}^{n}(X_{i}-\mu )^{2}=\sum\limits_{i=1}^{n}\left( \frac{X_{i}- \mu}{\sigma}\right)^{2}

Mit diesem Ergebnis können folgende Aussagen getroffen werden:

Nun ist bekannt, dass die Summe von n voneinander unabhängigen und identisch standardnormalverteilten Zufallsvariablen Chi-Quadrat-verteilt ist.

Damit ergibt sich:

\frac{n\cdot S^{*2}}{\sigma^{2}} folgt einer Chi-Quadrat-Verteilung mit dem Parameter f.

Die Verteilung von S^{*2}\; lässt sich somit nicht direkt, sondern nur über die transformierte Zufallsvariable \frac{n\cdot S^{*2}}{\sigma^{2}} angeben.

Da n und \sigma^{2} jedoch Konstanten sind, können auch Wahrscheinlichkeitsaussagen für die Stichprobenfunktion S^{*2} gemacht werden.

Der Parameter f ist die Anzahl der Freiheitsgrade, die der Anzahl der unabhängigen Summanden, d.h. der Anzahl der standardisierten Zufallsvariablen \frac{X_{i} - \mu}{\sigma}, entspricht.

In diesem Fall ist f = n, da bei einer einfachen Zufallsstichprobe alle Stichprobenvariablen X_{i}\; unabhängig voneinander sind.

Für Erwartungswert und Varianz von S^{*2} ergibt sich:

E\left[S^{*2}\right]=\sigma^{2},\qquad Var(S^{*2})=\frac{2\sigma^{4}}{n}

Verteilung der Stichprobenvarianz bei unbekanntem Erwartungswert

Die Ableitung der Verteilung der Stichprobenvarianz S^{2}\; erfolgt in analoger Weise.

Aus der Definition der Stichprobenvarianz S^{2}\; folgt: (n-1)\cdot S^{2}= \sum\limits_{i=1}^{n} (X_{i} - \bar X )^{2}

und nach Division durch \sigma^{2}

\frac {(n-1)\cdot S^{2}}{\sigma^{2}} = \frac{1}{\sigma^{2}}\cdot \sum\limits_{i=1}^{n} (X_{i} - \bar X)^{2} = \sum\limits_{i=1}^{n}\left( \frac { X_{i}- \bar X}{\sigma} \right)^{2}

Da für dieses Ergebnis ebenfalls die obigen Aussagen zutreffen, ergibt sich:

\frac{(n - 1) \cdot S^{2}}{\sigma^{2}} folgt einer Chi-Quadrat-Verteilung mit dem Parameter f.

Auch die Verteilung von S^{2}\; lässt sich nicht direkt, sondern nur über die transformierte Zufallsvariable \frac{(n - 1) \cdot S^{2}}{\sigma^{2}} angeben.

Mit Hilfe der Verteilung von \frac{(n - 1) \cdot S^{2}}{\sigma^{2}} kann man aber zu Wahrscheinlichkeitsaussagen über die Stichprobenfunktion S^{2} gelangen, da n und \sigma^{2} Konstanten sind.

Der Parameter f als Anzahl der Freiheitsgrade ist f = n - 1. Dies lässt sich wie folgt begründen:

Der Stichprobenmittelwert ist als das arithmetische Mittel aus den Stichprobenvariablen definiert: \bar X = \sum\limits_{i} \frac{X_{i}}{n}.

Damit gilt aber die Nulleigenschaft des arithmetischen Mittels, die besagt, dass die Summe der Abweichungen der Stichprobenvariablen vom Stichprobenmittelwert gleich Null ist:

\sum\limits_{i=1}^{n} (X_{i} - \bar X) = \sum\limits_{i=1}^{n} X_{i}-n\cdot \bar X = 0

Aufgrund dieser linearen Beziehung sind die Zufallsvariablen X_{i} -\bar{X} \quad  (i = 1, \ldots, n) insgesamt nicht mehr unabhängig.

Nur n - 1 Zufallsvariablen sind unabhängig, denn sie können frei variieren.

Die Realisation der n-ten Zufallsvariablen liegt dann fest, um die Beziehung einzuhalten.

An dieser Eigenschaft ändert die Quadrierung und die Division durch \sigma^{2} nichts, so dass für \frac{(n - 1) \cdot S^{2}}{\sigma^{2}} die Anzahl der unabhängigen Summanden und damit die Anzahl der Freiheitsgrade f = n - 1 ist.

Für Erwartungswert und Varianz von S^{2}\; ergibt sich:

E\left[S^{2}\right]=\sigma^{2},\qquad Var(S^{2})=\frac{2\sigma^{4}}{n-1}

Zusatzinformationen

Zentrale Schwankungsintervalle

Bei bekannter Varianz \sigma^{2} einer normalverteilten Grundgesamtheit lässt sich die Wahrscheinlichkeit berechnen, dass die Stichprobenvarianz S^{*2}\; Werte in einem zentralen Schwankungsintervall mit der Sicherheitswahrscheinlichkeit 1 - \alpha annimmt.

Es ist

P\left(  v_{1}\leq\frac{n\cdot S^{*2}}{\sigma^{2}}\leq v_{2}\right)  =1-\alpha

Die Wahrscheinlichkeit, dass n S^{*2}/\sigma^{2} nach unten bzw. nach oben aus dem Intervall herausfällt, beträgt:

P\left(\frac{n\cdot S^{*2}}{\sigma^{2}}<v_{1}\right)=\frac{\alpha}{2};\quad P\left(\frac{n\cdot S^{2}}{\sigma^{*2}}>v_{2}\right)  =\frac{\alpha}{2}

Für f=n findet man die Grenzen des Intervalls aus der Tabelle der Verteilungsfunktion der Chi-Quadrat-Verteilung als

v_{1}=\chi_{\frac{\alpha}{2};n}^{2}\,;\quad v_{2}=\chi_{1-\frac{\alpha}{2};n}^{2}

Damit wird

P\left(\chi_{\frac{\alpha}{2};n}^{2}\leq\frac{n\cdot S^{*2}}{\sigma^{2}}\leq\chi_{1-\frac{\alpha}{2};n}^{2}\right)=1-\alpha

Durch Umformung ergibt sich ein zentrales Schwankungsintervall für S^{*2}\;:

P\left(\frac{\sigma^{2}\cdot \chi_{\frac{\alpha}{2};n}^{2}}{n}\leq S^{*2}\leq\frac{\sigma^{2}\cdot \chi_{1-\frac{\alpha}{2};n}^{2}}{n}\right)=1-\alpha

Unter Berücksichtigung von f=n-1 kann mit gleichen Überlegungen das zentrale Schwankungsintervall für S^{2}\; bestimmt werden:

P\left(  \frac{\sigma^{2}\cdot \chi_{\frac{\alpha}{2};n-1}^{2}}{n-1}\leq S^{2}\leq\frac{\sigma^{2}\cdot \chi_{1-\frac{\alpha}{2};n-1}^{2}}{n-1}\right)=1-\alpha

Herleitung des Erwartungswertes der Stichprobenvarianz

Bei bekanntem Erwartungswert der Grundgesamtheit

Bei bekanntem Erwartungswert der Grundgesamtheit \mu ist die Stichprobenvarianz gegeben durch

S^{*2}=\frac{1}{n}\cdot \sum\limits_{i=1}^{n}(X_{i}-\mu)^{2}

Für den Erwartungswert von S^{*2} ergibt sich:

E\left[S^{*2}\right]\; =E\left[\frac{1}{n}\cdot \sum\limits_{i=1}^{n}(X_{i}-\mu )^{2}\right]=\frac{1}{n}\cdot E\left[ \sum\limits_{i=1}^{n}(X_{i}-\mu)^{2}\right]
=\frac{1}{n}\cdot \sum\limits_{i=1}^{n}E\left[(X_{i}-\mu)^{2}\right]\ =\frac{1}{n}\cdot \sum\limits_{i=1}^{n}\sigma^{2}=\frac{1}{n}\cdot n\cdot \sigma^{2}
=\sigma^{2}\;

Dabei wurde die Tatsache berücksichtigt, dass alle Stichprobenvariablen X_{i}\; die Varianz Var(X_{i})=E\left[(X_{i}-\mu)^{2}\right]=\sigma^{2} haben.

Bei unbekanntem Erwartungswert der Grundgesamtheit

Bei unbekanntem Erwartungswert der Grundgesamtheit \mu ist die Stichprobenvarianz gegeben durch

S^{2}=\frac{1}{n-1}\cdot \sum\limits_{i=1}^{n}(X_{i}-\bar{X})^{2}

Zunächst einige Zwischenbetrachtungen. Grundsätzlich lässt sich die Varianz einer Zufallsvariablen X\; wie folgt schreiben:

Var(X)\; =E\left[(X-E[X])^{2}\right]=E\left[X^{2}-2\cdot X\cdot E[X]+(E[X])^{2}\right]
=E\left[X^{2}\right]-2\cdot E[X]\cdot E[X]+\left(E\left[X\right]\right)^{2}
=E\left[X^{2}\right]-\left(E[X]\right)^{2}\;

Daraus folgt:

E\left[X^{2}\right]=Var(X)+\left(E[X]\right)^{2}

Dieses Ergebnis wird auf die Stichprobenvariablen X_{i}\; und den Stichprobenmittelwert \bar{X} angewandt:

E\left[X_{i}^{2}\right] =Var(X_{i})+[E(X_{i})]^{2}=\sigma^{2}+\mu^{2}\;
E\left[\bar{X}^{2}\right] =Var(\bar{X})+[E(\bar{X})]^{2}=\frac{\sigma^{2}}{n}+\mu^{2}

Weiterhin ist unter Berücksichtigung dieser Resultate:

E\left[  \sum\limits_{i=1}^{n}(X_{i}-\bar{X})^{2}\right] =E\left[\sum\limits_{i=1}^{n}X_{i}^{2}-2\cdot \bar{X}\sum\limits_{i=1}^{n}X_{i}+n\cdot \bar{X}^{2}\right]=E\left[\sum\limits_{i=1}^{n}X_{i}^{2}-2\cdot n\cdot \bar{X}^{2}+n\cdot \bar{X}^{2}\right]
=E\left[  \sum\limits_{i=1}^{n}X_{i}^{2}-n\cdot \bar{X}^{2}\right]  =E\left[\sum\limits_{i=1}^{n}X_{i}^{2}\right]-E\left[n\cdot \bar{X}^{2}\right]
=\sum\limits_{i=1}^{n}E\left[X_{i}^{2}\right]-n\cdot E\left[\bar{X}^{2}\right]=\sum\limits_{i=1}^{n}(\sigma^{2}+\mu^{2})-n\cdot \left(\frac{\sigma^{2}}{n}+\mu^{2}\right)
=n\cdot \sigma^{2}+n\cdot \mu^{2}-\sigma^{2}-n\cdot \mu^{2}
=(n-1)\cdot \sigma^{2}

Somit erhält man für den Erwartungswert der Stichprobenvarianz S^{2}\;:


E\left[S^{2}\right] = E \left[ \frac{1}{n-1}\cdot \sum\limits_{i=1}^{n}(X_{i}-\bar{X})^{2}\right]=\frac{1}{n-1}\cdot  E \left[ \sum\limits_{i=1}^n(X_{i}-\bar{X})^{2}\right]=\frac{1}{n-1}\cdot (n-1)\cdot \sigma^{2}=\sigma^{2}

Herleitung der Varianz der Stichprobenvarianz

Bei bekanntem Erwartungswert in der Grundgesamtheit

Bei bekanntem Erwartungswert der Grundgesamtheit \mu ist die Stichprobenvarianz gegeben durch

S^{*2}=\frac{1}{n}\cdot \sum\limits_{i=1}^{n}(X_{i}-\mu)^{2}

Die Varianz einer Chi-Quadrat-verteilten Zufallsvariable mit dem Parameter f ist 2\cdot f.

Da \frac{n\cdot S^{*2}}{\sigma^{4}} einer Chi-Quadrat-Verteilung mit dem Parameter f = n folgt, ergibt sich:

Var\left(  \frac{n\cdot S^{*2}}{\sigma^{4}}\right)  =\frac{n^{2}}{\sigma^{4}}\cdot Var(S^{*2})=2\cdot n

und damit

Var(S^{*2})=\frac{2\sigma^{4}}{n}

Bei unbekanntem Erwartungswert in der Grundgesamtheit

Bei unbekanntem Erwartungswert der Grundgesamtheit \mu ist die Stichprobenvarianz gegeben durch

S^{2}=\frac{1}{n-1}\cdot \sum\limits_{i=1}^{n}(X_{i}-\bar{X})^{2}

Da \frac{(n-1)\cdot S^{2}}{\sigma^{2}} einer Chi-Quadrat-Verteilung mit dem Parameter f = n - 1 folgt, ergibt sich:

Var\left(  \frac{(n-1)\cdot S^{2}}{\sigma^{2}}\right)  =\frac{(n-1)^{2}}{\sigma^{4}}\cdot Var(S^{2})=2\cdot (n-1)

und damit

Var(S^{2})=\frac{2\cdot \sigma^{4}}{n-1}

Analog zur deskriptiven Statistik kann die Stichprobenvarianz auch als

S^{\prime2}=\frac{1}{n}\cdot \sum\limits_{i=1}^{n}(X_{i}-\bar{X})^{2}

definiert werden.

Zur Herleitung des Erwartungswertes S^{\prime2} werden alle vorherigen Zwischenergebnisse verwendet, so dass folgt:

 E\left[S^{\prime2}\right]=E\left[\frac{1}{n}\cdot \sum\limits_{i=1}^{n} (X_{i} - \bar X )^{2} \right] = \frac {1}{n}\cdot E \left[\sum\limits_{i=1}^{n} (X_{i} - \bar X )^{2} \right] = \frac{n-1}{n}\cdot \sigma^{2}

Der Erwartungswert dieser Stichprobenvarianz S^{\prime2} ist nicht gleich der Varianz der Grundgesamtheit.

Dies ist der Grund dafür, dass sie in der induktiven Statistik weniger Anwendung findet.