Bestimmung des Stichprobenumfangs

Die Länge eines Konfidenzintervalls hängt neben dem Konfidenzniveau $1-\alpha$ in der Regel auch vom Stichprobenumfang $n$ ab.

Hält man den Stichprobenumfang $n$ konstant, dann führt eine Erhöhung des Konfidenzniveaus $1-\alpha$ unter sonst gleichen Bedingungen zu einem breiteren Konfidenzintervall.

Größere Sicherheit, dass der unbekannte Wert des Parameters $\vartheta$ in dem v liegt, ist somit mit einer unpräziseren Aussage über seine Lage verbunden.

Hält man das Konfidenzniveau $1-\alpha$ konstant, dann führt eine Vergrößerung des Stichprobenumfangs $n$ unter sonst gleichen Bedingungen zu einer kleineren Länge des Konfidenzintervalls, d.h. es wird schmaler, womit die Präzision der Aussage erhöht wird.

Das ist auch intuitiv einleuchtend, da in einer Stichprobe größeren Umfangs auch mehr Information über die Grundgesamtheit enthalten ist.

Im Zusammenspiel von Konfidenzniveau und Stichprobenumfang lässt sich somit eine Steuerung für das Konfidenzintervall erreichen.

Bisher wurde davon ausgegangen, dass für die Bestimmung eines Konfidenzintervalls für den unbekannten Parameter $\vartheta$ sowohl das Konfidenzniveau $1-\alpha$ als auch der Stichprobenumfang $n$ vorgegeben wurden.

Bei vielen praktischen Anwendungen ist jedoch eine Intervallschätzung mit vorgegebener Sicherheit und vorgegebener Genauigkeit erforderlich, d.h. es wird das Konfidenzniveau $1-\alpha$ und die Länge des Konfidenzintervalls vorgegeben.

Die daraus resultierende Frage ist:

Wie groß muss der Stichprobenumfang gewählt werden, um beide vorgegebenen Bedingungen einzuhalten?

Diese Problemstellung soll anhand des Konfidenzintervalls für den Erwartungswert $\mu$ und für den Anteilswert $\pi$ dargelegt werden.

Eingeschränkt wird die Betrachtung auf einfache Zufallsstichproben bzw. auf den Fall, dass der Umfang der Grundgesamtheit genügend groß ist, dass von der Realisierung einer einfachen Zufallsstichprobe ausgegangen werden kann.

Konfidenzintervall für den Erwartungswert bei bekannter Varianz

Vorausgesetzt wird eine normalverteilte Grundgesamtheit.

Eine exakte Ermittlung des notwendigen Stichprobenumfanges ist nur möglich, wenn die Länge des Konfidenzintervalls keine Zufallsvariable ist, d.h. nicht von den Stichprobenergebnissen abhängt.

Das ist nur bei bekannter Varianz $\sigma ^{2}$ der Grundgesamtheit bzw. begründeten Annahmen über $\sigma ^{2}$ gegeben.

In diesem Fall hängt die Länge des Konfidenzintervalls für $\mu$

$l=2\cdot e=2\cdot z_{1-{\frac {\alpha }{2}}}\cdot {\frac {\sigma }{\sqrt {n}}}$

vom Konfidenzniveau $1-\alpha$ und vom Stichprobenumfang $n$ , jedoch nicht vom Stichprobenergebnis ab.

Werden die Länge $l$ (bzw. der Schätzfehler $e$ ) und das Konfidenzniveau $1-\alpha$ vorgegeben, ist der gesuchte Stichprobenumfang $n$ die kleinste ganze Zahl, die die Bedingung

$n\geq {\frac {4\cdot \sigma ^{2}\cdot z_{1-{\frac {\alpha }{2}}}^{2}}{l^{2}}}={\frac {\sigma ^{2}\cdot z_{1-{\frac {\alpha }{2}}}^{2}}{e^{2}}}$

erfüllt. Um ein Konfidenzintervall mit der geforderten Länge $l$ und dem Konfidenzniveau $1-\alpha$ zu erhalten, muss $n$ also mindestens die angegebene Größe aufweisen.

Konfidenzintervall für den Erwartungswert bei unbekannter Varianz

Vorausgesetzt wird eine normalverteilte Grundgesamtheit.

Bei unbekannter Varianz $\sigma ^{2}$ der Grundgesamtheit hängt die Länge des Konfidenzintervalls für $\mu$

$L=2\cdot e=2\cdot t_{n-1;1-{\frac {\alpha }{2}}}\cdot {\frac {S}{\sqrt {n}}}$

über die Standardabweichung $S\;$ auch vom Stichprobenergebnis ab.

Des weiteren ist zum Auffinden von $t_{n-1;1-{\frac {\alpha }{2}}}$ aus der Tabelle der t-Verteilung neben dem Konfidenzniveau $1-\alpha$ auch die Anzahl der Freiheitsgrade $n-1$ und damit der Stichprobenumfang $n$ erforderlich.

Zur Bestimmung des notwendigen Stichprobenumfanges $n$ bei vorgegebener Länge $l$ und vorgegebenem Konfidenzniveau $1-\alpha$ gibt es mehrstufige bzw. sequentielle Verfahren.

Konfidenzintervall für Anteilswert

Sofern eine Approximation durch die Normalverteilung möglich ist, ergab sich die Länge des Konfidenzintervalls für $\pi$ zu

$L=2\cdot z_{1-{\frac {\alpha }{2}}}\cdot {\sqrt {\frac {{\widehat {\pi }}(1-{\widehat {\pi }})}{n}}}$ ,

woraus man durch einfache Umformungen erhält:

$n\geq {\frac {4\cdot z_{1-{\frac {\alpha }{2}}}^{2}\cdot {\widehat {\pi }}\cdot (1-{\widehat {\pi }})}{l^{2}}}={\frac {z_{1-{\frac {\alpha }{2}}}^{2}\cdot {\widehat {\pi }}\cdot (1-{\widehat {\pi }})}{e^{2}}}$

Bei Vorgabe einer geforderten Länge $l$ des Konfidenzintervalls bzw. eines Schätzfehlers $e$ und Vorgabe des Konfidenzniveaus $1-\alpha$ tritt trotzdem ein gravierendes Problem auf:

Der zu berechnende Stichprobenumfang $n$ ist über ${\widehat {\pi }}$ vom Stichprobenergebnis abhängig, das aber noch nicht vorliegen kann, da der Stichprobenumfang vorher bestimmt werden soll.

Es gibt grundsätzlich zwei Möglichkeiten, zu einer Abschätzung von $n$ zu gelangen:

${\widehat {\pi }}$ wird durch das Ergebnis $p$ einer Vorstichprobe bzw. aus einer früheren Erhebung ersetzt.

Es wird von dem Anteilswert $\pi$ ausgegangen, für den das Produkt $\pi \cdot (1-\pi )$ maximal wird.

Das ist für

\pi =0,5

und

1-\pi =0,5

der Fall. Für die Festsetzung des Stichprobenumfanges ist dies der ungünstigste Fall, denn für jeden anderen Wert von

\pi

würde sich ein kleinerer Stichprobenumfang ergeben.

Damit folgt, dass der gesuchte Stichprobenumfang

n

die kleinste ganze Zahl ist, die die Bedingung

n\geq {\frac {4\cdot z_{1-{\frac {\alpha }{2}}}^{2}\cdot {\frac {1}{2}}\cdot {\frac {1}{2}}}{l^{2}}}={\frac {z^{2}}{l}}={\frac {z^{2}}{4e^{2}}}

erfüllt. Um ein Konfidenzintervall mit der geforderten Länge

l

und dem Konfidenzniveau

1-\alpha

zu erhalten, muss

n

mindestens die angegebene Größe aufweisen.

Es ist darüber hinaus jedoch darauf zu achten, dass der Stichprobenumfang

n

stets so groß gewählt wird, dass die Approximationsbedingung für eine Normalverteilung erfüllt ist.

Beispiele

Zugverspätungen

Die Bimmelbahn AG will eine Pressemitteilung zur Pünktlichkeit ihrer Züge im gegenwärtigen Quartal herausgeben, die Angaben über die durchschnittliche Dauer der Verspätungen und den Anteil pünktlicher Züge enthalten soll.

Dazu soll jeweils eine Intervallschätzung auf der Basis einer Zufallsstichprobe erfolgen.

Konfidenzintervall für den Erwartungswert

Wie groß muss der Stichprobenumfang gewählt werden, um ein Konfidenzintervall für die im Mittel zu erwartende Dauer der Verspätungen zum Konfidenzniveau von $1-\alpha =0,90$ und einem Schätzfehler von 30 Minuten zu bestimmen?

Dabei wird von der Annahme ausgegangen, dass die Zufallsvariable $X=\;$ "Dauer der Verspätungen" normalverteilt ist mit Erwartungswert $E[X]=\mu$ und Varianz $Var(X)=\sigma ^{2}$ .

Entsprechend der Frage handelt sich um ein Konfidenzintervall für $\mu$ .

Aus der Tabelle der Verteilungsfunktion der Standardnormalverteilung entnimmt man für die vorgegebene Wahrscheinlichkeit von 0,90 den Wert $z_{1-{\frac {\alpha }{2}}}=z_{0,95}=1,645$ .

Da $\sigma ^{2}$ ebenfalls unbekannt ist, wird auf das gleiche Quartal des Vorjahres zurückgegriffen, wofür die Dauer der Verspätung aller Züge vorliegt und unterstellt, dass die dafür errechnete Standardabweichung von $\sigma =68,8$ Minuten auch im gegenwärtigen Quartal zutrifft.

Damit ergibt sich für den notwendigen Stichprobenumfang:

$n\geq {\frac {\sigma ^{2}\cdot z_{1-{\frac {\alpha }{2}}}^{2}}{e^{2}}}={\frac {68,8^{2}\cdot 1,645^{2}}{30^{2}}}=14,23$

Der Stichprobenumfang muss mindestens 15 betragen, um die Vorgaben an das Konfidenzintervall betreffend die Sicherheit und die Genauigkeit einzuhalten.

Konfidenzintervall für den Anteilswert

Wie groß muss der Stichprobenumfang gewählt werden, um ein Konfidenzintervall für den unbekannten Anteil $\pi$ pünktlicher Züge zum Konfidenzniveau von $1-\alpha =0,95$ und einem Schätzfehler von 0,05 zu bestimmen?

Wenn der Stichprobenumfang auf jeden Fall so groß gewählt wird, dass die Approximationsbedingung für eine Normalverteilung erfüllt ist (Faustregel: $n>30$ ), findet man zum vorgegebenen Konfidenzniveau $1-\alpha =0,95$ in der Tabelle der Verteilungsfunktion der Standardnormalverteilung den Wert $z_{1-{\frac {\alpha }{2}}}=z_{0,975}=1,96$ .

Da in der Formel zur Bestimmung von

$n\geq {\frac {4\cdot z_{1-{\frac {\alpha }{2}}}^{2}\cdot {\widehat {\pi }}\cdot (1-{\widehat {\pi }})}{l^{2}}}={\frac {z_{1-{\frac {\alpha }{2}}}^{2}\cdot {\widehat {\pi }}\cdot (1-{\widehat {\pi }})}{e^{2}}}$

${\widehat {\pi }}$ unbekannt ist, wäre es naheliegend, wie bei Frage 1 das Ergebnis des gleichen Quartals des Vorjahres zu verwenden, in dem der Anteil pünktlicher Züge $\pi =0,867$ betrug.

Aufgrund zahlreicher Baustellen und einiger Unwetter im gegenwärtigen Quartal kann jedoch nicht davon ausgegangen werden, dass dieser Wert gehalten werden kann.

Es wird deshalb der für die Festsetzung des Stichprobenumfanges ungünstigste Fall $\pi =0,5$ gewählt.

Man befindet sich damit hinsichtlich des Stichprobenumfanges immer auf der "sicheren" Seite, denn für jeden anderen Wert von $\pi$ würde sich ein kleinerer Stichprobenumfang ergeben.

Einsetzen der Werte ergibt:

$n\geq {\frac {z^{2}}{4e^{2}}}={\frac {1,96^{2}}{4\cdot 0,05^{2}}}=384,16$

Um die geforderte Sicherheit und Genauigkeit eines Konfidenzintervalls für den unbekannten Anteil $p$ pünktlicher Züge einzuhalten, ist mindestens ein Stichprobenumfang von $n=385$ erforderlich.

5%-Hürde

Der Vorsitzende einer kleinen Partei will unbedingt wissen, ob seine Partei bei der bevorstehenden Wahl die 5% Hürde überspringen wird.

Er vereinbart daher einen Termin mit einem Statistiker, um einen Auftrag für eine Wählerbefragung zu besprechen.

Bei dem Dialog weist der Statistiker auf folgende wichtige Punkte hin:

Um den genauen Stimmenanteil zu erhalten, müsste man alle Wähler (d.h. alle Personen der Grundgesamtheit) befragen.

Der Stimmenanteil in einer Stichprobe erlaubt nur einen unsicheren Rückschluss auf den Stimmenanteil in der Grundgesamtheit.

Ein Konfidenzintervall erlaubt einen Rückschluss mit "kontrollierter Unsicherheit" (Länge, Konfidenzniveau)

Länge und Sicherheitswahrscheinlichkeit können vom Anwender (dem Politiker) vorgegeben werden.

Je geringer die Länge und je höher die Sicherheitswahrscheinlichkeit, desto höher der benötigte Stichprobenumfang.

Auf Grund der Vorgaben des Politikers berechnet der Statistiker den nötigen Stichprobenumfang mit Hilfe der Formel

$n\geq {\frac {4\cdot z_{1-{\frac {\alpha }{2}}}^{2}\cdot {\widehat {\pi }}\cdot (1-{\widehat {\pi }})}{l^{2}}}={\frac {z_{1-{\frac {\alpha }{2}}}^{2}\cdot {\widehat {\pi }}\cdot (1-{\widehat {\pi }})}{e^{2}}}$

Da ${\widehat {\pi }}$ unbekannt ist, verwendet der Statistiker den - nach Einschätzung des Politikers - höchsten zu erwartenden Stimmenanteil (10%).

Mit diesem Vorgehen ist der Statistiker "auf der sicheren Seite", denn der auf Basis von 10% errechnete Stichprobenumfang ist mehr als groß genug, um die vorgegebene Breite und Sicherheitswahrscheinlichkeit einzuhalten, wenn ${\widehat {\pi }}$ kleiner als 10% ist.

Bestimmung des Stichprobenumfangs

Aus MM*Stat

Inhaltsverzeichnis

Grundbegriffe