Konfidenzintervall für den Anteilswert
Aus MM*Stat
Grundbegriffe
Konfidenzintervall für den Anteilswert
Vorausgesetzt wird eine dichotome Grundgesamtheit, in der ein unbekannter Anteil von Elementen eine Eigenschaft aufweist und ein Anteil diese Eigenschaft nicht besitzt.
Es soll eine Intervallschätzung für durchgeführt, d.h. ein Konfidenzintervall für den unbekannten Anteilswert der Grundgesamtheit konstruiert werden.
Aus dieser Grundgesamtheit wird eine einfache Zufallsstichprobe vom Umfang gezogen, so dass die Stichprobenvariablen unabhängig und identisch Bernoulli-verteilt sind (siehe im Abschnitt Binomialverteilung).
Es wurde bereits gezeigt, dass der Stichprobenanteilswert
mit dem Erwartungswert
und der Varianz
eine erwartungstreue und konsistente Schätzfunktion für ist (siehe Abschnitt Eigenschaften von Schätzfunktionen).
Da für kleine Stichprobenumfänge die Konstruktion von Konfidenzintervallen sehr aufwendig ist, wird hier nur die Situation betrachtet, dass der Stichprobenumfang hinreichend groß ist, so dass die standardisierte Zufallsvariable
aufgrund des zentralen Grenzwertsatzes approximativ standardnormalverteilt ist: .
Somit gilt die Wahrscheinlichkeitsaussage
wobei man aus der Verteilungsfunktion der Standardnormalverteilung zur vorgegebenen Wahrscheinlichkeit erhält.
Hieraus lässt sich noch kein geeignetes Konfidenzintervall für gewinnen, denn bei unbekanntem ist auch die Varianz der Schätzfunktion unbekannt.
Diese Varianz muss ebenfalls aus der Stichprobe geschätzt werden.
Ersetzt man in den unbekannten Anteilswert durch die Schätzfunktion , dann erhält man eine konsistente Schätzfunktion für die Varianz von :
Aus
lässt sich nunmehr durch elementare Umformungen das Konfidenzniveau herleiten:
Damit ist für sehr große Stichprobenumfänge ein approximatives Konfidenzintervall für den unbekannten Anteilswert einer dichotomen Grundgesamtheit gegeben durch
Für eine ausreichende Approximation an die Normalverteilung muss der Stichprobenumfang sein, sollte jedoch möglichst größer gewählt werden, etwa .
Für eine konkrete Stichprobe erhält man das Schätzintervall
,
worin die relative Häufigkeit des Auftretens von Elementen mit der Eigenschaft in der Stichprobe und deren Anzahl in der Stichprobe sind.
Zusatzinformationen
Charakteristika des Konfidenzintervalls
- Das Konfidenzintervall ist ein bezüglich der Wahrscheinlichkeit symmetrisches Intervall.
- Das Konfidenzintervall ist symmetrisch bezüglich der Punktschätzung. Die Grenzen des Intervalls haben zu den gleichen Abstand.
- Die Länge des Konfidenzintervalls und der Schätzfehler
- sind Zufallsvariablen, da sie über vom Stichprobenergebnis abhängen.
- Die Länge des Konfidenzintervalls und der Schätzfehler hängen weiterhin vom vorgegebenen Konfidenzniveau und vom Stichprobenumfang ab.
Information zur Schätzung der Varianz des Anteilswertes
Die Varianz der Schätzfunktion
ist unbekannt, da sie den unbekannten Anteilswert enthält.
Diese Varianz muss ebenfalls aus der Stichprobe geschätzt werden, indem durch den Schätzer ersetzt wird.
Die Rechtfertigung für die Substituierung ist durch die Tatsache gegeben, dass der Erwartungswert von mit größer werdendem Stichprobenumfang gegen strebt:
Dies lässt sich in der folgenden Weise zeigen. Es ist zunächst
Aufgrund des Verschiebungssatzes gilt
und somit .
als die Anzahl des Eintretens von in der Stichprobe ist binomialverteilt mit und
, so dass folgt:
Diese Ergebnisse werden für die weitere Herleitung genutzt:
Für geht gegen 1, so dass gilt:
Beispiele
Sonntagsfrage
Der Generalsekretär der Partei F möchte wegen der 5%-Klausel wissen, wie die Chancen seiner Partei sind, bei der nächsten Wahl in den Bundestag einzuziehen.
Er beauftragt ein Meinungsforschungsinstitut mit einer Umfrage. Dieses Meinungsforschungsinstitut wählt zufällig wahlberechtigte Bürger aus und stellt ihnen die Frage:
"Wenn am kommenden Sonntag Bundestagswahl wäre, welcher Partei würden sie ihre Stimme geben?"
Im Ergebnis der Umfrage entschieden sich 103 Befragte für die Partei F.
Auf einem Konfidenzniveau von soll ein Konfidenzintervall für den Anteil der Wähler der Partei F bestimmt werden.
Aus statistischer Sicht ergeben sich folgende Überlegungen:
- Damit gesichert ist, dass ein bereits befragter Bürger nicht noch einmal ausgewählt wird, wird das Zufallsauswahlmodell ohne Zurücklegen angewandt. Bei der Stichprobe handelt es sich um eine uneingeschränkte Zufallsstichprobe.
- Da die Grundgesamtheit aller wahlberechtigten Bürger jedoch sehr groß ist, spielt die Tatsache, dass ohne Zurücklegen gezogen wird, keine Rolle, denn die Verteilung in der Grundgesamtheit verändert sich dadurch kaum. Die Stichprobe kann somit als eine einfache Zufallsstichprobe angesehen werden.
- Da das Interesse auf die Partei F gerichtet ist, wird das Ereignis als "Wähle die Partei F" und das Komplementärereignis als "Wähle nicht die Partei F" definiert.
- Es gibt somit nur zwei mögliche Ereignisse bei der Befragung. Die Grundgesamtheit ist dichotom. Der Anteil der Wähler der Partei F in der Grundgesamtheit ist .
- Aufgrund des großen Stichprobenumfangs kann ein approximatives Konfidenzintervall gemäß
- berechnet werden, das näherungsweise das Konfidenzniveau von aufweist.
- Aus der Tabelle der Verteilungsfunktion der Standardnormalverteilung findet man für den Wert .
Mit dem Ergebnis der Stichprobe ergibt sich ein Stichprobenanteilswert von
und ein Schätzintervall von
Das Schätzintervall überdeckt die 5%, die zum Einzug einer Partei in den Bundestag erforderlich sind.
Bei einem näherungsweisen Konfidenzniveau von 95% ist nicht gesichert, dass die Partei F im nächsten Bundestag vertreten sein wird.