Chi-Quadrat-Anpassungstest/Zusatzinformationen

Aus MM*Stat

Wechseln zu: Navigation, Suche

Zusatzinformationen

Notwendigkeit der Klassierung bei stetigen Zufallsvariablen

Das dem Chi-Quadrat-Anpassungstest zugrundeliegende Hypothesenpaar enthält die Wahrscheinlichkeiten , die aus der hypothetischen Verteilung zu bestimmen sind.

Ist eine diskrete Zufallsvariable, erhält man aus der vorgegebenen Wahrscheinlichkeitsfunktion.

Für eine stetige Zufallsvariable ist die Wahrscheinlichkeit, dass einen bestimmten Wert annimmt, jedoch stets Null.

Daraus folgt die Notwendigkeit einer Klassierung der beobachteten Werte. Die Wahrscheinlichkeit , dass die stetige Zufallsvariable einen Wert aus der Klasse annimmt, kann dann mittels der vorgegebenen Verteilungsfunktion bestimmt werden.

Es sei jedoch angemerkt, dass auch für eine diskrete Zufallsvariable eine Klassierung vorgenommen werden kann, falls es die Problemstellung erfordert.

Herleitung der Teststatistik des Chi-Quadrat-Anpassungstests

Die Tatsache, dass die beobachteten absoluten Häufigkeiten Zufallsvariablen sind, lässt sich wie folgt zeigen, wobei es keine Rolle spielt, ob diskret oder stetig ist, so dass nur auf eine diskrete Zufallsvariable Bezug genommen wird.

Aus der Grundgesamtheit wird ein Element zufällig gezogen und festgestellt, ob der Wert aufgetreten ist, d.h. ob das Ereignis eingetreten ist oder nicht.

Es gibt somit nur zwei mögliche Ergebnisse des Zufallsexperimentes. Die Wahrscheinlichkeit für das Eintreten des Ereignisses beträgt bei Gültigkeit der Nullhypothese und die Wahrscheinlichkeit für das Nichteintreten .

Das Zufallsexperiment wird -mal wiederholt, wobei die einzelnen Versuche unabhängig voneinander (da eine einfache Zufallsstichprobe vorausgesetzt wird) und die Wahrscheinlichkeiten konstant sind. Es liegt somit ein Bernoulli-Experiment vor.

Bei -maliger Durchführung der Versuche interessiert die Gesamtzahl des Eintretens von , d.h. die absolute Häufigkeit von in der Stichprobe.

Diese Häufigkeit kann von Stichprobe zu Stichprobe unterschiedlich sein, so dass Anzahl des Auftretens von in einer einfachen Zufallsstichprobe vom Umfang eine diskrete Zufallsvariable ist, die die Werte annehmen kann.

Die Zufallsvariable ist binomialverteilt und zwar bei Gültigkeit von mit den Parametern und .

Der Erwartungswert von ist und damit die bei Gültigkeit der erwartete absolute Häufigkeit des Wertes in der Stichprobe.

Die Variation der absoluten Häufigkeiten für wird durch die Varianz erfasst.

Für die Konstruktion der Teststatistik wird die Abweichung der Zufallsvariablen von ihrem Erwartungswert gebildet: .

Zur Vermeidung, dass sich positive und negative Abweichungen aufheben, erfolgt eine Quadrierung: .

Mit der Division durch die erwartete Häufigkeit wird der Einfluss des Stichprobenumfanges und der Wahrscheinlichkeit berücksichtigt und der unterschiedlichen Bedeutung der Abweichungen Rechnung getragen.

Eine Differenz fällt bei stärker ins Gewicht als bei .

Diese Herleitung gilt für alle gleichermaßen

Da die Zufallsvariablen sind, ist auch eine Zufallsvariable. Bei Gültigkeit der Nullhypothese, hinreichend großem Stichprobenumfang und Einhaltung der Approximationsbedingungen ist die Teststatistik approximativ Chi-Quadrat-verteilt mit Freiheitsgraden.

Dies gilt unabhängig davon, welche Verteilung unter angenommen wurde.

Sind die Approximationsbedingungen nicht erfüllt, müssen vor der Anwendung des Tests benachbarte Werte bzw. Klassen zusammengefasst werden, was dann auch im diskreten Fall mit einer Klassierung verbunden ist.

Bei der Ermittlung der Freiheitsgrade ist zu berücksichtigen, dass ein Freiheitsgrad grundsätzlich verloren geht, weil die beobachteten absoluten Häufigkeiten nicht unabhängig voneinander sind.

Für vorgegebenen Stichprobenumfang und aufgrund der Bedingung folgt, dass jede Häufigkeit durch die anderen Häufigkeiten bestimmt ist.

Weitere Freiheitsgrade gehen verloren, wenn die hypothetische Verteilung nicht mit allen ihren Parametern bekannt ist, sondern diese Parameter aus der Stichprobe geschätzt werden müssen.

Mit als Anzahl der zu schätzenden Parameter ergibt sich die Anzahl der Freiheitsgrade zu: .