Chi-Quadrat-Anpassungstest/Zusatzinformationen

Aus MM*Stat

Wechseln zu: Navigation, Suche

Zusatzinformationen

Notwendigkeit der Klassierung bei stetigen Zufallsvariablen

Das dem Chi-Quadrat-Anpassungstest zugrundeliegende Hypothesenpaar enthält die Wahrscheinlichkeiten p_{j}\left(j=1,\ldots ,k\right), die aus der hypothetischen Verteilung zu bestimmen sind.

Ist X\; eine diskrete Zufallsvariable, erhält man p_{j}=P\left(X=x_{j}|H_{0}\right) aus der vorgegebenen Wahrscheinlichkeitsfunktion.

Für eine stetige Zufallsvariable X\, ist die Wahrscheinlichkeit, dass X\; einen bestimmten Wert x annimmt, jedoch stets Null.

Daraus folgt die Notwendigkeit einer Klassierung der beobachteten Werte. Die Wahrscheinlichkeit p_{j}=P\left(x_{j-1}^*<X\leq x_{j}^*|H_{0}\right), dass die stetige Zufallsvariable X\; einen Wert aus der Klasse \left(x_{j-1}^*,x_{j}^*\right) annimmt, kann dann mittels der vorgegebenen Verteilungsfunktion bestimmt werden.

Es sei jedoch angemerkt, dass auch für eine diskrete Zufallsvariable eine Klassierung vorgenommen werden kann, falls es die Problemstellung erfordert.

Herleitung der Teststatistik des Chi-Quadrat-Anpassungstests

Die Tatsache, dass die beobachteten absoluten Häufigkeiten h_{j} Zufallsvariablen H_{j} sind, lässt sich wie folgt zeigen, wobei es keine Rolle spielt, ob X\; diskret oder stetig ist, so dass nur auf eine diskrete Zufallsvariable X\; Bezug genommen wird.

Aus der Grundgesamtheit wird ein Element zufällig gezogen und festgestellt, ob der Wert x_{j} aufgetreten ist, d.h. ob das Ereignis \{X = x_{j}\} eingetreten ist oder nicht.

Es gibt somit nur zwei mögliche Ergebnisse des Zufallsexperimentes. Die Wahrscheinlichkeit für das Eintreten des Ereignisses \{X =x_{j}\} beträgt bei Gültigkeit der Nullhypothese p_{j} und die Wahrscheinlichkeit für das Nichteintreten 1 - p_{j}.

Das Zufallsexperiment wird n-mal wiederholt, wobei die einzelnen Versuche unabhängig voneinander (da eine einfache Zufallsstichprobe vorausgesetzt wird) und die Wahrscheinlichkeiten konstant sind. Es liegt somit ein Bernoulli-Experiment vor.

Bei n-maliger Durchführung der Versuche interessiert die Gesamtzahl des Eintretens von {\left\{X=x_{j}\right\}}, d.h. die absolute Häufigkeit von x_{j} in der Stichprobe.

Diese Häufigkeit kann von Stichprobe zu Stichprobe unterschiedlich sein, so dass H_{j}: = \{Anzahl des Auftretens von X=x_{j} in einer einfachen Zufallsstichprobe vom Umfang n \} eine diskrete Zufallsvariable ist, die die Werte 0,\ldots ,n annehmen kann.

Die Zufallsvariable H_{j}\; ist binomialverteilt und zwar bei Gültigkeit von H_{0} mit den Parametern n und p_j : H_j \sim B(n;p_j)\;.

Der Erwartungswert von H_{j}\; ist E\left[H_{j}\right]=n\cdot p_{j} und damit die bei Gültigkeit der H_{0} erwartete absolute Häufigkeit des Wertes \left\{X=x_{j}\right\} in der Stichprobe.

Die Variation der absoluten Häufigkeiten für \left\{X=x_{j}\right\} wird durch die Varianz Var\left( H_{j}\right)=np_{j}\left( 1-p_{j}\right) erfasst.

Für die Konstruktion der Teststatistik wird die Abweichung der Zufallsvariablen von ihrem Erwartungswert gebildet: H_{j}-n\cdot p_{j}.

Zur Vermeidung, dass sich positive und negative Abweichungen aufheben, erfolgt eine Quadrierung: \left(H_{j}-n\cdot p_{j}\right)^{2}.

Mit der Division durch die erwartete Häufigkeit n\cdot p_j wird der Einfluss des Stichprobenumfanges n und der Wahrscheinlichkeit p_{j} berücksichtigt und der unterschiedlichen Bedeutung der Abweichungen Rechnung getragen.

Eine Differenz h_{j}-n\cdot p_{j}=5 fällt bei n\cdot p_{j}=10 stärker ins Gewicht als bei n\cdot p_{j}=100.

Diese Herleitung gilt für alle j=1,\ldots ,k gleichermaßen

V=\sum_{j=1}^{k}\frac{\left(H_{j}-n\cdot p_{j}\right)^{2}}{n\cdot p_{j}}

Da die H_{j}\; Zufallsvariablen sind, ist auch V\; eine Zufallsvariable. Bei Gültigkeit der Nullhypothese, hinreichend großem Stichprobenumfang n und Einhaltung der Approximationsbedingungen ist die Teststatistik V\; approximativ Chi-Quadrat-verteilt mit f = k - m - 1 Freiheitsgraden.

Dies gilt unabhängig davon, welche Verteilung unter H_{0} angenommen wurde.

Sind die Approximationsbedingungen nicht erfüllt, müssen vor der Anwendung des Tests benachbarte Werte bzw. Klassen zusammengefasst werden, was dann auch im diskreten Fall mit einer Klassierung verbunden ist.

Bei der Ermittlung der Freiheitsgrade ist zu berücksichtigen, dass ein Freiheitsgrad grundsätzlich verloren geht, weil die beobachteten absoluten Häufigkeiten nicht unabhängig voneinander sind.

Für vorgegebenen Stichprobenumfang n und aufgrund der Bedingung \sum\nolimits_{j}h_{j}=n folgt, dass jede Häufigkeit h_{j} durch die anderen k - 1 Häufigkeiten bestimmt ist.

Weitere Freiheitsgrade gehen verloren, wenn die hypothetische Verteilung F_{0}\left( x\right) nicht mit allen ihren Parametern bekannt ist, sondern diese Parameter aus der Stichprobe geschätzt werden müssen.

Mit m als Anzahl der zu schätzenden Parameter ergibt sich die Anzahl der Freiheitsgrade zu: f = k - m - 1.