Chi-Quadrat-Unabhängigkeitstest/Herleitung der Teststatistik

Aus MM*Stat

Wechseln zu: Navigation, Suche

Herleitung des Chi-Quadrat-Unabhängigkeitstests

Hypothesen

Die generelle Vorgehensweise bei Unabhängigkeitstests ist im Prinzip wie bei den Parametertests. Es wird eine Teststatistik konstruiert, die die Informationen bei Gültigkeit der Nullhypothese sowie die Informationen aus der Zufallsstichprobe enthält und auf deren Basis eine Aussage über die Nullhypothese möglich ist.

Die Verteilung der Teststatistik muss unter der Nullhypothese (zumindest approximativ) bekannt sein.

Auch bei Unabhängigkeitstests wird stets die Nullhypothese statistisch geprüft und in Abhängigkeit von der Testentscheidung besteht die Möglichkeit, einen Fehler 1. Art mit der Wahrscheinlichkeit P\left(\mbox{''}H_{1}\mbox{''}|H_{0}\right)=\alpha bzw. einen Fehler 2. Art mit der Wahrscheinlichkeit P\left(\mbox{''}H_{0}\mbox{''}|H_{1}\right)=\beta zu begehen.

Mit dem vorgegebenen Signifikanzniveau kann die Wahrscheinlichkeit eines Fehlers 1. Art niedrig gehalten werden; die Wahrscheinlichkeit eines Fehlers 2. Art ist dagegen in der Regel nicht bekannt.

Man wird deshalb bestrebt sein, die Nullhypothese abzulehnen, da dann die statistische Sicherheit einer Fehlentscheidung bekannt ist.

Wenn die Zufallsvariablen X\; und Y\; in der Grundgesamtheit wirklich unabhängig sind, dann ist zu erwarten, dass diese Tatsache im Prinzip auch in der Stichprobe zu beobachten ist.

Im Prinzip bedeutet dabei, dass Abweichungen zwischen den beobachteten gemeinsamen absoluten Häufigkeiten h_{kj} und den bei Unabhängigkeit erwarteten gemeinsamen absoluten Häufigkeiten e_{kj} in der Regel immer auftreten werden.

Zu entscheiden ist, ob die Abweichungen noch zufallsbedingt sind oder ob es sich um signifikante Abweichungen handelt.

Da stets die Nullhypothese statistisch geprüft wird, muss die Unabhängigkeit zwischen X\; und Y\; immer als H_{0} formuliert werden, um die erwarteten absoluten Häufigkeiten ermitteln zu können.

Große Abweichungen zwischen beobachteten gemeinsamen absoluten Häufigkeiten h_{kj} und den bei Unabhängigkeit erwarteten gemeinsamen absoluten Häufigkeiten e_{kj} sprechen tendenziell gegen die Unabhängigkeit, d.h. man wird die Nullhypothese ablehnen.

Das dem Chi-Quadrat-Unabhängigkeitstest zugrunde liegende Hypothesenpaar enthält die Wahrscheinlichkeiten p_{kj}, p_{k\bullet }, und p_{\bullet j} (k=1,\ldots ,K;\;j=1,\ldots J).

Sind X\; und Y\; diskrete Zufallsvariablen, beinhalten diese Wahrscheinlichkeiten, dass X\; und Y\; genau eine mögliche Realisation annehmen:

p_{kj}=P\left(\left\{X=x_{k}\right\}\cap\left\{ Y=y_{j}\right\}\right)

p_{k\bullet }=P\left( \left\{ X=x_{k}\right\} \right),\quad p_{\bullet j}=P\left( \left\{ Y=y_{j}\right\} \right)

Für eine stetige Zufallsvariable ist die Wahrscheinlichkeit, dass sie einen bestimmten Wert annimmt, jedoch stets Null. Daraus folgt die Notwendigkeit einer Intervallbildung der beobachteten Werte.

Es bedeuten im stetigen Fall:

p_{kj} die Wahrscheinlichkeit, dass die Zufallsvariable X\; einen Wert aus der Klasse \left( x_{k-1}^{*},x_{k}^{*}\right) und die Zufallsvariable Y\; einen Wert aus der Klasse \left(y_{j-1}^{*},y_{j}^{*}\right) annimmt;

p_{k\bullet} die Wahrscheinlichkeit, dass die Zufallsvariable X\; einen Wert aus der Klasse \left( x_{k-1}^{*},x_{k}^{*}\right) annimmt (Randwahrscheinlichkeit von X\;) und

p_{\bullet j} die Wahrscheinlichkeit, dass die Zufallsvariable Y\; einen Wert aus der Klasse \left( y_{j-1}^{*},y_{j}^{*}\right) annimmt (Randwahrscheinlichkeit von Y\;):

p_{kj}=P\left( \left\{ x_{k-1}^{*}<X\leq x_{k}^{*}\right\}\cap\left\{y_{j-1}^{*}<Y\leq y_{j}^{*}\right\}\right),

p_{k\bullet}=P\left( x_{k-1}^{*}<X\leq x_{k}^{*}\right),\quad p_{\bullet j}=P\left( y_{j-1}^{*}<Y\leq y_{j}^{*}\right)

Um diese Darstellung zu vereinfachen und mit dem diskreten Fall zu vereinheitlichen, werden statt der Klassen repräsentative Klassenwerte (im Allgemeinen die Klassenmitten) x_{k},\left(k=1, \ldots K\right) und y_{j},\; \left( j=1, \ldots J\right) verwendet. K und J sind die Anzahlen der jeweils gebildeten Klassen.

Es sei jedoch angemerkt, dass auch für eine diskrete Zufallsvariable eine Klassenbildung vorgenommen werden kann, falls es die Problemstellung erfordert.

Teststatistik

Die Tatsache, dass die beobachteten gemeinsamen absoluten Häufigkeiten Zufallsvariablen H_{kj}\; sind, lässt sich wie folgt zeigen, wobei es keine Rolle spielt, ob X\; und Y\; diskret oder stetig sind, so dass nur auf diskrete Zufallsvariablen Bezug genommen wird.

Aus der Grundgesamtheit wird ein Element zufällig gezogen und festgestellt, ob das Wertepaar \left( x_{k},y_{j}\right) aufgetreten ist, d.h. ob das Ereignis \left\{ X=x_{k}\right\}\cap \left\{ Y=y_{j}\right\} eingetreten ist oder nicht.

Es gibt somit nur zwei mögliche Ergebnisse des Zufallsexperimentes. Die Wahrscheinlichkeit für das Eintreten des Ereignisses \left\{X=x_{k}\right\} \cap \left\{ Y=y_{j}\right\} ist p_{kj} und die Wahrscheinlichkeit für das Nichteintreten 1 - p_{kj}.

Das Zufallsexperiment wird n-mal wiederholt, wobei die einzelnen Versuche unabhängig voneinander (da eine einfache Zufallsstichprobe vorausgesetzt wird) und damit die Wahrscheinlichkeiten p_{kj} konstant sind. Es liegt somit ein Bernoulli-Experiment vor.

Bei n-maliger Durchführung der Versuche interessiert die Gesamtzahl des Eintretens des Ereignisses \left\{ X=x_{k}\right\}\cap \left\{ Y=y_{j}\right\}, d.h. die absolute Häufigkeit des Wertepaares \left( x_{k},y_{j}\right) in der Stichprobe.

Diese Häufigkeit kann von Stichprobe zu Stichprobe unterschiedlich sein, so dass

H_{kj} =\{ \mbox{Anzahl des Auftretens von } \left\{X=x_{k}\right\} \cap \left\{ Y=y_{j}\right\} \mbox{ in einer einfachen Zufallsstichprobe vom Umfang } n\}

eine diskrete Zufallsvariable ist, die die Werte 0,\;\ldots,\; n annehmen kann.

Die Zufallsvariable H_{kj}\; ist binomialverteilt mit den Parametern n und p_{kj}:\; H_{kj}\sim B\left( n;p_{kj}\right).

Der Erwartungswert von H_{kj}\; ist E\left[ H_{kj}\right] =n\cdot p_{kj}.

Bei Gültigkeit der Nullhypothese, d.h. bei stochastischer Unabhängigkeit von X\; und Y\;, ergibt sich nach dem Multiplikationssatz bei Unabhängigkeit, dass die gemeinsame Wahrscheinlichkeit p_{kj} das Produkt der beiden Randwahrscheinlichkeiten p_{k\bullet } und p_{\bullet j} ist, d.h. p_{kj}=p_{k\bullet }\cdot p_{\bullet j}.

Für die bei Unabhängigkeit erwarteten gemeinsamen absoluten Häufigkeiten resultiert:

e_{kj}=n\cdot p_{kj}=n\cdot p_{k\bullet }\cdot p_{\bullet j}.

Diese Herleitung gilt für alle k=1,\ldots ,K und j=1,\ldots J gleichermaßen.

Die Teststatistik basiert auf dem Vergleich der in der Stichprobe beobachteten und der bei Gültigkeit der Nullhypothese erwarteten gemeinsamen absoluten Häufigkeiten, wobei letztere wegen der unbekannten Wahrscheinlichkeiten aus der Stichprobe zu schätzen sind: H_{kj}-\widehat{e}_{kj}.

Damit sich positive und negative Abweichungen nicht aufheben, erfolgt eine Quadrierung: \left( H_{kj}-\widehat{e}_{kj}\right) ^{2}.

Mit der Division durch \widehat{e}_{kj} wird der unterschiedlichen Bedeutung der Abweichungen Rechnung getragen.

Eine Differenz h_{kj}-\widehat{e}_{kj}=5 fällt bei \widehat{e}_{kj}=10 stärker ins Gewicht als bei \widehat{e}_{kj}=100.

Durch die Summation der normierten Abweichungen über alle Paare (k, j) ergibt sich eine Größe für die in der Stichprobe insgesamt enthaltenen Abweichungen, die die adäquate Teststatistik darstellt:

V=\sum_{k=1}^{K}\sum_{j=1}^{J}\frac{\left( H_{kj}-\widehat{e}_{kj}\right)^{2}}{\widehat{e}_{kj}}

Da die H_{kj}\; Zufallsvariablen sind, ist auch V\; eine Zufallsvariable.

Bei Gültigkeit der Nullhypothese, hinreichend großem Stichprobenumfang n und Einhaltung der Approximationsbedingung ist die Teststatistik V\; approximativ Chi-Quadrat-verteilt mit f = (K - 1)\cdot(J - 1) Freiheitsgraden.

Ist die Approximationsbedingung nicht erfüllt, müssen vor der Anwendung des Tests benachbarte Werte bzw. Klassen zusammengefasst werden, was dann auch im diskreten Fall mit einer Klassenbildung verbunden ist.

K und J sind die Anzahl der verbliebenen Werte bzw. Klassen nach einer eventuell notwendigen Zusammenfassung

Anzahl der Freiheitsgrade

Insgesamt sind K\cdot J Wahrscheinlichkeiten p_{kj} in der zweidimensionalen Verteilung der Zufallsvariablen X\; und Y\; enthalten.

Ein Freiheitsgrad geht grundsätzlich verloren, weil die Wahrscheinlichkeiten untereinander nicht unabhängig sind.

Wegen \sum\nolimits_{k}\sum\nolimits_{j}p_{kj}=1 folgt, dass jede Wahrscheinlichkeit p_{kj} durch die anderen K\cdot J - 1 Wahrscheinlichkeiten bestimmt ist.

f = K \cdot J - 1 wäre somit die Anzahl der Freiheitsgrade, wenn sich bei Gültigkeit der Nullhypothese alle Wahrscheinlichkeiten p_{kj} aus den (bekannten) Randwahrscheinlichkeiten gemäß p_{kj}=p_{k\bullet }\cdot p_{\bullet j} bestimmen ließen.

Die Randwahrscheinlichkeiten p_{k\bullet } und p_{\bullet j} sind jedoch unbekannt und müssen aus der Stichprobe geschätzt werden, wodurch sich die Anzahl der Freiheitsgrade weiter verringert.

Die Randverteilung von X\; enthält K Randwahrscheinlichkeiten p_{k\bullet }. Wegen \sum\nolimits_{k}p_{k\bullet }=1 sind nur K - 1 Wahrscheinlichkeiten p_{k\bullet } unbekannt und zu schätzen.

Die Randverteilung von Y\; enthält J Randwahrscheinlichkeiten p_{\bullet j }. Wegen \sum_{j}p_{\bullet j}=1 sind nur J - 1 Wahrscheinlichkeiten p_{\bullet j} unbekannt und zu schätzen.

Insgesamt sind damit (K-1)+(J-1) Randwahrscheinlichkeiten aus der Stichprobe zu schätzen. Somit folgt für die Anzahl der Freiheitsgrade:

f=K\cdot J-1-\left[ \left( K-1\right) +\left( J-1\right) \right]=K\cdot J-K-J+1=\left( K-1\right) \cdot \left( J-1\right)

Da in der Teststatistik die Terme \frac{\left(H_{kj}-\widehat{e}_{kj}\right)^{2}}{\widehat{e}_{kj}} nur positive Werte annehmen können, nimmt die Teststatistik V\; ebenfalls nur positive Werte an.

Große Abweichungen H_{kj}-\widehat{e}_{kj} führen zu großen Werten von V\;.

Somit führen nur große Werte von V\; zur Ablehnung der H_{0}, während kleine Werte von V nicht gegen die Nullhypothese sprechen. Der Chi-Quadrat-Unabhängigkeitstest ist somit ein rechtsseitiger Test.