Chi-Quadrat-Unabhängigkeitstest

Aus MM*Stat

Wechseln zu: Navigation, Suche

Testtheorie

Grundbegriffe der Testtheorie • Entscheidungsbereiche • Entscheidungssituationen • Zweiseitiger Test • Einseitiger Test • Gütefunktion • Test auf Mittelwert • Gauß-Test • Gütefunktion des Gauß-Tests • Einstichproben-t-Test • Test auf Anteilswert • Test auf Differenz zweier Mittelwerte • Zweistichproben-Gauß-Test • Zweistichproben-t-Test • Chi-Quadrat-Anpassungstest • Chi-Quadrat-Unabhängigkeitstest • Multiple Choice • Video • Aufgaben • Lösungen
Ablehnungsbereich der Nullhypothese • alpha-Fehler • Alternativhypothese • Anpassungstest • beta-Fehler • Entscheidungsbereiche (Chi-Quadrat-Anpassungstest) • Entscheidungsbereiche (Chi-Quadrat-Unabhängigkeitstest) • Entscheidungsbereiche (Einstichproben-t-Test) • Entscheidungsbereiche (Gauß-Test) • Entscheidungsbereiche (Test auf Anteilswert) • Entscheidungsbereiche (Zweistichproben-Gauß-Test) • Entscheidungsbereiche (Zweistichproben-t-Test) • Entscheidungssituationen (Chi-Quadrat-Anpassungstest) • Entscheidungssituationen (Chi-Quadrat-Unabhängigkeitstest) • Entscheidungssituationen (Einstichproben-t-Test) • Entscheidungssituationen (Gauß-Test) • Entscheidungssituationen (Test auf Anteilswert) • Entscheidungssituationen (Zweistichproben-Gauß-Test) • Entscheidungssituationen (Zweistichproben-t-Test) • Fehler 1. Art • Fehler 2. Art • Goodness-of-fit-Test • Gütefunktion des Tests auf Anteilswert • Hypothese • Kritischer Wert • Linksseitiger Test • Macht eines Tests • Nichtablehnungsbereich der Nullhypothese • Nullhypothese • OC-Kurve • Operationscharakteristik • Parametertest • Prüfgröße • Prüfwert • Prüfwert (Chi-Quadrat-Anpassungstest) • Prüfwert (Chi-Quadrat-Unabhängigkeitstest) • Prüfwert (Einstichproben-t-Test) • Prüfwert (Gauß-Test) • Prüfwert (Test auf Anteilswert) • Prüfwert (Zweistichproben-Gauß-Test) • Prüfwert (Zweistichproben-t-Test) • Rechtsseitiger Test • Signifikanzniveau • Statistischer Test • Testgröße • Teststatistik • Teststatistik (Chi-Quadrat-Anpassungstest) • Teststatistik (Chi-Quadrat-Unabhängigkeitstest) • Teststatistik (Einstichproben-t-Test) • Teststatistik (Gauß-Test) • Teststatistik (Test auf Anteilswert) • Teststatistik (Zweistichproben-Gauß-Test) • Teststatistik (Zweistichproben-t-Test) • Verteilungstest • Zweistichprobentest

Grundbegriffe

Chi-Quadrat-Unabhängigkeitstest

Bei einem Chi-Quadrat-Unabhängigkeitstest wird geprüft, ob zwei Zufallsvariablen stochastisch unabhängig sind. Dieser statistische Test gehört zu den nichtparametrischen Tests.

An das Skalenniveau der Zufallsvariablen werden keine Voraussetzungen gestellt.

Es sei allgemein angenommen, dass zwei Zufallsvariablen X\; und Y\; gleichzeitig an n statistischen Einheiten (i=1,\ldots ,n) beobachtet werden, wobei die Unabhängigkeit der Stichprobenziehungen vorausgesetzt wird (einfache Zufallsstichprobe).

Sind X\; und Y\; diskrete Zufallsvariablen (darunter werden im weiteren summarisch nominalskalierte, ordinalskalierte sowie diskrete Zufallsvariablen mit sehr wenigen Ausprägungen verstanden), nehmen sie die Stichprobenrealisationen x_{k}(k=1,\ldots ,K) und y_{j},\;(j=1,\ldots ,J) an.

Sind X\; und Y\; stetige Zufallsvariablen (darunter werden im weiteren auch die diskreten Zufallsvariablen mit sehr vielen bzw. unendlich vielen Ausprägungen, d.h. die genannten quasi-stetigen Zufallsvariablen, gefasst), muss eine Intervallbildung der beobachteten Werte in disjunkte, aneinander angrenzende Klassen erfolgen.

x_{k},\;(k=1,\ldots ,K) und y_{j},\;(j=1,\ldots ,J) sind dann repräsentative Klassenwerte (im Allgemeinen die Klassenmitten) und K und J die Anzahl der gebildeten Klassen.

Eine geeignete Darstellungsform für die beobachtete gemeinsame Häufigkeitsverteilung der zwei Zufallsvariablen ist die zweidimensionale Häufigkeitstabelle (auch als Kontingenztabelle oder Kreuztabelle bezeichnet).

Zweidimensionale Häufigkeitstabelle:

x\quad y y_{1} \cdots y_{j} \cdots y_{J} RV x
x_{1} h_{11} \cdots h_{1j} \cdots h_{1J} h_{1\bullet}
\vdots \vdots \cdots \vdots \cdots \vdots \vdots
x_{k} h_{k1} \cdots h_{kj} \cdots h_{kJ} h_{k\bullet}
\vdots \vdots \cdots \vdots \cdots \vdots \vdots
x_{K} h_{K1} \cdots h_{Kj} \cdots h_{KJ} h_{K\bullet}
RV x h_{\bullet 1} \cdots h_{\bullet j} \cdots h_{\bullet J} h_{\bullet\bullet}=n

\,h_{kj} bezeichnet die absolute Häufigkeit für das beobachtete Wertepaar \left( x_{k},y_{j}\right), d.h. dass X\; den Wert x_{k} bzw. einen Wert aus der k-ten Klasse und Y\; gleichzeitig den Wert y_{j} bzw. einen Wert aus der j-ten Klasse angenommen hat:

h_{kj}=h\left( \left\{ X=x_{k}\right\}\cap\left\{ Y=y_{j}\right\} \right)\; ; \quad k=1, \ldots,K, \quad j=1,\ldots , J

Die letzte Spalte enthält die beobachtete Randverteilung (RV) von X\; mit den absoluten Randhäufigkeiten h_{k\bullet}=h\left(X=x_{k}\right)\;;k=1,\ldots ,K.

h_{k\bullet } gibt an, wie oft X\; den Wert x_{k} bzw. einen Wert aus der k-ten Klasse angenommen hat, wobei es gleichgültig ist, welchen Wert Y\; aufweist.

Die letzte Zeile weist die beobachtete Randverteilung von Y\; mit den absoluten Randhäufigkeiten h_{j\bullet }=h\left( Y=y_{j}\right)\;;j=1,\ldots ,J aus.

h_{j\bullet } gibt an, wie oft Y\; den Wert y_{j} bzw. einen Wert aus der j-ten Klasse angenommen hat, wobei es gleichgültig ist, welchen Wert X\; aufweist.

Für die zweidimensionale Häufigkeitstabelle gelten folgende Beziehungen:

h_{k\bullet }=\sum_{j=1}^{J}h_{kj}\;;\quad k=1,\ldots ,K;

h_{\bullet j}=\sum_{k=1}^{K}h_{kj}\;;\quad j=1,\ldots ,J;

h_{\bullet \bullet }=\sum_{k=1}^{K}h_{k\bullet }=\sum_{j=1}^{J}h_{\bullet j}=\sum_{k=1}^{K}\sum_{j=1}^{J}h_{kj}=n.

Die Nullhypothese lautet beim Chi-Quadrat-Unabhängigkeitstest stets, dass die Zufallsvariablen X\; und Y\; in der Grundgesamtheit stochastisch unabhängig sind. Die Alternativhypothese enthält das logische Pendant.

H_{0}:X\; und Y\; sind stochastisch unabhängig.

H_{1}:X\; und Y\; sind nicht stochastisch abhängig.

Wenn die Nullhypothese gilt, dann ergibt sich nach dem Multiplikationssatz bei Unabhängigkeit

P\left( X=x_{k}\right\}\cap\left\{ Y=y_{j}\right)=P\left( X=x_{k}\right)\cdot P\left( Y=y_{j}\right)=p_{k\bullet}\cdot p_{\bullet j}= p_{kj}

Dabei bezeichnen:

p_{kj} die Wahrscheinlichkeit, dass die Zufallsvariable X\; den Wert x_{k} bzw. einen Wert aus der k-ten Klasse und Y\; gleichzeitig den Wert y_{j} bzw. einen Wert aus der j-ten Klasse annimmt;

p_{k\bullet} die Wahrscheinlichkeit, dass die Zufallsvariable X\; den Wert x_{k} bzw. einen Wert aus der k-ten Klasse annimmt (Randwahrscheinlichkeit von X\;) und

p_{\bullet j} die Wahrscheinlichkeit, dass die Zufallsvariable Y\; den Wert Y_{i} bzw. einen Wert aus der j-ten Klasse annimmt (Randwahrscheinlichkeit von Y\;).

Das Hypothesenpaar kann somit konkretisiert werden:

H_{0}:\;p_{kj}=p_{k\bullet}\cdot p_{\bullet j}\quad für alle Paare \left( k,j\right)

H_{1}: p_{kj}\neq p_{k\bullet}\cdot p_{\bullet j}\quad für mindestens ein Paar \left( k,j\right)

Das Signifikanzniveau \alpha und der Stichprobenumfang n sind vor der Testdurchführung festzulegen.

Teststatistik des Chi-Quadrat-Unabhängigkeitstests

Für die Bestimmung der Teststatistik wird von den absoluten Häufigkeiten ausgegangen. Der Test basiert auf dem Vergleich der in der Stichprobe beobachteten und der bei Gültigkeit der Nullhypothese erwarteten gemeinsamen absoluten Häufigkeiten.

Für die konkrete Stichprobe sind die gemeinsamen absoluten Häufigkeiten

h_{kj}\;(k=1,\ldots ,K,\;j=1,\ldots J)

in den Zellen der zweidimensionalen Häufigkeitstabelle gegeben. Da diese absoluten Häufigkeiten h_{kj} Ergebnis eines Zufallsexperimentes sind, können sie von Stichprobe zu Stichprobe unterschiedliche Werte annehmen, d.h., sie sind Realisationen von Zufallsvariablen H_{kj}\;.

Wenn die Nullhypothese gilt, ergeben sich die erwarteten gemeinsamen absoluten Häufigkeiten als e_{kj}=n\cdot p_{k\bullet}\cdot p_{\bullet j}.

Da die gemeinsamen Wahrscheinlichkeiten p_{kj} und die Randwahrscheinlichkeiten p_{k\bullet } und p_{\bullet j} für alle k und j unbekannt sind, müssen sie aus der Stichprobe geschätzt werden.

Erwartungstreue und konsistente Punktschätzungen für p_{k\bullet } und p_{\bullet j} sind die relativen Randhäufigkeiten f_{k\bullet}=\frac{h_{k\bullet }}{n} und f_{\bullet j}=\frac{h_{\bullet j}}{n}.

Das beinhaltet, dass von festen Randhäufigkeiten der zweidimensionalen Häufigkeitstabelle ausgegangen wird. Damit erhält man Schätzungen für die unter H_{0} erwarteten gemeinsamen absoluten Häufigkeiten:

\widehat{e}_{kj}=n\cdot f_{k\bullet }\cdot f_{\bullet j}=n\cdot \frac{h_{k\bullet}}{n}\cdot \frac{h_{\bullet j}}{n}=\frac{h_{k\bullet }\cdot h_{\bullet j}}{n}

Der Vergleich zwischen den in der Stichprobe beobachteten und den bei Gültigkeit der Nullhypothese erwarteten gemeinsamen absoluten Häufigkeiten baut auf den Differenzen H_{kj}-\widehat{e}_{kj}\;(k=1,\ldots,K;\;j=1,\ldots J) auf.

Eine summarische Größe, die die Abweichung von der Nullhypothese bewertet, ist die Teststatistik

V=\sum_{k=1}^{K}\sum_{j=1}^{J}\frac{\left( H_{kj}-\widehat{e}_{kj}\right)^{2}}{\widehat{e}_{kj}}

Bei Gültigkeit der Nullhypothese ist die Teststatistik V\; approximativ Chi-Quadrat-verteilt mit f = (K - 1)\cdot(J - 1) Freiheitsgraden.

Die Approximation an die Chi-Quadrat-Verteilung ist hinreichend, wenn \widehat{e}_{kj}\geq 5 für alle k,\; j gilt.

Ist diese Bedingungen nicht erfüllt, müssen vor der Anwendung des Tests benachbarte Werte bzw. Klassen zusammengefaßt werden. K und J sind die Anzahlen der verbliebenen Werte bzw. Klassen nach einer eventuell notwendigen Zusammenfassung.

Der kritische Wert c wird für P(V \leq c) = 1- \alpha und die Anzahl der Freiheitsgrade f aus der Tabelle der Verteilungsfunktion der Chi-Quadrat-Verteilung entnommen.

Entscheidungsbereiche des Chi-Quadrat-Unabhängigkeitstests

Die Entscheidungsbereiche sind:

Ablehnungsbereich der H_{0}:\;\left\{ v|v>\chi_{1-\alpha ;(K-1)\cdot \left( J-1\right)}^{2}\right\}

Nichtablehnungsbereich der H_{0}:\;\left\{ v|v\leq \chi_{1-\alpha ;(K-1)\cdot\left(J-1\right)}^{2}\right\}

Die Wahrscheinlichkeit, dass die Teststatistik V\; eine Realisation aus dem Ablehnungsbereich der H_{0} annimmt, entspricht dem vorgegebenen Signifikanzniveau \alpha = P(V > \chi_{1-\alpha;f}^{2} | H_{0}).

Die Wahrscheinlichkeit, dass die Teststatistik V\; eine Realisation aus dem Nichtablehnungsbereich der H_{0} annimmt, ist P(V \leq \chi_{1-\alpha;f}^{2} | H_{0})=1-\alpha.

Nichtablehnungsbereich der H_{0} | Ablehnungsbereich der H_{0}

Prüfwert des Chi-Quadrat-Unabhängigkeitstests

Wenn die Zufallsstichprobe vom Umfang n gezogen wurde, können die absoluten Häufigkeiten h_{kj} für alle beobachteten Wertepaare \left( x_{k},y_{j}\right) ermittelt, daraus die beobachteten Randhäufigkeiten für X\, und Y\; bestimmt und die erwarteten absoluten Häufigkeiten \widehat{e}_{kj} berechnet werden.

Ist die Approximationsbedingung nicht erfüllt, müssen Werte bzw. Klassen geeignet zusammengefaßt und die Häufigkeiten h_{kj}, h_{k\bullet }, h_{\bullet j} und \widehat{e}_{kj} erneut bestimmt werden.

Einsetzen von h_{kj} und für alle k,\; j in die Teststatistik führt zu einem Prüfwert v.

Entscheidungssituationen des Chi-Quadrat-Unabhängigkeitstests

Wenn v in den Ablehnungsbereich der H_{0} fällt, wird die Nullhypothese auf dem Signifikanzniveau \alpha und basierend auf der Zufallsstichprobe vom Umfang n abgelehnt (\mbox{''}H_{1}\mbox{''}).

Es konnte statistisch gezeigt werden, dass die Zufallsvariablen X\; und Y\; nicht stochastisch unabhängig sind.

Bei dieser Entscheidung besteht die Möglichkeit einen Fehler 1. Art (\mbox{''}H_{1}\mbox{''}| H_{0}) zu begehen, wenn in Wirklichkeit die Nullhypothese richtig ist.

Die Wahrscheinlichkeit für einen Fehler 1. Art entspricht dem vorgegebenen Signifikanzniveau \alpha.

Wenn v in den Nichtablehnungsbereich der H_{0} fällt, wird die Nullhypothese basierend auf der Zufallsstichprobe vom Umfang n nicht abgelehnt (\mbox{''}H_{0}\mbox{''}).

Das Stichprobenergebnis gibt keine Veranlassung, die Unabhängigkeit der Zufallsvariablen X\; und Y\; zu verwerfen.

Bei dieser Entscheidung besteht die Möglichkeit, einen Fehler 2. Art (\mbox{''}H_{0}\mbox{''}| H_{1}) zu begehen, wenn in Wirklichkeit die Alternativhypothese richtig ist.