Chi-Quadrat-Unabhängigkeitstest/Beispiel: Mängel und Alter

Aus MM*Stat

Wechseln zu: Navigation, Suche

Beispiele

Mängel und Alter

Es wird vermutet, dass die Anzahl der festgestellten Mängel an einem Pkw und das Alter des Pkw stochastisch unabhängig sind.

Um diese Annahme zu überprüfen, wird ein Chi-Quadrat-Unabhängigkeitstest auf einem Signifikanzniveau von \alpha = 0,05 durchgeführt.

Für die Zufallsvariable X\;: "Anzahl der Mängel am Pkw" werden die Realisationen x_{1} = "kein Mangel", x_{2} = "1 Mangel" und x_{3} = "2 oder mehr Mängel" und

für die Zufallsvariable Y\;: "Alter des Pkw" die Realisationen y_{1} = "bis einschließlich 1 Jahr", y_{2} = "über 1 Jahr bis einschließlich 2 Jahre" und y_{3} = "2 Jahre oder älter" betrachtet.

Da stets die Nullhypothese statistischgeprüft wird, muss die Unabhängigkeit zwischen X und Y als H_{0} formuliert werden, um die gemeinsamen erwarteten absoluten Häufigkeiten ermitteln zu können, so dass das Hypothesenpaar lautet:

H_{0}: X\; und Y\; sind stochastisch unabhängig.

H_{1}: X\;und Y\; sind nicht stochastisch unabhängig.

bzw.

H_{0}:\;p_{kj}=p_{k\bullet }\cdot p_{\bullet j} für alle Paare \left( k,j\right)

H_{1}:\;p_{kj}\neq p_{k\bullet }\cdot p_{\bullet j} für mindestens ein Paar \left(k,j\right)

Teststatistik

Es wird die Teststatistik des Chi-Quadrat-Unabhängigkeitstests verwendet:

V=\sum_{k=1}^{K}\sum_{j=1}^{J}\frac{\left( H_{kj}-\widehat{e}_{kj}\right)^{2}}{\widehat{e}_{kj}}

die bei Gültigkeit der Nullhypothese approximativ Chi-Quadrat-verteiltist mit der Anzahl der Freiheitsgrade f = (K - 1)\cdot(J - 1).

Die Entscheidungsbereiche der Nullhypothese können erst nach Vorliegen der Stichprobe festgelegt werden, da

Entscheidungsbereiche und Prüfwert

Bei einer konkreten Polizeikontrolle an verschiedenen Straßenstellen, wobei die Auswahl der Pkw zufällig erfolgte, wurde die Anzahl der Mängel und das Alter an 110 Pkw registriert.

Die sich aus der Stichprobe ergebenden gemeinsamen absoluten Häufigkeiten und Randhäufigkeiten sind in der folgenden Tabelle enthalten.

Gleichzeitig wurden in den Zellen dieser Tabelle die geschätzten gemeinsamen absoluten Häufigkeiten bei Gültigkeit der Nullhypothese aufgenommen, die sich gemäß

\widehat{e}_{kj}=\frac{h_{k\bullet }\cdot h_{\bullet j}}{n}

ergeben (gerundet auf eine Dezimalstelle).

Mängelanzahl (x_{k}) Alter (y_{j}) RV X\;
<1 1-2 2 oder älter
0 beobachtet 30 14 5 49
erwartet 26,7 13,4 8,9
1 beobachtet 18 10 4 32
erwartet 17,5 8,7 5,8
2 oder mehr beobachtet 12 6 11 29
erwartet 15,8 7,9 5,3
RV Y\; 60 30 20 110

Die Approximationsbedingung ist erfüllt, da alle \widehat{e}_{kj}\geq 5 sind. Mit K = 3 und J = 3 folgt für die Anzahl der Freiheitsgrade: f = (K - 1)\cdot(J - 1) =2\cdot2= 4.

Für P(V \leq c) = 0,95 und f = 4 findet man aus der Tabelle der Verteilungsfunktion der Chi-Quadrat-Verteilung den kritischen Wert c=\chi_{1-\alpha ;(f)}^{2}=\chi_{0,95;4}^{2}=9,49.

Die Entscheidungsbereiche sind damit:

Ablehnungsbereich der H_{0}:\; \left\{ v|v>9,49\right\}

Nichtablehnungsbereich der H_{0}:\;\left\{ v|v\leq 9,49\right\}

Als Prüfwert ergibt sich:

v=\frac{\left( 30-26,7\right)^{2}}{26,7}+\frac{\left( 14-13,4\right)^{2}}{13,4}+\ldots +\frac{\left( 11-5,3\right)^{2}}{5,3}=10,5

Testentscheidung

Da v in den Ablehnungsbereich der H_{0} fällt, wird die Nullhypothese abgelehnt (\mbox{''}H_{1}\mbox{''}).

Auf einem Signifikanzniveau von \alpha =0,05 und basierend auf einer Zufallsstichprobe vom Umfang n = 110 konnte statistisch bewiesen werden, dass die Zufallsvariablen X\;: "Anzahl der Mängel am Pkw" und Y\;: "Alter des Pkw" stochastisch unabhängig sind.

Bei dieser Entscheidung besteht die Möglichkeit, einen Fehler 1. Art (\mbox{''}H_{1}\mbox{''}|H_0) zu begehen, wenn in Wirklichkeit die Nullhypothese richtig ist.

Die Wahrscheinlichkeit für einen Fehler 1. Art entspricht dem vorgegebenen Signifikanzniveau \alpha = 0,05.