Chi-Quadrat.neu2

Aus MM*Stat

Wechseln zu: Navigation, Suche

Beispiele

Mängel und Alter

Es wird vermutet, dass die Anzahl der festgestellten Mängel an einem Pkw und das Alter des Pkw stochastisch unabhängig sind.

Um diese Annahme zu überprüfen, wird ein Chi-Quadrat-Unabhängigkeitstest auf einem Signifikanzniveau von \alpha = 0,05 durchgeführt.

Für die Zufallsvariable X\;: "Anzahl der Mängel am Pkw" werden die Realisationen x_{1} = "kein Mangel", x_{2} = "1 Mangel" und x_{3} = "2 oder mehr Mängel" und

für die Zufallsvariable Y\;: "Alter des Pkw" die Realisationen y_{1} = "bis einschließlich 1 Jahr", y_{2} = "über 1 Jahr bis einschließlich 2 Jahre" und y_{3} = "2 Jahre oder älter" betrachtet.

Da stets die Nullhypothese statistischgeprüft wird, muss die Unabhängigkeit zwischen X und Y als H_{0} formuliert werden, um die gemeinsamen erwarteten absoluten Häufigkeiten ermitteln zu können, so dass das Hypothesenpaar lautet:

H_{0}: X\; und Y\; sind stochastisch unabhängig.

H_{1}: X\;und Y\; sind nicht stochastisch unabhängig.

bzw.

H_{0}:\;p_{kj}=p_{k\bullet }\cdot p_{\bullet j} für alle Paare \left( k,j\right)

H_{1}:\;p_{kj}\neq p_{k\bullet }\cdot p_{\bullet j} für mindestens ein Paar \left(k,j\right)

Teststatistik

Es wird die Teststatistik des Chi-Quadrat-Unabhängigkeitstests verwendet:

V=\sum_{k=1}^{K}\sum_{j=1}^{J}\frac{\left( H_{kj}-\widehat{e}_{kj}\right)^{2}}{\widehat{e}_{kj}}

die bei Gültigkeit der Nullhypothese approximativ Chi-Quadrat-verteiltist mit der Anzahl der Freiheitsgrade f = (K - 1)\cdot(J - 1).

Die Entscheidungsbereiche der Nullhypothese können erst nach Vorliegen der Stichprobe festgelegt werden, da

Entscheidungsbereiche und Prüfwert

Bei einer konkreten Polizeikontrolle an verschiedenen Straßenstellen, wobei die Auswahl der Pkw zufällig erfolgte, wurde die Anzahl der Mängel und das Alter an 110 Pkw registriert.

Die sich aus der Stichprobe ergebenden gemeinsamen absoluten Häufigkeiten und Randhäufigkeiten sind in der folgenden Tabelle enthalten.

Gleichzeitig wurden in den Zellen dieser Tabelle die geschätzten gemeinsamen absoluten Häufigkeiten bei Gültigkeit der Nullhypothese aufgenommen, die sich gemäß

\widehat{e}_{kj}=\frac{h_{k\bullet }\cdot h_{\bullet j}}{n}

ergeben (gerundet auf eine Dezimalstelle).

Mängelanzahl (x_{k}) Alter (y_{j}) RV X\;
<1 1-2 2 oder älter
0 beobachtet 30 14 5 49
erwartet 26,7 13,4 8,9
1 beobachtet 18 10 4 32
erwartet 17,5 8,7 5,8
2 oder mehr beobachtet 12 6 11 29
erwartet 15,8 7,9 5,3
RV Y\; 60 30 20 110

Die Approximationsbedingung ist erfüllt, da alle \widehat{e}_{kj}\geq 5 sind. Mit K = 3 und J = 3 folgt für die Anzahl der Freiheitsgrade: f = (K - 1)\cdot(J - 1) =2\cdot2= 4.

Für P(V \leq c) = 0,95 und f = 4 findet man aus der Tabelle der Verteilungsfunktion der Chi-Quadrat-Verteilung den kritischen Wert c=\chi_{1-\alpha ;(f)}^{2}=\chi_{0,95;4}^{2}=9,49.

Die Entscheidungsbereiche sind damit:

Ablehnungsbereich der H_{0}:\; \left\{ v|v>9,49\right\}

Nichtablehnungsbereich der H_{0}:\;\left\{ v|v\leq 9,49\right\}

Als Prüfwert ergibt sich:

v=\frac{\left( 30-26,7\right)^{2}}{26,7}+\frac{\left( 14-13,4\right)^{2}}{13,4}+\ldots +\frac{\left( 11-5,3\right)^{2}}{5,3}=10,5

Testentscheidung

Da v in den Ablehnungsbereich der H_{0} fällt, wird die Nullhypothese abgelehnt (\mbox{''}H_{1}\mbox{''}).

Auf einem Signifikanzniveau von \alpha =0,05 und basierend auf einer Zufallsstichprobe vom Umfang n = 110 konnte statistisch bewiesen werden, dass die Zufallsvariablen X\;: "Anzahl der Mängel am Pkw" und Y\;: "Alter des Pkw" stochastisch unabhängig sind.

Bei dieser Entscheidung besteht die Möglichkeit, einen Fehler 1. Art (\mbox{''}H_{1}\mbox{''}|H_0) zu begehen, wenn in Wirklichkeit die Nullhypothese richtig ist.

Die Wahrscheinlichkeit für einen Fehler 1. Art entspricht dem vorgegebenen Signifikanzniveau \alpha = 0,05.

Umfrage

Bei einer Umfrage in den Jahren 1991 und 1996 wurde zufällig ausgewählten Bürgern der Bundesrepublik Deutschland mit einem Alter von mindestens 18 Jahre zum Befragungszeitpunkt die folgenden Fragen gestellt:

1. "Wie beurteilen Sie die heutige wirtschaftliche Lage in Deutschland?"

2. "Wie wird die wirtschaftliche Lage in Deutschland in einem Jahr sein?"

Die Einschätzungen konnten die Befragten jeweils auf einer fünfteiligen Skala vornehmen:

1. Frage: 1 - sehr gut, 2 - gut, 3 - teils gut / teils schlecht, 4 - schlecht, 5 - sehr schlecht

2. Frage: 1 - wesentlich besser als heute, 2 - etwas besser, 3 - gleichbleibend, 4 - etwas schlechter, 5 - wesentlich schlechter.

Der Inhalt der 1. Frage wird als Zufallsvariable X_{1}:\; "Gegenwärtige Wirtschaftslage" und der Inhalt der 2. Frage als Zufallsvariable X_{2}:\; "Zukünftige Wirtschaftslage" definiert, die die genannten 5 möglichen Realisationen annehmen können.

Darüber hinaus wurde u.a. erfasst, ob die befragte Person aus den alten Bundesländern (einschließlich West-Berlin) oder aus den neuen Bundesländern (einschließlich Ost-Berlin) stammt.

Dies sei die Zufallsvariable Y\;: "Erhebungsgebiet" mit den möglichen Realisationen y_{1} = "West" und y_{2} = "Ost".

Es soll auf einem Signifikanzniveau von \alpha =0,05 geprüft werden, ob die Zufallsvariablen X_{1}\; und Y\; bzw. X_{2}\; und Y\; in den Jahren 1991 bzw. 1996 unabhängig sind.

Da stets die Nullhypothese statistisch geprüft wird, muss die Unabhängigkeit zwischen den beiden Zufallsvariablen als H_{0} formuliert werden, um die gemeinsamen erwarteten absoluten Häufigkeiten ermitteln zu können, so dass die Hypothesenpaare lauten:

H_{0}:X_{1}\; und Y\; sind stochastisch unabhängig.

H_{1}:X_{1}\; und Y\; sind nicht stochastisch unabhängig.

und

H_{0}:X_{2}\; und Y\; sind stochastisch unabhängig.

H_{1}:X_{2}\; und Y\; sind nicht stochastisch unabhängig.

Teststatistik

Es wird die Teststatistik des Chi-Quadrat-Unabhängigkeitstest verwendet

V=\sum_{k=1}^{K}\sum_{j=1}^{J}\frac{\left( H_{kj}-\widehat{e}_{kj}\right)^{2}}{\widehat{e}_{kj}}

die bei Gültigkeit der Nullhypothese approximativ Chi-Quadrat-verteilt ist mit der Anzahl der Freiheitsgrade f = (K - 1)\cdot(J - 1).

Die Entscheidungsbereiche der Nullhypothese können erst nach Vorliegen der Stichprobe festgelegt werden, da

Entscheidungsbereiche, Prüfwert und Testentscheidung

Die sich aus den Stichproben im Jahre 1991 und 1996 ergebenden gemeinsamen absoluten Häufigkeiten und Randhäufigkeit]en sind in den folgenden Tabellen 1 - 4 enthalten.

Gleichzeitig werden in die Zellen dieser Tabellen die geschätzten gemeinsamen absoluten Häufigkeiten bei Gültigkeit der Nullhypothese, die sich gemäß

\widehat{e}_{kj}=\frac{h_{k\bullet }\cdot h_{\bullet j}}{n}

ergeben (gerundet auf eine Dezimalstelle), und die Differenzen h_{kj}-\widehat{e}_{kj} aufgenommen.


Tabelle 1: Gegenwärtige Wirtschaftslage (X_{1})\; und Erhebungsgebiet (Y)\; 1991

Gegenwärtige Wirtschaftslage (X_{1})\; Erhebungsgebiet (Y)\; RV X_{1}\;
West Ost
sehr gut beobachtet 209 165 374
erwartet 184,8 189,2
Differenz 24,2 -24,2
gut beobachtet 744 592 1336
erwartet 660,1 675,9
Differenz 83,9 -83,9
teils/teils beobachtet 431 647 1078
erwartet 532,6 545,5
Differenz -101,6 101,6
schlecht beobachtet 36 39 75
erwartet 37,1 37,9
Differenz -1,1 1,1
sehr schlecht beobachtet 4 15 19
erwartet 9,4 9,6
Differenz -5,4 5,4
RV Y\; 1424 1458 2882


Tabelle 2: Gegenwärtige Wirtschaftslage (X_{1})\; und Erhebungsgebiet (Y)\; 1996

Gegenwärtige Wirtschaftslage (X_{1})\; Erhebungsgebiet (Y)\; RV X_{1}\;
West Ost
sehr gut beobachtet 20 6 26
erwartet 17,2 8,8
Differenz 2,8 -2,8
gut beobachtet 264 116 380
erwartet 251,3 128,7
Differenz 12,7 -12,7
teils/teils beobachtet 1006 557 1563
erwartet 1033,7 529,3
Differenz -27,7 27,7
schlecht beobachtet 692 335 1027
erwartet 679,2 347,8
Differenz 12,8 -12,8
sehr schlecht beobachtet 141 73 214
erwartet 141,5 72,5
Differenz -0,5 0,5
RV Y\; 2123 1087 3210


Tabelle 3: Zukünftige Wirtschaftslage (X_{2})\; und Erhebungsgebiet (Y)\; 1991

Zukünftige Wirtschaftslage (X_{2})\; Erhebungsgebiet (Y)\; RV X_{2}\;
West Ost
wesentlich besser beobachtet 75 203 278
erwartet 137,4 140,6
Differenz -62,4 62,4
etwas besser beobachtet 449 763 1212
erwartet 598,9 613,1
Differenz -149,9 149,9
gleichbleibend beobachtet 684 414 1108
erwartet 547,5 560,5
Differenz 136,5 -136,5
etwas schlechter beobachtet 200 62 262
erwartet 129,5 132,5
Differenz 70,5 -70,5
wesentlich schlechter beobachtet 16 6 22
erwartet 10,9 11,1
Differenz 5,1 -5,1
RV Y\, 1424 1458 2882


Tabelle 4: Zukünftige Wirtschaftslage (X_{2})\; und Erhebungsgebiet (Y)\; 1996

Zukünftige Wirtschaftslage (X_{2})\; Erhebungsgebiet (Y)\; RV X_{2}\;
West Ost
wesentlich besser beobachtet 9 6 15
erwartet 9,9 5,1
Differenz -0,9 0,9
etwas besser beobachtet 190 131 321
erwartet 212,3 108,7
Differenz -22,3 22,3
gleichbleibend beobachtet 809 444 1253
erwartet 828,7 42,3
Differenz -19,7 19,7
etwas schlechter beobachtet 960 426 1386
erwartet 916,7 469,3
Differenz 43,3 -43,3
wesentlich schlechter beobachtet 155 80 235
erwartet 155,4 79,6
Differenz -0,4 0,4
RV Y\; 2123 1087 3210

Für alle 4 durchzuführende Tests gilt:

Die Approximationsbedingung ist erfüllt, da alle \widehat{e}_{kj}\geq 5 sind. Mit K = 5 und J = 2 folgt für die Anzahl der Freiheitsgrade: f = (K - 1)\cdot(J - 1) = 4\cdot1=4.

Für P(V \leq c) = 0,95 und f = 4 findet man aus der Tabelle der Verteilungsfunktion der Chi-Quadrat-Verteilung den kritischen Wert c=\chi_{1-\alpha ;\left( K-1\right) \cdot \left( J-1\right)}^{2}=\chi_{0,95;4}^{2}=9,49.

Die Entscheidungsbereiche sind damit:

Ablehnungsbereich der H_{0}:\; \left\{v|v>9,49\right\}

Nichtablehnungsbereich der H_{0}:\; \left\{ v|v\leq 9,49\right\}

Als Prüfwerte und Testentscheidung ergeben sich:

Jahr Zufallsvariablen Prüfwert v Testentscheidung
1991 X_{1}, Y 71,85 H_{1}
1996 X_{1}, Y 6,15 H_{0}
1991 X_{2}, Y 278,17 H_{1}
1996 X_{2}, Y 14,61 H_{1}

Interpretation

  • Gegenwärtige Wirtschaftslage in Deutschland:
Während für 1991 auf einem Signifikanzniveau von \alpha = 0,05 die Nullhypothese abgelehnt wird, d.h. statistisch eine Abhängigkeit zwischen den Zufallsvariablen X_{1}\;: "Gegenwärtige Wirtschaftslage" und Y\;: "Erhebungsgebiet" nachgewiesen werden konnte, wird für das Jahr 1996 die Nullhypothese nicht abgelehnt.
1991 bewerteten die Befragten in den alten Bundesländern die gegenwärtige Wirtschaftslage tendenziell deutlich zufriedener als die Befragten in den neuen Bundesländern, was anhand der großen positiven Differenzen h_{kj}-\widehat{e}_{kj} bei der sehr guten und guten Einschätzung in der Spalte West der Tabelle 1 zu erkennen ist.
Auch 1996 treten Differenzen zwischen h_{kj} und \widehat{e}_{kj} auf, aber sie sind in ihrer Gesamtheit nicht mehr signifikant.
Es hat offensichtlich eine Angleichung in den Einschätzungen der gegenwärtigen Wirtschaftslage zwischen West und Ost stattgefunden.
  • Zukünftige Wirtschaftslage in Deutschland:
Bezüglich der Zufallsvariablen X_{2}\;: "Zukünftige Wirtschaftslage" und Y\;: "Erhebungsgebiet" wird für beide Jahre die Nullhypothese der Unabhängigkeit auf einem Signifikanzniveau von \alpha = 0,05 abgelehnt.
Hierbei sind es jedoch die Befragten in den neuen Bundesländern, die in beiden Jahren die zukünftige Wirtschaftslage tendenziell deutlich optimistischer bewerten als die Befragten in den alten Bundesländern.
Vergleicht man beide Jahre miteinander, so sind die Differenzen h_{kj}-\widehat{e}_{kj} 1996 kleiner als 1991, was ebenfalls auf eine gewisse Annäherung in den Bewertungen zwischen West und Ost schließen lässt, jedoch sind sie auch 1996 in ihrer Gesamtheit noch statistisch signifikant.