Chi-Quadrat.neu2
Aus MM*Stat
Beispiele
Mängel und Alter
Es wird vermutet, dass die Anzahl der festgestellten Mängel an einem Pkw und das Alter des Pkw stochastisch unabhängig sind.
Um diese Annahme zu überprüfen, wird ein Chi-Quadrat-Unabhängigkeitstest auf einem Signifikanzniveau von durchgeführt.
Für die Zufallsvariable : "Anzahl der Mängel am Pkw" werden die Realisationen = "kein Mangel", = "1 Mangel" und = "2 oder mehr Mängel" und
für die Zufallsvariable : "Alter des Pkw" die Realisationen = "bis einschließlich 1 Jahr", = "über 1 Jahr bis einschließlich 2 Jahre" und = "2 Jahre oder älter" betrachtet.
Da stets die Nullhypothese statistischgeprüft wird, muss die Unabhängigkeit zwischen und als formuliert werden, um die gemeinsamen erwarteten absoluten Häufigkeiten ermitteln zu können, so dass das Hypothesenpaar lautet:
und sind stochastisch unabhängig.
und sind nicht stochastisch unabhängig.
bzw.
für alle Paare
für mindestens ein Paar
Teststatistik
Es wird die Teststatistik des Chi-Quadrat-Unabhängigkeitstests verwendet:
die bei Gültigkeit der Nullhypothese approximativ Chi-Quadrat-verteiltist mit der Anzahl der Freiheitsgrade .
Die Entscheidungsbereiche der Nullhypothese können erst nach Vorliegen der Stichprobe festgelegt werden, da
- die gemeinsamen erwarteten absoluten Häufigkeiten aus der Stichprobe zu schätzen sind,
- erst dann die Approximationsbedingung überprüft werden kann und ersichtlich ist, ob Werte bzw. Klassen zusammenzufassen sind,
- erst danach die Anzahl der Freiheitsgrade feststeht und der kritische Wert aufgesucht werden kann.
Entscheidungsbereiche und Prüfwert
Bei einer konkreten Polizeikontrolle an verschiedenen Straßenstellen, wobei die Auswahl der Pkw zufällig erfolgte, wurde die Anzahl der Mängel und das Alter an 110 Pkw registriert.
Die sich aus der Stichprobe ergebenden gemeinsamen absoluten Häufigkeiten und Randhäufigkeiten sind in der folgenden Tabelle enthalten.
Gleichzeitig wurden in den Zellen dieser Tabelle die geschätzten gemeinsamen absoluten Häufigkeiten bei Gültigkeit der Nullhypothese aufgenommen, die sich gemäß
ergeben (gerundet auf eine Dezimalstelle).
Mängelanzahl | Alter | RV | |||
1-2 | 2 oder älter | ||||
0 | beobachtet | 30 | 14 | 5 | 49 |
erwartet | 26,7 | 13,4 | 8,9 | ||
1 | beobachtet | 18 | 10 | 4 | 32 |
erwartet | 17,5 | 8,7 | 5,8 | ||
2 oder mehr | beobachtet | 12 | 6 | 11 | 29 |
erwartet | 15,8 | 7,9 | 5,3 | ||
RV | 60 | 30 | 20 | 110 |
Die Approximationsbedingung ist erfüllt, da alle sind. Mit und folgt für die Anzahl der Freiheitsgrade: .
Für und findet man aus der Tabelle der Verteilungsfunktion der Chi-Quadrat-Verteilung den kritischen Wert .
Die Entscheidungsbereiche sind damit:
Als Prüfwert ergibt sich:
Testentscheidung
Da in den Ablehnungsbereich der fällt, wird die Nullhypothese abgelehnt .
Auf einem Signifikanzniveau von und basierend auf einer Zufallsstichprobe vom Umfang konnte statistisch bewiesen werden, dass die Zufallsvariablen : "Anzahl der Mängel am Pkw" und : "Alter des Pkw" stochastisch unabhängig sind.
Bei dieser Entscheidung besteht die Möglichkeit, einen Fehler 1. Art zu begehen, wenn in Wirklichkeit die Nullhypothese richtig ist.
Die Wahrscheinlichkeit für einen Fehler 1. Art entspricht dem vorgegebenen Signifikanzniveau .
Umfrage
Bei einer Umfrage in den Jahren 1991 und 1996 wurde zufällig ausgewählten Bürgern der Bundesrepublik Deutschland mit einem Alter von mindestens 18 Jahre zum Befragungszeitpunkt die folgenden Fragen gestellt:
1. "Wie beurteilen Sie die heutige wirtschaftliche Lage in Deutschland?"
2. "Wie wird die wirtschaftliche Lage in Deutschland in einem Jahr sein?"
Die Einschätzungen konnten die Befragten jeweils auf einer fünfteiligen Skala vornehmen:
1. Frage: 1 - sehr gut, 2 - gut, 3 - teils gut / teils schlecht, 4 - schlecht, 5 - sehr schlecht
2. Frage: 1 - wesentlich besser als heute, 2 - etwas besser, 3 - gleichbleibend, 4 - etwas schlechter, 5 - wesentlich schlechter.
Der Inhalt der 1. Frage wird als Zufallsvariable "Gegenwärtige Wirtschaftslage" und der Inhalt der 2. Frage als Zufallsvariable "Zukünftige Wirtschaftslage" definiert, die die genannten 5 möglichen Realisationen annehmen können.
Darüber hinaus wurde u.a. erfasst, ob die befragte Person aus den alten Bundesländern (einschließlich West-Berlin) oder aus den neuen Bundesländern (einschließlich Ost-Berlin) stammt.
Dies sei die Zufallsvariable : "Erhebungsgebiet" mit den möglichen Realisationen "West" und "Ost".
Es soll auf einem Signifikanzniveau von geprüft werden, ob die Zufallsvariablen und bzw. und in den Jahren 1991 bzw. 1996 unabhängig sind.
Da stets die Nullhypothese statistisch geprüft wird, muss die Unabhängigkeit zwischen den beiden Zufallsvariablen als formuliert werden, um die gemeinsamen erwarteten absoluten Häufigkeiten ermitteln zu können, so dass die Hypothesenpaare lauten:
und sind stochastisch unabhängig.
und sind nicht stochastisch unabhängig.
und
und sind stochastisch unabhängig.
und sind nicht stochastisch unabhängig.
Teststatistik
Es wird die Teststatistik des Chi-Quadrat-Unabhängigkeitstest verwendet
die bei Gültigkeit der Nullhypothese approximativ Chi-Quadrat-verteilt ist mit der Anzahl der Freiheitsgrade .
Die Entscheidungsbereiche der Nullhypothese können erst nach Vorliegen der Stichprobe festgelegt werden, da
- die gemeinsamen erwarteten absoluten Häufigkeiten aus der Stichprobe zu schätzen sind,
- erst dann die Approximationsbedingung überprüft werden kann und ersichtlich ist, ob Werte zusammenzufassen sind,
- erst danach die Anzahl der Freiheitsgrade feststeht und der kritische Wert aufgesucht werden kann.
Entscheidungsbereiche, Prüfwert und Testentscheidung
Die sich aus den Stichproben im Jahre 1991 und 1996 ergebenden gemeinsamen absoluten Häufigkeiten und Randhäufigkeit]en sind in den folgenden Tabellen 1 - 4 enthalten.
Gleichzeitig werden in die Zellen dieser Tabellen die geschätzten gemeinsamen absoluten Häufigkeiten bei Gültigkeit der Nullhypothese, die sich gemäß
ergeben (gerundet auf eine Dezimalstelle), und die Differenzen aufgenommen.
Tabelle 1: Gegenwärtige Wirtschaftslage und Erhebungsgebiet 1991
Gegenwärtige Wirtschaftslage | Erhebungsgebiet | RV | ||
West | Ost | |||
sehr gut | beobachtet | 209 | 165 | 374 |
erwartet | 184,8 | 189,2 | ||
Differenz | 24,2 | -24,2 | ||
gut | beobachtet | 744 | 592 | 1336 |
erwartet | 660,1 | 675,9 | ||
Differenz | 83,9 | -83,9 | ||
teils/teils | beobachtet | 431 | 647 | 1078 |
erwartet | 532,6 | 545,5 | ||
Differenz | -101,6 | 101,6 | ||
schlecht | beobachtet | 36 | 39 | 75 |
erwartet | 37,1 | 37,9 | ||
Differenz | -1,1 | 1,1 | ||
sehr schlecht | beobachtet | 4 | 15 | 19 |
erwartet | 9,4 | 9,6 | ||
Differenz | -5,4 | 5,4 | ||
RV | 1424 | 1458 | 2882 |
Tabelle 2: Gegenwärtige Wirtschaftslage und Erhebungsgebiet 1996
Gegenwärtige Wirtschaftslage | Erhebungsgebiet | RV | ||
West | Ost | |||
sehr gut | beobachtet | 20 | 6 | 26 |
erwartet | 17,2 | 8,8 | ||
Differenz | 2,8 | -2,8 | ||
gut | beobachtet | 264 | 116 | 380 |
erwartet | 251,3 | 128,7 | ||
Differenz | 12,7 | -12,7 | ||
teils/teils | beobachtet | 1006 | 557 | 1563 |
erwartet | 1033,7 | 529,3 | ||
Differenz | -27,7 | 27,7 | ||
schlecht | beobachtet | 692 | 335 | 1027 |
erwartet | 679,2 | 347,8 | ||
Differenz | 12,8 | -12,8 | ||
sehr schlecht | beobachtet | 141 | 73 | 214 |
erwartet | 141,5 | 72,5 | ||
Differenz | -0,5 | 0,5 | ||
RV | 2123 | 1087 | 3210 |
Tabelle 3: Zukünftige Wirtschaftslage und Erhebungsgebiet 1991
Zukünftige Wirtschaftslage | Erhebungsgebiet | RV | ||
West | Ost | |||
wesentlich besser | beobachtet | 75 | 203 | 278 |
erwartet | 137,4 | 140,6 | ||
Differenz | -62,4 | 62,4 | ||
etwas besser | beobachtet | 449 | 763 | 1212 |
erwartet | 598,9 | 613,1 | ||
Differenz | -149,9 | 149,9 | ||
gleichbleibend | beobachtet | 684 | 414 | 1108 |
erwartet | 547,5 | 560,5 | ||
Differenz | 136,5 | -136,5 | ||
etwas schlechter | beobachtet | 200 | 62 | 262 |
erwartet | 129,5 | 132,5 | ||
Differenz | 70,5 | -70,5 | ||
wesentlich schlechter | beobachtet | 16 | 6 | 22 |
erwartet | 10,9 | 11,1 | ||
Differenz | 5,1 | -5,1 | ||
RV | 1424 | 1458 | 2882 |
Tabelle 4: Zukünftige Wirtschaftslage und Erhebungsgebiet 1996
Zukünftige Wirtschaftslage | Erhebungsgebiet | RV | ||
West | Ost | |||
wesentlich besser | beobachtet | 9 | 6 | 15 |
erwartet | 9,9 | 5,1 | ||
Differenz | -0,9 | 0,9 | ||
etwas besser | beobachtet | 190 | 131 | 321 |
erwartet | 212,3 | 108,7 | ||
Differenz | -22,3 | 22,3 | ||
gleichbleibend | beobachtet | 809 | 444 | 1253 |
erwartet | 828,7 | 42,3 | ||
Differenz | -19,7 | 19,7 | ||
etwas schlechter | beobachtet | 960 | 426 | 1386 |
erwartet | 916,7 | 469,3 | ||
Differenz | 43,3 | -43,3 | ||
wesentlich schlechter | beobachtet | 155 | 80 | 235 |
erwartet | 155,4 | 79,6 | ||
Differenz | -0,4 | 0,4 | ||
RV | 2123 | 1087 | 3210 |
Für alle 4 durchzuführende Tests gilt:
Die Approximationsbedingung ist erfüllt, da alle sind. Mit und folgt für die Anzahl der Freiheitsgrade: .
Für und findet man aus der Tabelle der Verteilungsfunktion der Chi-Quadrat-Verteilung den kritischen Wert .
Die Entscheidungsbereiche sind damit:
Als Prüfwerte und Testentscheidung ergeben sich:
Jahr | Zufallsvariablen | Prüfwert | Testentscheidung |
1991 | 71,85 | ||
1996 | 6,15 | ||
1991 | 278,17 | ||
1996 | 14,61 |
Interpretation
- Gegenwärtige Wirtschaftslage in Deutschland:
- Während für 1991 auf einem Signifikanzniveau von die Nullhypothese abgelehnt wird, d.h. statistisch eine Abhängigkeit zwischen den Zufallsvariablen : "Gegenwärtige Wirtschaftslage" und : "Erhebungsgebiet" nachgewiesen werden konnte, wird für das Jahr 1996 die Nullhypothese nicht abgelehnt.
- 1991 bewerteten die Befragten in den alten Bundesländern die gegenwärtige Wirtschaftslage tendenziell deutlich zufriedener als die Befragten in den neuen Bundesländern, was anhand der großen positiven Differenzen bei der sehr guten und guten Einschätzung in der Spalte West der Tabelle 1 zu erkennen ist.
- Auch 1996 treten Differenzen zwischen und auf, aber sie sind in ihrer Gesamtheit nicht mehr signifikant.
- Es hat offensichtlich eine Angleichung in den Einschätzungen der gegenwärtigen Wirtschaftslage zwischen West und Ost stattgefunden.
- Zukünftige Wirtschaftslage in Deutschland:
- Bezüglich der Zufallsvariablen : "Zukünftige Wirtschaftslage" und : "Erhebungsgebiet" wird für beide Jahre die Nullhypothese der Unabhängigkeit auf einem Signifikanzniveau von abgelehnt.
- Hierbei sind es jedoch die Befragten in den neuen Bundesländern, die in beiden Jahren die zukünftige Wirtschaftslage tendenziell deutlich optimistischer bewerten als die Befragten in den alten Bundesländern.
- Vergleicht man beide Jahre miteinander, so sind die Differenzen 1996 kleiner als 1991, was ebenfalls auf eine gewisse Annäherung in den Bewertungen zwischen West und Ost schließen lässt, jedoch sind sie auch 1996 in ihrer Gesamtheit noch statistisch signifikant.