Kontingenz: Unterschied zwischen den Versionen
Aus MM*Stat
Keine Bearbeitungszusammenfassung |
|||
(3 dazwischenliegende Versionen von 2 Benutzern werden nicht angezeigt) | |||
Zeile 1: | Zeile 1: | ||
{{Bivariate Statistik}} | {{Bivariate Statistik}} | ||
{{SubpageToc|Video|Interaktives Beispiel: Haar- und Augenfarbe von Statistik-Studenten}} | |||
=={{Vorlage:Überschrift}}== | =={{Vorlage:Überschrift}}== | ||
Zeile 275: | Zeile 276: | ||
Häufigkeitstabellen für die ausgewählten Variablen sowie die <math>chi^2</math>-Statistik und die Kontingenzkoeffizienten berechnet und im Output-Fenster angezeigt. | Häufigkeitstabellen für die ausgewählten Variablen sowie die <math>chi^2</math>-Statistik und die Kontingenzkoeffizienten berechnet und im Output-Fenster angezeigt. | ||
--> | --> | ||
Aktuelle Version vom 4. Juli 2020, 15:01 Uhr
Grundbegriffe
Kontingenz
Ausgangspunkt für die Analyse von Zusammenhängen zwischen nominalskalierten Daten bildet die gemeinsame Häufigkeitsverteilung zweier Merkmale und in Form der Kontingenztabelle mit den in ihr enthaltenen
oder
Wie im Abschnitt Parameter zweidimensionaler Verteilungen (empirisch) bereits ausgeführt, entspricht bei Unabhängigkeit der Merkmale und die relative Häufigkeit für das gemeinsame Auftreten der Ausprägungen und dem Produkt der relativen Häufigkeiten der Randverteilungen dieser beiden Merkmale:
Quadratische Kontingenz oder Chi-Quadrat-Koeffizient
Ausgehend von diesen Vorbetrachtungen lässt sich im folgenden eine Hilfsgröße - die quadratische Kontingenz oder Chi-Quadrat-Koeffizient, symbolisiert mit - berechnen:
Den Zähler des obigen Summanden bilden die quadratischen Abweichungen der beobachteten absoluten bzw. relativen Häufigkeiten von den unter Unabhängigkeit der Merkmale erwarteten absoluten bzw. relativen Häufigkeiten.
Durch die zusätzliche Division durch die unter Unabhängigkeit erwarteten absoluten bzw. relativen Häufigkeiten wird eine Standardisierung erreicht.
Kontingenzkoeffizient
Unter Verwendung der quadratischen Kontingenz lässt sich der Kontingenzkoeffizient als Maß für die Stärke der Beziehung zwischen nominalskalierten Merkmalen berechnen:
.
Bei einem Kontingenzkoeffizienten von liegt statistische Unabhängigkeit vor.
Korrigierter Kontingenzkoeffizient
Den Wert erreicht der Kontingenzkoeffizient praktisch nie, auch wenn ein vollständiger Zusammenhang zwischen beiden Merkmalen besteht, da die Anzahl der Beobachtungen immer größer als Null sind und damit auch der Nenner immer größer als der Zähler ist.
Um diesem Problem zu begegnen und bei einem vollkommenen Zusammenhang den Wert zu erreichen, wird in vielen Fällen der korrigierte Kontingenzkoeffizient verwendet, der sich aus dem "normalen" Kontingenzkoeffizienten wie folgt berechnen lässt:
Beispiele
Lungenkrebs
Im folgenden soll untersucht werden, ob ein Zusammenhang zwischen Rauchen und dem Auftreten von Lungenkrebs besteht, wobei von nachstehender Kontingenztabelle ausgegangen wird.
Lungenkrebs
ja |
Lungenkrebs
nein |
RV | |
Rauchen ja | 10 | 15 | 25 |
Rauchen nein | 5 | 70 | 75 |
RV | 15 | 85 | 100 |
Der korrigierte Kontingenzkoeffizient von 0,53 weist auf einen Zusammenhang zwischen Rauchen und dem Auftreten von Lungenkrebs hin.
Kundenerfassung
Für den Datensatz "Kaufhaus" wurden Kunden eines großen Kaufhauses zufällig ausgewählt und folgende Variablen mit den angegebenen Ausprägungen erfasst:
Variablen | Ausprägungen |
Geschlecht | 1 - männlich |
2 - weiblich | |
Zahlungsart | 1 - Barzahlung |
2 - EC-Karte | |
3 - Kreditkarte | |
Wohnort | 1 - Berlin |
2 - nicht Berlin |
Nachfolgend sind die drei möglichen zweidimensionalen Häufigkeitsverteilungen aufgeführt, die sich aus den Variablen dieser Datei bilden lassen, sowie die jeweiligen Kontingenzkoeffizienten berechnet:
Die zweidimensionale Häufigkeitsverteilung für die Variablen "Geschlecht" und "Zahlungsart" ist eine Kontingenztabelle:
Bar | Karte | Scheck | RV | |
Frau | 30 | 20 | 29 | 79 |
Mann | 31 | 23 | 23 | 86 |
RV | 61 | 43 | 61 | 165 |
-Koeffizient: | 0,08 |
Kontingenzkoeffizient: | 0,02 |
Korrigierter Kontingenzkoeffizient: | 0,03 |
Der korrigierte Kontingenzkoeffizient von 0,03 zeigt, dass ein nur sehr geringer Zusammenhang zwischen Geschlecht und Zahlungsart besteht.
Die zweidimensionale Häufigkeitsverteilung für die Variablen "Geschlecht" und "Wohnort" ist eine Kontingenztabelle:
Berlin | Sonst | RV | |
Frau | 37 | 42 | 79 |
Mann | 50 | 36 | 86 |
RV | 87 | 78 | 165 |
-Koeffizient: | 2,11 |
Kontingenzkoeffizient: | 0,11 |
Korrigierter Kontingenzkoeffizient: | 0,16 |
Der korrigierte Kontingenzkoeffizient von 0,16 zeigt eine sehr schwache Assoziation zwischen Geschlecht und Wohnort.
Die zweidimensionale Häufigkeitsverteilung für die Variablen "Zahlungsart" und "Wohnort" ist eine Kontingenztabelle:
Berlin | Sonst | RV | |
Bar | 44 | 17 | 61 |
Karte | 21 | 22 | 43 |
Scheck | 22 | 39 | 61 |
RV | 87 | 78 | 165 |
-Koeffizient: | 16,27 |
Kontingenzkoeffizient: | 0,30 |
Korrigierter Kontingenzkoeffizient: | 0,42 |
Der korrigierte Kontingenzkoeffizient von 0,42 zeigt eine mittelstarke Assoziation zwischen Zahlungsart und Wohnort.
Sie ist deutlich größer, als die Beziehungen der obigen beiden Zusammenhänge.