Kontingenz

Aus MM*Stat

(Weitergeleitet von Kontingenzkoeffizient)
Wechseln zu: Navigation, Suche

Bivariate Statistik

Zweidimensionale Häufigkeitsverteilung • Graphische Darstellung zweidimensionaler Verteilungen • Randverteilungen, Bedingte Verteilungen • Parameter zweidimensionaler Verteilungen (empirisch) • Kontingenz • Spearman'scher Rangkorrelationskoeffizient • Kendall'scher Rangkorrelationskoeffizient • Kovarianz (empirisch) • Bravais–Pearson–Korrelationskoeffizient • Multiple Choice • Video • Aufgaben • Lösungen
3D-Balkendiagramm • 3D-Scatterplot • Absolute Häufigkeit (zweidimensional) • Ausprägungskombination • Bedingte Verteilung (empirisch) • Bindung • Chi-Quadrat-Koeffizient • Diskordante Merkmalspaare • Gegensinnige Merkmalspaare • Gemeinsame Variation • Gleichsinnige Merkmalspaare • Gruppiertes Balkendiagramm • Häufigkeitstabelle (zweidimensional) • Konditionale Verteilung • Konkordante Merkmalspaare • Kontingenzkoeffizient • Kontingenztabelle • Korrelation • Korrelationskoeffizient (empirisch) • Korrelationskoeffizient (nach Bravais-Pearson) • Korrigierter Kontingenzkoeffizient • Kreuztabelle • linearer Zusammenhang • Marginale Verteilung (empirisch) • Parameter (emp. Randverteilung) • Parameter (emp. bedingte Verteilung) • Quadratische Kontingenz • Randverteilung (empirisch) • Relative Häufigkeit (zweidimensional) • Scatterplot • Scatterplot-Matrix • Streuungsdiagramm • Unabhängigkeit (empirisch) • Unabhängigkeit (statistisch) • Variation (Streuung)

Grundbegriffe

Kontingenz

Ausgangspunkt für die Analyse von Zusammenhängen zwischen nominalskalierten Daten bildet die gemeinsame Häufigkeitsverteilung zweier Merkmale und in Form der Kontingenztabelle mit den in ihr enthaltenen

absoluten Häufigkeiten

oder

relativen Häufigkeiten

Wie im Abschnitt Parameter zweidimensionaler Verteilungen (empirisch) bereits ausgeführt, entspricht bei Unabhängigkeit der Merkmale und die relative Häufigkeit für das gemeinsame Auftreten der Ausprägungen und dem Produkt der relativen Häufigkeiten der Randverteilungen dieser beiden Merkmale:

Quadratische Kontingenz oder Chi-Quadrat-Koeffizient

Ausgehend von diesen Vorbetrachtungen lässt sich im folgenden eine Hilfsgröße - die quadratische Kontingenz oder Chi-Quadrat-Koeffizient, symbolisiert mit - berechnen:

Den Zähler des obigen Summanden bilden die quadratischen Abweichungen der beobachteten absoluten bzw. relativen Häufigkeiten von den unter Unabhängigkeit der Merkmale erwarteten absoluten bzw. relativen Häufigkeiten.

Durch die zusätzliche Division durch die unter Unabhängigkeit erwarteten absoluten bzw. relativen Häufigkeiten wird eine Standardisierung erreicht.

Kontingenzkoeffizient

Unter Verwendung der quadratischen Kontingenz lässt sich der Kontingenzkoeffizient als Maß für die Stärke der Beziehung zwischen nominalskalierten Merkmalen berechnen:

.

Bei einem Kontingenzkoeffizienten von liegt statistische Unabhängigkeit vor.

Korrigierter Kontingenzkoeffizient

Den Wert erreicht der Kontingenzkoeffizient praktisch nie, auch wenn ein vollständiger Zusammenhang zwischen beiden Merkmalen besteht, da die Anzahl der Beobachtungen immer größer als Null sind und damit auch der Nenner immer größer als der Zähler ist.

Um diesem Problem zu begegnen und bei einem vollkommenen Zusammenhang den Wert zu erreichen, wird in vielen Fällen der korrigierte Kontingenzkoeffizient verwendet, der sich aus dem "normalen" Kontingenzkoeffizienten wie folgt berechnen lässt:

Beispiele

Lungenkrebs

Im folgenden soll untersucht werden, ob ein Zusammenhang zwischen Rauchen und dem Auftreten von Lungenkrebs besteht, wobei von nachstehender Kontingenztabelle ausgegangen wird.

Lungenkrebs

ja

Lungenkrebs

nein

RV
Rauchen ja 10 15 25
Rauchen nein 5 70 75
RV 15 85 100


Der korrigierte Kontingenzkoeffizient von 0,53 weist auf einen Zusammenhang zwischen Rauchen und dem Auftreten von Lungenkrebs hin.

Kundenerfassung

Für den Datensatz "Kaufhaus" wurden Kunden eines großen Kaufhauses zufällig ausgewählt und folgende Variablen mit den angegebenen Ausprägungen erfasst:

Variablen Ausprägungen
Geschlecht 1 - männlich
2 - weiblich
Zahlungsart 1 - Barzahlung
2 - EC-Karte
3 - Kreditkarte
Wohnort 1 - Berlin
2 - nicht Berlin

Nachfolgend sind die drei möglichen zweidimensionalen Häufigkeitsverteilungen aufgeführt, die sich aus den Variablen dieser Datei bilden lassen, sowie die jeweiligen Kontingenzkoeffizienten berechnet:

Die zweidimensionale Häufigkeitsverteilung für die Variablen "Geschlecht" und "Zahlungsart" ist eine Kontingenztabelle:

Bar Karte Scheck RV
Frau 30 20 29 79
Mann 31 23 23 86
RV 61 43 61 165
-Koeffizient: 0,08
Kontingenzkoeffizient: 0,02
Korrigierter Kontingenzkoeffizient: 0,03

Der korrigierte Kontingenzkoeffizient von 0,03 zeigt, dass ein nur sehr geringer Zusammenhang zwischen Geschlecht und Zahlungsart besteht.

Die zweidimensionale Häufigkeitsverteilung für die Variablen "Geschlecht" und "Wohnort" ist eine Kontingenztabelle:

Berlin Sonst RV
Frau 37 42 79
Mann 50 36 86
RV 87 78 165
-Koeffizient: 2,11
Kontingenzkoeffizient: 0,11
Korrigierter Kontingenzkoeffizient: 0,16

Der korrigierte Kontingenzkoeffizient von 0,16 zeigt eine sehr schwache Assoziation zwischen Geschlecht und Wohnort.

Die zweidimensionale Häufigkeitsverteilung für die Variablen "Zahlungsart" und "Wohnort" ist eine Kontingenztabelle:

Berlin Sonst RV
Bar 44 17 61
Karte 21 22 43
Scheck 22 39 61
RV 87 78 165
-Koeffizient: 16,27
Kontingenzkoeffizient: 0,30
Korrigierter Kontingenzkoeffizient: 0,42

Der korrigierte Kontingenzkoeffizient von 0,42 zeigt eine mittelstarke Assoziation zwischen Zahlungsart und Wohnort.

Sie ist deutlich größer, als die Beziehungen der obigen beiden Zusammenhänge.