Kontingenz

Ausgangspunkt für die Analyse von Zusammenhängen zwischen nominalskalierten Daten bildet die gemeinsame Häufigkeitsverteilung zweier Merkmale $X\;$ und $Y\;$ in Form der Kontingenztabelle mit den in ihr enthaltenen

absoluten Häufigkeiten $h_{ij}=h(x_{i},y_{j})\quad (i=1,\ldots ,m;\;j=1,\ldots ,r)$

oder

relativen Häufigkeiten $f_{ij}=f(x_{i},y_{j})=h(x_{i},y_{j})/n\quad (i=1,\ldots ,m;\;j=1,\ldots ,r)$

Wie im Abschnitt Parameter zweidimensionaler Verteilungen (empirisch) bereits ausgeführt, entspricht bei Unabhängigkeit der Merkmale $X\;$ und $Y\;$ die relative Häufigkeit für das gemeinsame Auftreten der Ausprägungen $x_{i}$ und $y_{i}$ $(i=1,\dots ,m;\quad j=1,\dots ,r)$ dem Produkt der relativen Häufigkeiten der Randverteilungen dieser beiden Merkmale:

$f_{ij}=f_{i\bullet }f_{\bullet j}\quad {\mbox{bzw.}}\quad h_{ij}={\frac {h_{i\bullet }h_{\bullet j}}{n}}=nf_{i\bullet }f_{\bullet j}$

Quadratische Kontingenz oder Chi-Quadrat-Koeffizient

Ausgehend von diesen Vorbetrachtungen lässt sich im folgenden eine Hilfsgröße - die quadratische Kontingenz oder Chi-Quadrat-Koeffizient, symbolisiert mit $\chi ^{2}$ - berechnen:

$\chi ^{2}=\sum _{i=1}^{m}\limits \sum _{j=1}^{r}\limits {\frac {\left(h_{ij}-{\frac {1}{n}}\cdot h_{i\bullet }\cdot h_{\bullet j}\right)^{2}}{{\frac {1}{n}}\cdot h_{i\bullet }\cdot h_{\bullet j}}}=n\cdot \sum _{i=1}^{m}\limits \sum _{j=1}^{r}\limits {\frac {(f_{ij}-f_{i\bullet }\cdot f_{\bullet j})^{2}}{f_{i\bullet }f_{\bullet j}}}$

Den Zähler des obigen Summanden bilden die quadratischen Abweichungen der beobachteten absoluten bzw. relativen Häufigkeiten von den unter Unabhängigkeit der Merkmale erwarteten absoluten bzw. relativen Häufigkeiten.

Durch die zusätzliche Division durch die unter Unabhängigkeit erwarteten absoluten bzw. relativen Häufigkeiten wird eine Standardisierung erreicht.

Kontingenzkoeffizient

Unter Verwendung der quadratischen Kontingenz lässt sich der Kontingenzkoeffizient als Maß für die Stärke der Beziehung zwischen nominalskalierten Merkmalen berechnen:

$C={\sqrt {\frac {\chi ^{2}}{n+\chi ^{2}}}}$

$0\leq C\leq {\sqrt {\frac {C^{*}-1}{C^{*}}}};\quad C^{*}=min(m,r)$ .

Bei einem Kontingenzkoeffizienten von $0$ liegt statistische Unabhängigkeit vor.

Korrigierter Kontingenzkoeffizient

Den Wert $1$ erreicht der Kontingenzkoeffizient praktisch nie, auch wenn ein vollständiger Zusammenhang zwischen beiden Merkmalen besteht, da die Anzahl der Beobachtungen $n$ immer größer als Null sind und damit auch der Nenner immer größer als der Zähler ist.

Um diesem Problem zu begegnen und bei einem vollkommenen Zusammenhang den Wert $1$ zu erreichen, wird in vielen Fällen der korrigierte Kontingenzkoeffizient verwendet, der sich aus dem "normalen" Kontingenzkoeffizienten wie folgt berechnen lässt:

$C_{korr}=C\cdot {\sqrt {\frac {C^{*}}{C^{*}-1}}},\quad 0\leq C_{korr}\leq 1$

Beispiele

Lungenkrebs

Im folgenden soll untersucht werden, ob ein Zusammenhang zwischen Rauchen und dem Auftreten von Lungenkrebs besteht, wobei von nachstehender Kontingenztabelle ausgegangen wird.

	Lungenkrebs ja $(y_{1})$	Lungenkrebs nein $(y_{2})$	RV $X\;$
Rauchen ja $(x_{1})$	10	15	25 $(h_{1\bullet })$
Rauchen nein $(x_{2})$	5	70	75 $(h_{2\bullet })$
RV $Y\;$	15 $(h_{\bullet 1})$	85 $(h_{\bullet 2})$	100 $(n)$

$\chi ^{2}={\frac {\left(10-{\frac {15\cdot 25}{100}}\right)^{2}}{\frac {15\cdot 25}{100}}}+{\frac {\left(15-{\frac {85\cdot 25}{100}}\right)^{2}}{\frac {85\cdot 25}{100}}}+{\frac {\left(5-{\frac {15\cdot 75}{100}}\right)^{2}}{\frac {15\cdot 75}{100}}}+{\frac {\left(70-{\frac {85\cdot 75}{100}}\right)^{2}}{\frac {85\cdot 75}{100}}}=16,34$

$C={\sqrt {\frac {16,34}{100+16,34}}}=0,375$

$C_{korr}=0,375\cdot {\sqrt {\frac {2}{2-1}}}=0,53$

Der korrigierte Kontingenzkoeffizient von 0,53 weist auf einen Zusammenhang zwischen Rauchen und dem Auftreten von Lungenkrebs hin.

Kundenerfassung

Für den Datensatz "Kaufhaus" wurden $n=165$ Kunden eines großen Kaufhauses zufällig ausgewählt und folgende Variablen mit den angegebenen Ausprägungen erfasst:

Variablen	Ausprägungen
$X\;$ Geschlecht	1 - männlich
	2 - weiblich
$Y\;$ Zahlungsart	1 - Barzahlung
	2 - EC-Karte
	3 - Kreditkarte
$Z\;$ Wohnort	1 - Berlin
	2 - nicht Berlin

Nachfolgend sind die drei möglichen zweidimensionalen Häufigkeitsverteilungen aufgeführt, die sich aus den Variablen dieser Datei bilden lassen, sowie die jeweiligen Kontingenzkoeffizienten berechnet:

Die zweidimensionale Häufigkeitsverteilung für die Variablen "Geschlecht" und "Zahlungsart" ist eine $2\times 3$ Kontingenztabelle:

	Bar	Karte	Scheck	RV
Frau	30	20	29	79
Mann	31	23	23	86
RV	61	43	61	165

$\chi ^{2}$ -Koeffizient:	0,08
Kontingenzkoeffizient:	0,02
Korrigierter Kontingenzkoeffizient:	0,03

Der korrigierte Kontingenzkoeffizient von 0,03 zeigt, dass ein nur sehr geringer Zusammenhang zwischen Geschlecht und Zahlungsart besteht.

Die zweidimensionale Häufigkeitsverteilung für die Variablen "Geschlecht" und "Wohnort" ist eine $2\times 2$ Kontingenztabelle:

	Berlin	Sonst	RV
Frau	37	42	79
Mann	50	36	86
RV	87	78	165

$\chi ^{2}$ -Koeffizient:	2,11
Kontingenzkoeffizient:	0,11
Korrigierter Kontingenzkoeffizient:	0,16

Der korrigierte Kontingenzkoeffizient von 0,16 zeigt eine sehr schwache Assoziation zwischen Geschlecht und Wohnort.

Die zweidimensionale Häufigkeitsverteilung für die Variablen "Zahlungsart" und "Wohnort" ist eine $2\times 2$ Kontingenztabelle:

	Berlin	Sonst	RV
Bar	44	17	61
Karte	21	22	43
Scheck	22	39	61
RV	87	78	165

$\chi ^{2}$ -Koeffizient:	16,27
Kontingenzkoeffizient:	0,30
Korrigierter Kontingenzkoeffizient:	0,42

Der korrigierte Kontingenzkoeffizient von 0,42 zeigt eine mittelstarke Assoziation zwischen Zahlungsart und Wohnort.

Sie ist deutlich größer, als die Beziehungen der obigen beiden Zusammenhänge.

Kontingenz

Aus MM*Stat

Inhaltsverzeichnis

Grundbegriffe

Kontingenz

Quadratische Kontingenz oder Chi-Quadrat-Koeffizient

Kontingenzkoeffizient

Korrigierter Kontingenzkoeffizient

Beispiele

Lungenkrebs

Kundenerfassung