Kontingenz: Unterschied zwischen den Versionen

Aus MM*Stat

Wechseln zu: Navigation, Suche
 
Zeile 1: Zeile 1:
 
{{Bivariate Statistik}}
 
{{Bivariate Statistik}}
 +
{{SubpageToc|Video}}
  
 
=={{Vorlage:Überschrift}}==
 
=={{Vorlage:Überschrift}}==
Zeile 275: Zeile 276:
 
Häufigkeitstabellen für die ausgewählten Variablen sowie die <math>chi^2</math>-Statistik und die Kontingenzkoeffizienten berechnet und im Output-Fenster angezeigt.
 
Häufigkeitstabellen für die ausgewählten Variablen sowie die <math>chi^2</math>-Statistik und die Kontingenzkoeffizienten berechnet und im Output-Fenster angezeigt.
 
-->
 
-->
 
=== Sportveranstaltungen ===
 
 
<iframe k="hubox" p="d/3f2c2ee1f0084e578236/files/?p=/Statistik%20Aufgaben/Bivariate%20Statistik-Sportveranstaltungen%20%2815%20min%29.mp4" />
 
 
 
=== Stellung im Beruf ===
 
 
<iframe k="hubox" p="d/3f2c2ee1f0084e578236/files/?p=/Statistik%20Aufgaben/Bivariate%20Statistik-Stellung%20im%20Beruf.mp4"/>
 

Aktuelle Version vom 10. April 2019, 08:27 Uhr

Bivariate Statistik

Zweidimensionale Häufigkeitsverteilung • Graphische Darstellung zweidimensionaler Verteilungen • Randverteilungen, Bedingte Verteilungen • Parameter zweidimensionaler Verteilungen (empirisch) • Kontingenz • Spearman'scher Rangkorrelationskoeffizient • Kendall'scher Rangkorrelationskoeffizient • Kovarianz (empirisch) • Bravais–Pearson–Korrelationskoeffizient • Multiple Choice • Video • Aufgaben • Lösungen
3D-Balkendiagramm • 3D-Scatterplot • Absolute Häufigkeit (zweidimensional) • Ausprägungskombination • Bedingte Verteilung (empirisch) • Bindung • Chi-Quadrat-Koeffizient • Diskordante Merkmalspaare • Gegensinnige Merkmalspaare • Gemeinsame Variation • Gleichsinnige Merkmalspaare • Gruppiertes Balkendiagramm • Häufigkeitstabelle (zweidimensional) • Konditionale Verteilung • Konkordante Merkmalspaare • Kontingenzkoeffizient • Kontingenztabelle • Korrelation • Korrelationskoeffizient (empirisch) • Korrelationskoeffizient (nach Bravais-Pearson) • Korrigierter Kontingenzkoeffizient • Kreuztabelle • linearer Zusammenhang • Marginale Verteilung (empirisch) • Parameter (emp. Randverteilung) • Parameter (emp. bedingte Verteilung) • Quadratische Kontingenz • Randverteilung (empirisch) • Relative Häufigkeit (zweidimensional) • Scatterplot • Scatterplot-Matrix • Streuungsdiagramm • Unabhängigkeit (empirisch) • Unabhängigkeit (statistisch) • Variation (Streuung)

Grundbegriffe

Kontingenz

Ausgangspunkt für die Analyse von Zusammenhängen zwischen nominalskalierten Daten bildet die gemeinsame Häufigkeitsverteilung zweier Merkmale X\; und Y\; in Form der Kontingenztabelle mit den in ihr enthaltenen

absoluten Häufigkeiten h_{ij}=h(x_{i},y_{j})\quad (i=1,\ldots,m;\; j=1,\ldots ,r)

oder

relativen Häufigkeiten f_{ij}=f(x_{i},y_{j})=h(x_{i},y_{j})/n\quad (i=1,\ldots ,m; \; j=1,\ldots ,r)

Wie im Abschnitt Parameter zweidimensionaler Verteilungen (empirisch) bereits ausgeführt, entspricht bei Unabhängigkeit der Merkmale X\; und Y\; die relative Häufigkeit für das gemeinsame Auftreten der Ausprägungen x_{i} und y_{i} (i=1,\dots ,m;\quad j=1,\dots ,r) dem Produkt der relativen Häufigkeiten der Randverteilungen dieser beiden Merkmale:

f_{ij}=f_{i\bullet} f_{\bullet j}\quad \mbox{bzw.}\quad h_{ij}=\frac{h_{i\bullet} h_{\bullet j}} {n}=n f_{i\bullet} f_{\bullet j}

Quadratische Kontingenz oder Chi-Quadrat-Koeffizient

Ausgehend von diesen Vorbetrachtungen lässt sich im folgenden eine Hilfsgröße - die quadratische Kontingenz oder Chi-Quadrat-Koeffizient, symbolisiert mit \chi^{2} - berechnen:

\chi^{2}=\sum_{i=1}^{m}\limits\sum_{j=1}^{r}\limits\frac{\left( h_{ij}-\frac{1}{n}\cdot h_{i\bullet }\cdot h_{\bullet j}\right)^{2}}{\frac{1}{n}\cdot h_{i\bullet }\cdot h_{\bullet j}}=n\cdot \sum_{i=1}^{m}\limits\sum_{j=1}^{r}\limits\frac{(f_{ij}-f_{i\bullet}\cdot f_{\bullet j})^{2}}{f_{i\bullet }f_{\bullet j}}

Den Zähler des obigen Summanden bilden die quadratischen Abweichungen der beobachteten absoluten bzw. relativen Häufigkeiten von den unter Unabhängigkeit der Merkmale erwarteten absoluten bzw. relativen Häufigkeiten.

Durch die zusätzliche Division durch die unter Unabhängigkeit erwarteten absoluten bzw. relativen Häufigkeiten wird eine Standardisierung erreicht.

Kontingenzkoeffizient

Unter Verwendung der quadratischen Kontingenz lässt sich der Kontingenzkoeffizient als Maß für die Stärke der Beziehung zwischen nominalskalierten Merkmalen berechnen:

C=\sqrt{\frac{\chi ^{2}}{n+\chi ^{2}}}

0\leq C\leq \sqrt{\frac{C^{*}-1}{C^{*}}};\quad C^{*}=min(m,r).

Bei einem Kontingenzkoeffizienten von 0 liegt statistische Unabhängigkeit vor.

Korrigierter Kontingenzkoeffizient

Den Wert 1 erreicht der Kontingenzkoeffizient praktisch nie, auch wenn ein vollständiger Zusammenhang zwischen beiden Merkmalen besteht, da die Anzahl der Beobachtungen n immer größer als Null sind und damit auch der Nenner immer größer als der Zähler ist.

Um diesem Problem zu begegnen und bei einem vollkommenen Zusammenhang den Wert 1 zu erreichen, wird in vielen Fällen der korrigierte Kontingenzkoeffizient verwendet, der sich aus dem "normalen" Kontingenzkoeffizienten wie folgt berechnen lässt:

C_{korr}=C\cdot \sqrt{\frac{C^{*}}{C^{*}-1}},\quad 0\leq C_{korr}\leq 1

Beispiele

Lungenkrebs

Im folgenden soll untersucht werden, ob ein Zusammenhang zwischen Rauchen und dem Auftreten von Lungenkrebs besteht, wobei von nachstehender Kontingenztabelle ausgegangen wird.

Lungenkrebs

ja (y_{1})

Lungenkrebs

nein (y_{2})

RV X\;
Rauchen ja (x_{1}) 10 15 25 (h_{1\bullet })
Rauchen nein (x_{2}) 5 70 75 (h_{2\bullet} )
RV Y\; 15 (h_{\bullet 1}) 85 (h_{\bullet 2}) 100 (n)


\chi^{2}=\frac{\left( 10-\frac{15\cdot 25}{100}\right)^{2}}{\frac{15\cdot 25}{100}}+\frac{\left( 15-\frac{85\cdot 25}{100}\right)^{2}}{\frac{85\cdot 25}{100}}+\frac{\left( 5-\frac{15\cdot 75}{100}\right)^{2}}{\frac{15\cdot 75}{100}}+\frac{\left( 70-\frac{85\cdot
75}{100}\right) ^{2}}{\frac{85\cdot 75}{100}}=16,34

C=\sqrt{\frac{16,34}{100+16,34}}=0,375

C_{korr}=0,375\cdot \sqrt{\frac{2}{2-1}}=0,53

Der korrigierte Kontingenzkoeffizient von 0,53 weist auf einen Zusammenhang zwischen Rauchen und dem Auftreten von Lungenkrebs hin.

Kundenerfassung

Für den Datensatz "Kaufhaus" wurden n = 165 Kunden eines großen Kaufhauses zufällig ausgewählt und folgende Variablen mit den angegebenen Ausprägungen erfasst:

Variablen Ausprägungen
X\; Geschlecht 1 - männlich
2 - weiblich
Y\; Zahlungsart 1 - Barzahlung
2 - EC-Karte
3 - Kreditkarte
Z\; Wohnort 1 - Berlin
2 - nicht Berlin

Nachfolgend sind die drei möglichen zweidimensionalen Häufigkeitsverteilungen aufgeführt, die sich aus den Variablen dieser Datei bilden lassen, sowie die jeweiligen Kontingenzkoeffizienten berechnet:

Die zweidimensionale Häufigkeitsverteilung für die Variablen "Geschlecht" und "Zahlungsart" ist eine 2\times3 Kontingenztabelle:

Bar Karte Scheck RV
Frau 30 20 29 79
Mann 31 23 23 86
RV 61 43 61 165
\chi^{2}-Koeffizient: 0,08
Kontingenzkoeffizient: 0,02
Korrigierter Kontingenzkoeffizient: 0,03

Der korrigierte Kontingenzkoeffizient von 0,03 zeigt, dass ein nur sehr geringer Zusammenhang zwischen Geschlecht und Zahlungsart besteht.

Die zweidimensionale Häufigkeitsverteilung für die Variablen "Geschlecht" und "Wohnort" ist eine 2\times2 Kontingenztabelle:

Berlin Sonst RV
Frau 37 42 79
Mann 50 36 86
RV 87 78 165
\chi^{2}-Koeffizient: 2,11
Kontingenzkoeffizient: 0,11
Korrigierter Kontingenzkoeffizient: 0,16

Der korrigierte Kontingenzkoeffizient von 0,16 zeigt eine sehr schwache Assoziation zwischen Geschlecht und Wohnort.

Die zweidimensionale Häufigkeitsverteilung für die Variablen "Zahlungsart" und "Wohnort" ist eine 2\times2 Kontingenztabelle:

Berlin Sonst RV
Bar 44 17 61
Karte 21 22 43
Scheck 22 39 61
RV 87 78 165
\chi^{2}-Koeffizient: 16,27
Kontingenzkoeffizient: 0,30
Korrigierter Kontingenzkoeffizient: 0,42

Der korrigierte Kontingenzkoeffizient von 0,42 zeigt eine mittelstarke Assoziation zwischen Zahlungsart und Wohnort.

Sie ist deutlich größer, als die Beziehungen der obigen beiden Zusammenhänge.