Zweidimensionale Häufigkeitsverteilung

Aus MM*Stat

Wechseln zu: Navigation, Suche
Dieser Artikel behandelt die zweidimensionale Häufigkeitsverteilung. Für den eindimensionalen Fall siehe: Eindimensionale Häufigkeitsverteilung.

Bivariate Statistik

Zweidimensionale Häufigkeitsverteilung • Graphische Darstellung zweidimensionaler Verteilungen • Randverteilungen, Bedingte Verteilungen • Parameter zweidimensionaler Verteilungen (empirisch) • Kontingenz • Spearman'scher Rangkorrelationskoeffizient • Kendall'scher Rangkorrelationskoeffizient • Kovarianz (empirisch) • Bravais–Pearson–Korrelationskoeffizient • Multiple Choice • Video • Aufgaben • Lösungen
3D-Balkendiagramm • 3D-Scatterplot • Absolute Häufigkeit (zweidimensional) • Ausprägungskombination • Bedingte Verteilung (empirisch) • Bindung • Chi-Quadrat-Koeffizient • Diskordante Merkmalspaare • Gegensinnige Merkmalspaare • Gemeinsame Variation • Gleichsinnige Merkmalspaare • Gruppiertes Balkendiagramm • Häufigkeitstabelle (zweidimensional) • Konditionale Verteilung • Konkordante Merkmalspaare • Kontingenzkoeffizient • Kontingenztabelle • Korrelation • Korrelationskoeffizient (empirisch) • Korrelationskoeffizient (nach Bravais-Pearson) • Korrigierter Kontingenzkoeffizient • Kreuztabelle • linearer Zusammenhang • Marginale Verteilung (empirisch) • Parameter (emp. Randverteilung) • Parameter (emp. bedingte Verteilung) • Quadratische Kontingenz • Randverteilung (empirisch) • Relative Häufigkeit (zweidimensional) • Scatterplot • Scatterplot-Matrix • Streuungsdiagramm • Unabhängigkeit (empirisch) • Unabhängigkeit (statistisch) • Variation (Streuung)

Grundbegriffe

Zweidimensionale Häufigkeitsverteilung

Gegeben sind

Die Gesamtheit aller auftretenden Kombinationen (x_i,y_j) von Merkmalsausprägungen x_{i}, y_{j} und den dazugehörigen zweidimensionalen absoluten bzw. relativen Häufigkeiten wird als zweidimensionale Häufigkeitsverteilung bezeichnet.

Ausprägungskombination

Die Anzahl der möglichen Ausprägungskombinationen (x_i,y_j)={(X=x_i)\ \cap\ (Y=y_j)} ist gleich der insgesamt möglichen Kombinationen von Merkmalsausprägungen der beiden Merkmale (Produkt (m\cdot r) aus der Zahl der Ausprägungen des Merkmals X\; und der Zahl der Ausprägungen des Merkmals Y\;).

Zweidimensionale absolute Häufigkeit

Die Anzahl der statistischen Einheiten, bei denen eine bestimmte Ausprägungskombination (x_{i}; y_{j}) auftritt, heißt zweidimensionale absolute Häufigkeit:

h(x_i,y_j)=h_{ij}

Es gilt: \sum_{i=1}^{m}\sum_{j=1}^{r}h(x_{i},y_{j})=n

Zweidimensionale relative Häufigkeit

Der Anteil der zweidimensionalen absoluten Häufigkeit einer bestimmten Ausprägungskombination (x_{i},y_{j}) an der Gesamtzahl n der Beobachtungen heißt zweidimensionale relative Häufigkeit:

f(x_i,y_j)=f_{ij}=h(x_i,y_j)/n

Es gilt: \sum_{i=1}^{m}\sum_{j=1}^{r}f(x_{i},y_{j})=1

Zweidimensionale Häufigkeitstabelle, Kontingenztabelle oder Kreuztabelle

Eine geeignete Darstellungsform für die gemeinsame Häufigkeitsverteilung zweier nominalskalierter oder ordinalskalierter Merkmale sowie metrisch diskreter Variablen mit wenigen Ausprägungen ist die zweidimensionale Häufigkeitstabelle (auch zweidimensionale Kontingenztabelle oder Kreuztabelle).

Sie hat die folgende Form:

Merkmal X\; Merkmal Y\; RV X
y_{i} \cdots y_{j} \cdots y_{r}
x_{1} h_{11} \cdots h_{1j} \cdots h_{1r} h_{1 \bullet }
\vdots \vdots \ddots \vdots \ddots \vdots \vdots
x_{i} h_{i1} \cdots h_{ij} \cdots h_{ir} h_{i \bullet }
\vdots \vdots \ddots \vdots \ddots \vdots \vdots
RV Y\; h_{\bullet 1} \cdots h_{\bullet j} \cdots h_{\bullet r} h_{\bullet \bullet }=n

Video

Kreuztabellen

Beispiele

Berufsgruppe und sportliche Betätigung

X\; - Berufsgruppe (nominalskaliert)

Y\; - sportliche Betätigung (nominalskaliert)

n = 1000 berufstätige Personen

Kontingenztabelle:

Berufsgruppe X\; sportliche Betätigung Y\; RV X\;
kaum manchmal regelmäßig
Arbeiter 240 120 70 430
Angestellter 160 90 90 340
Beamter 30 30 30 90
Landwirt 37 7 6 50
sonstiger freier Beruf 40 32 18 90
RV Y\; 507 279 214 1000

Haushaltsnettoeinkommen

Von 10 Zwei-Personen-Haushalten wurden jeweils das monatliche Haushaltsnettoeinkommen (metrisch skaliert) sowie die Konsumausgaben (metrisch skaliert) ermittelt.

Die Ergebnisse sind in folgender Tabelle dargestellt:

Haushalt (i) 1 2 3 4 5 6 7 8 9 10
HH-Nettoeinkommen in Euro x_{i} 3500 5000 4300 6100 1000 4800 2900 2400 5600 4100
Konsumausgaben in Euro y_{i} 2000 3500 3100 3900 900 3000 2100 1900 2900 2100

Rauchen und Lungenkrebs

An n = 100 zufällig ausgewählten Personen wird festgestellt, ob sie rauchen und ob bei ihnen Lungenkrebs aufgetreten ist. Die Variablen sind

Die zweidimensionale Häufigkeitsverteilung wird durch eine 2\times2 Kontingenztabelle dargestellt.

Lungenkrebs

ja (y_{1})

Lungenkrebs

nein (y_{2})

RV X\;
Rauchen ja (x_{1}) 10 15 25 (h_{1\bullet })
Rauchen nein (x_{2}) 5 70 75 (h_{2\bullet })
RV Y\; 15 (h_{\bullet 1}) 85 (h_{\bullet 2}) 100 (n)

Die Zahlen in der Tabelle haben z.B. folgende Bedeutung: An 10 der zufällig ausgewählten Personen wurde beobachtet, dass sie Rauchen und dass bei ihnen Lungenkrebs aufgetreten ist.

Von allen befragten Personen rauchen 25.

Bei 85 der befragten Personen trat kein Lungenkrebs auf.

Kundenerfassung

Für den Datensatz "Kaufhaus" wurden n = 165 Kunden eines großen Kaufhauses zufällig ausgewählt und folgende Variablen mit den angegebenen Ausprägungen erfasst:

  • X\; - "Geschlecht" mit den Ausprägungen 1 (männlich) und 2 (weiblich),
  • Y\; - "Zahlungsart" mit den Ausprägungen 1 (Barzahlung), 2 (EC-Karte) und 3 (Kreditkarte) und
  • Z\; - "Wohnort" mit den Ausprägungen 1 (Berlin) und 2 (nicht Berlin).

Nachfolgend sind die drei möglichen zweidimensionalen Häufigkeitsverteilungen aufgeführt, die sich aus den Variablen dieser Daten bilden lassen. Neben den absoluten Häufigkeiten h_{ij} sind in Klammern die relativen Häufigkeiten f_{ij} (gerundet auf drei Dezimalstellen) angegeben.

Die zweidimensionale Häufigkeitsverteilung für die Variablen "Geschlecht" und "Zahlungsart" ist eine 2 \times 3 Kontingenztabelle.

Geschlecht (X)\; Zahlungsart (Y)\; RV X\;
Bar (y_{1}) EC-Karte (y_{2}) Kreditkarte (y_{3})
männlich (x_{1}) 31 (0,188) 32 (0,194) 23 (0,139) 86 (0,521)
weiblich (x_{2}) 30 (0,182) 29 (0,176) 20 (0,121) 79 (0,479)
RV Y\; 61 (0,370) 61 (0,370) 43 (0,260) 165 (1,00)

Die zweidimensionale Häufigkeitsverteilung für die Variablen "Geschlecht" und "Wohnort" ist eine 2\times2 Kontingenztabelle.

Geschlecht (X)\; Wohnort (Z)\; RV X\;
Berlin (z_{1}) nicht Berlin (z_{2})
männlich (x_{1}) 50 (0,303) 36 (0,218) 86 (0,521)
weiblich (x_{2}) 37 (0,224) 42 (0,255) 79 (0,429)
RV Y\; 87 (0,527) 78 (0,473) 165 (1,00)

Die zweidimensionale Häufigkeitsverteilung für die Variablen "Wohnort" und "Zahlungsart" ist eine 2\times3 Kontingenztabelle.

Wohnort (Z)\; Zahlungsart (Y)\; RV X\;
Bar (y_{1}) EC-Karte (y_{2}) Kreditkarte (y_{3})
Berlin (z_{1}) 44 (0,267) 22 (0,133) 21 (0,127) 87 (0,527)
nicht Berlin (z_{2}) 17 (0,103) 39 (0,237) 22 (0,133) 78 (0,473)
RV Y\; 61 (0,370) 61 (0,370) 43 (0,260) 165 (1,00)