Zweidimensionale Häufigkeitsverteilung: Unterschied zwischen den Versionen

Aus MM*Stat

Wechseln zu: Navigation, Suche
Keine Bearbeitungszusammenfassung
Zeile 91: Zeile 91:
|}
|}


'''Video:''' [https://box.hu-berlin.de/d/3f2c2ee1f0084e578236/files/?p=/MM-Stat%20%28Statistik%20I%2BII%2C%20Datenanalyse%20I%2BII%29/Kreuztabellen.mp4 Kreuztabellen]
===Video===
 
[https://box.hu-berlin.de/d/3f2c2ee1f0084e578236/files/?p=/MM-Stat%20%28Statistik%20I%2BII%2C%20Datenanalyse%20I%2BII%29/Kreuztabellen.mp4 Kreuztabellen]


=={{Vorlage:Beispiele}}==
=={{Vorlage:Beispiele}}==

Version vom 29. März 2019, 08:46 Uhr

Dieser Artikel behandelt die zweidimensionale Häufigkeitsverteilung. Für den eindimensionalen Fall siehe: Eindimensionale Häufigkeitsverteilung.

Bivariate Statistik

Zweidimensionale Häufigkeitsverteilung • Graphische Darstellung zweidimensionaler Verteilungen • Randverteilungen, Bedingte Verteilungen • Parameter zweidimensionaler Verteilungen (empirisch) • Kontingenz • Spearman'scher Rangkorrelationskoeffizient • Kendall'scher Rangkorrelationskoeffizient • Kovarianz (empirisch) • Bravais–Pearson–Korrelationskoeffizient • Multiple Choice • Video • Aufgaben • Lösungen
3D-Balkendiagramm • 3D-Scatterplot • Absolute Häufigkeit (zweidimensional) • Ausprägungskombination • Bedingte Verteilung (empirisch) • Bindung • Chi-Quadrat-Koeffizient • Diskordante Merkmalspaare • Gegensinnige Merkmalspaare • Gemeinsame Variation • Gleichsinnige Merkmalspaare • Gruppiertes Balkendiagramm • Häufigkeitstabelle (zweidimensional) • Konditionale Verteilung • Konkordante Merkmalspaare • Kontingenzkoeffizient • Kontingenztabelle • Korrelation • Korrelationskoeffizient (empirisch) • Korrelationskoeffizient (nach Bravais-Pearson) • Korrigierter Kontingenzkoeffizient • Kreuztabelle • linearer Zusammenhang • Marginale Verteilung (empirisch) • Parameter (emp. Randverteilung) • Parameter (emp. bedingte Verteilung) • Quadratische Kontingenz • Randverteilung (empirisch) • Relative Häufigkeit (zweidimensional) • Scatterplot • Scatterplot-Matrix • Streuungsdiagramm • Unabhängigkeit (empirisch) • Unabhängigkeit (statistisch) • Variation (Streuung)

Grundbegriffe

Zweidimensionale Häufigkeitsverteilung

Gegeben sind

  • ein Merkmal mit den Ausprägungen
  • ein Merkmal mit den Ausprägungen

Die Gesamtheit aller auftretenden Kombinationen von Merkmalsausprägungen , und den dazugehörigen zweidimensionalen absoluten bzw. relativen Häufigkeiten wird als zweidimensionale Häufigkeitsverteilung bezeichnet.

Ausprägungskombination

Die Anzahl der möglichen Ausprägungskombinationen ist gleich der insgesamt möglichen Kombinationen von Merkmalsausprägungen der beiden Merkmale (Produkt aus der Zahl der Ausprägungen des Merkmals und der Zahl der Ausprägungen des Merkmals ).

Zweidimensionale absolute Häufigkeit

Die Anzahl der statistischen Einheiten, bei denen eine bestimmte Ausprägungskombination auftritt, heißt zweidimensionale absolute Häufigkeit:

Es gilt:

Zweidimensionale relative Häufigkeit

Der Anteil der zweidimensionalen absoluten Häufigkeit einer bestimmten Ausprägungskombination an der Gesamtzahl der Beobachtungen heißt zweidimensionale relative Häufigkeit:

Es gilt:

Zweidimensionale Häufigkeitstabelle, Kontingenztabelle oder Kreuztabelle

Eine geeignete Darstellungsform für die gemeinsame Häufigkeitsverteilung zweier nominalskalierter oder ordinalskalierter Merkmale sowie metrisch diskreter Variablen mit wenigen Ausprägungen ist die zweidimensionale Häufigkeitstabelle (auch zweidimensionale Kontingenztabelle oder Kreuztabelle).

Sie hat die folgende Form:

Merkmal Merkmal RV
RV

Video

Kreuztabellen

Beispiele

Berufsgruppe und sportliche Betätigung

- Berufsgruppe (nominalskaliert)

- sportliche Betätigung (nominalskaliert)

= 1000 berufstätige Personen

Kontingenztabelle:

Berufsgruppe sportliche Betätigung RV
kaum manchmal regelmäßig
Arbeiter 240 120 70 430
Angestellter 160 90 90 340
Beamter 30 30 30 90
Landwirt 7 6 50
sonstiger freier Beruf 40 32 18 90
RV 507 279 214 1000

Haushaltsnettoeinkommen

Von 10 Zwei-Personen-Haushalten wurden jeweils das monatliche Haushaltsnettoeinkommen (metrisch skaliert) sowie die Konsumausgaben (metrisch skaliert) ermittelt.

Die Ergebnisse sind in folgender Tabelle dargestellt:

Haushalt 1 2 3 4 5 6 7 8 9 10
HH-Nettoeinkommen in Euro 3500 5000 4300 6100 1000 4800 2900 2400 5600 4100
Konsumausgaben in Euro 2000 3500 3100 3900 900 3000 2100 1900 2900 2100

Rauchen und Lungenkrebs

An zufällig ausgewählten Personen wird festgestellt, ob sie rauchen und ob bei ihnen Lungenkrebs aufgetreten ist. Die Variablen sind

  • - "Rauchen" mit den Ausprägungen ja und nein
  • - Auftreten von "Lungenkrebs" mit den Ausprägungen ja und = nein

Die zweidimensionale Häufigkeitsverteilung wird durch eine Kontingenztabelle dargestellt.

Lungenkrebs

ja

Lungenkrebs

nein

RV
Rauchen ja 10 15 25
Rauchen nein 5 70 75
RV 15 85 100

Die Zahlen in der Tabelle haben z.B. folgende Bedeutung: An der zufällig ausgewählten Personen wurde beobachtet, dass sie Rauchen und dass bei ihnen Lungenkrebs aufgetreten ist.

Von allen befragten Personen rauchen 25.

Bei 85 der befragten Personen trat kein Lungenkrebs auf.

Kundenerfassung

Für den Datensatz "Kaufhaus" wurden Kunden eines großen Kaufhauses zufällig ausgewählt und folgende Variablen mit den angegebenen Ausprägungen erfasst:

  • - "Geschlecht" mit den Ausprägungen 1 (männlich) und 2 (weiblich),
  • - "Zahlungsart" mit den Ausprägungen 1 (Barzahlung), 2 (EC-Karte) und 3 (Kreditkarte) und
  • - "Wohnort" mit den Ausprägungen 1 (Berlin) und 2 (nicht Berlin).

Nachfolgend sind die drei möglichen zweidimensionalen Häufigkeitsverteilungen aufgeführt, die sich aus den Variablen dieser Daten bilden lassen. Neben den absoluten Häufigkeiten sind in Klammern die relativen Häufigkeiten (gerundet auf drei Dezimalstellen) angegeben.

Die zweidimensionale Häufigkeitsverteilung für die Variablen "Geschlecht" und "Zahlungsart" ist eine Kontingenztabelle.

Geschlecht Zahlungsart RV
Bar EC-Karte Kreditkarte
männlich 31 (0,188) 32 (0,194) 23 (0,139) 86 (0,521)
weiblich 30 (0,182) 29 (0,176) 20 (0,121) 79 (0,479)
RV 61 (0,370) 61 (0,370) 43 (0,260) 165 (1,00)

Die zweidimensionale Häufigkeitsverteilung für die Variablen "Geschlecht" und "Wohnort" ist eine Kontingenztabelle.

Geschlecht Wohnort RV
Berlin nicht Berlin
männlich 50 (0,303) 36 (0,218) 86 (0,521)
weiblich 37 (0,224) 42 (0,255) 79 (0,429)
RV 87 (0,527) 78 (0,473) 165 (1,00)

Die zweidimensionale Häufigkeitsverteilung für die Variablen "Wohnort" und "Zahlungsart" ist eine Kontingenztabelle.

Wohnort Zahlungsart RV
Bar EC-Karte Kreditkarte
Berlin 44 (0,267) 22 (0,133) 21 (0,127) 87 (0,527)
nicht Berlin 17 (0,103) 39 (0,237) 22 (0,133) 78 (0,473)
RV 61 (0,370) 61 (0,370) 43 (0,260) 165 (1,00)