Zweidimensionale Häufigkeitsverteilung: Unterschied zwischen den Versionen
Aus MM*Stat
(Die Seite wurde neu angelegt: „{{Begriffsklärungshinweis|Dieser Artikel behandelt die '''zweidimensionale Häufigkeitsverteilung'''. Für den eindimensionalen Fall siehe: Eindimensionale…“) |
|||
Zeile 90: | Zeile 90: | ||
|align="center"|<math>h_{\bullet \bullet }=n</math> | |align="center"|<math>h_{\bullet \bullet }=n</math> | ||
|} | |} | ||
'''Video''' | |||
[https://box.hu-berlin.de/d/3f2c2ee1f0084e578236/files/?p=/MM-Stat%20%28Statistik%20I%2BII%2C%20Datenanalyse%20I%2BII%29/Kreuztabellen.mp4 Kreuztabellen] | |||
=={{Vorlage:Beispiele}}== | =={{Vorlage:Beispiele}}== |
Version vom 29. März 2019, 08:33 Uhr
Dieser Artikel behandelt die zweidimensionale Häufigkeitsverteilung. Für den eindimensionalen Fall siehe: Eindimensionale Häufigkeitsverteilung. |
Grundbegriffe
Zweidimensionale Häufigkeitsverteilung
Gegeben sind
- ein Merkmal mit den Ausprägungen
- ein Merkmal mit den Ausprägungen
Die Gesamtheit aller auftretenden Kombinationen von Merkmalsausprägungen , und den dazugehörigen zweidimensionalen absoluten bzw. relativen Häufigkeiten wird als zweidimensionale Häufigkeitsverteilung bezeichnet.
Ausprägungskombination
Die Anzahl der möglichen Ausprägungskombinationen ist gleich der insgesamt möglichen Kombinationen von Merkmalsausprägungen der beiden Merkmale (Produkt aus der Zahl der Ausprägungen des Merkmals und der Zahl der Ausprägungen des Merkmals ).
Zweidimensionale absolute Häufigkeit
Die Anzahl der statistischen Einheiten, bei denen eine bestimmte Ausprägungskombination auftritt, heißt zweidimensionale absolute Häufigkeit:
Es gilt:
Zweidimensionale relative Häufigkeit
Der Anteil der zweidimensionalen absoluten Häufigkeit einer bestimmten Ausprägungskombination an der Gesamtzahl der Beobachtungen heißt zweidimensionale relative Häufigkeit:
Es gilt:
Zweidimensionale Häufigkeitstabelle, Kontingenztabelle oder Kreuztabelle
Eine geeignete Darstellungsform für die gemeinsame Häufigkeitsverteilung zweier nominalskalierter oder ordinalskalierter Merkmale sowie metrisch diskreter Variablen mit wenigen Ausprägungen ist die zweidimensionale Häufigkeitstabelle (auch zweidimensionale Kontingenztabelle oder Kreuztabelle).
Sie hat die folgende Form:
Merkmal | Merkmal | RV | ||||
RV |
Video
Beispiele
Berufsgruppe und sportliche Betätigung
- Berufsgruppe (nominalskaliert)
- sportliche Betätigung (nominalskaliert)
= 1000 berufstätige Personen
Berufsgruppe | sportliche Betätigung | RV | ||
kaum | manchmal | regelmäßig | ||
Arbeiter | 240 | 120 | 70 | 430 |
Angestellter | 160 | 90 | 90 | 340 |
Beamter | 30 | 30 | 30 | 90 |
Landwirt | 7 | 6 | 50 | |
sonstiger freier Beruf | 40 | 32 | 18 | 90 |
RV | 507 | 279 | 214 | 1000 |
Haushaltsnettoeinkommen
Von 10 Zwei-Personen-Haushalten wurden jeweils das monatliche Haushaltsnettoeinkommen (metrisch skaliert) sowie die Konsumausgaben (metrisch skaliert) ermittelt.
Die Ergebnisse sind in folgender Tabelle dargestellt:
Haushalt | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
HH-Nettoeinkommen in Euro | 3500 | 5000 | 4300 | 6100 | 1000 | 4800 | 2900 | 2400 | 5600 | 4100 |
Konsumausgaben in Euro | 2000 | 3500 | 3100 | 3900 | 900 | 3000 | 2100 | 1900 | 2900 | 2100 |
Rauchen und Lungenkrebs
An zufällig ausgewählten Personen wird festgestellt, ob sie rauchen und ob bei ihnen Lungenkrebs aufgetreten ist. Die Variablen sind
- - "Rauchen" mit den Ausprägungen ja und nein
- - Auftreten von "Lungenkrebs" mit den Ausprägungen ja und = nein
Die zweidimensionale Häufigkeitsverteilung wird durch eine Kontingenztabelle dargestellt.
Lungenkrebs
ja |
Lungenkrebs
nein |
RV | |
Rauchen ja | 10 | 15 | 25 |
Rauchen nein | 5 | 70 | 75 |
RV | 15 | 85 | 100 |
Die Zahlen in der Tabelle haben z.B. folgende Bedeutung: An der zufällig ausgewählten Personen wurde beobachtet, dass sie Rauchen und dass bei ihnen Lungenkrebs aufgetreten ist.
Von allen befragten Personen rauchen 25.
Bei 85 der befragten Personen trat kein Lungenkrebs auf.
Kundenerfassung
Für den Datensatz "Kaufhaus" wurden Kunden eines großen Kaufhauses zufällig ausgewählt und folgende Variablen mit den angegebenen Ausprägungen erfasst:
- - "Geschlecht" mit den Ausprägungen 1 (männlich) und 2 (weiblich),
- - "Zahlungsart" mit den Ausprägungen 1 (Barzahlung), 2 (EC-Karte) und 3 (Kreditkarte) und
- - "Wohnort" mit den Ausprägungen 1 (Berlin) und 2 (nicht Berlin).
Nachfolgend sind die drei möglichen zweidimensionalen Häufigkeitsverteilungen aufgeführt, die sich aus den Variablen dieser Daten bilden lassen. Neben den absoluten Häufigkeiten sind in Klammern die relativen Häufigkeiten (gerundet auf drei Dezimalstellen) angegeben.
Die zweidimensionale Häufigkeitsverteilung für die Variablen "Geschlecht" und "Zahlungsart" ist eine Kontingenztabelle.
Geschlecht | Zahlungsart | RV | ||
Bar | EC-Karte | Kreditkarte | ||
männlich | 31 (0,188) | 32 (0,194) | 23 (0,139) | 86 (0,521) |
weiblich | 30 (0,182) | 29 (0,176) | 20 (0,121) | 79 (0,479) |
RV | 61 (0,370) | 61 (0,370) | 43 (0,260) | 165 (1,00) |
Die zweidimensionale Häufigkeitsverteilung für die Variablen "Geschlecht" und "Wohnort" ist eine Kontingenztabelle.
Geschlecht | Wohnort | RV | |
Berlin | nicht Berlin | ||
männlich | 50 (0,303) | 36 (0,218) | 86 (0,521) |
weiblich | 37 (0,224) | 42 (0,255) | 79 (0,429) |
RV | 87 (0,527) | 78 (0,473) | 165 (1,00) |
Die zweidimensionale Häufigkeitsverteilung für die Variablen "Wohnort" und "Zahlungsart" ist eine Kontingenztabelle.
Wohnort | Zahlungsart | RV | ||
Bar | EC-Karte | Kreditkarte | ||
Berlin | 44 (0,267) | 22 (0,133) | 21 (0,127) | 87 (0,527) |
nicht Berlin | 17 (0,103) | 39 (0,237) | 22 (0,133) | 78 (0,473) |
RV | 61 (0,370) | 61 (0,370) | 43 (0,260) | 165 (1,00) |