Randverteilungen, Bedingte Verteilungen
Aus MM*Stat
Grundbegriffe
Empirische Randverteilung oder marginale Verteilung
Gegeben sei eine zweidimensionale Häufigkeitsverteilung zweier Merkmale und .
Die eindimensionale Häufigkeitsverteilung des Merkmals (bzw. ), bei der das Auftreten des Merkmals (bzw. ) nicht berücksichtigt wird, heisst Randverteilung oder marginale Verteilung von (bzw. ).
Die Randverteilung ergibt sich durch "Aufsummieren" der Häufigkeitsverteilungen für die einzelnen Merkmalsausprägungen, z.B. für die Randverteilung von :
Merkmal | Merkmal | Randverteilung | ||
Randverteilung |
Randverteilung für das Merkmal mit den Merkmalsausprägungen :
Randverteilung für das Merkmal mit den Merkmalsausprägungen :
Gesamtzahl der Merkmalsausprägungen von und (gleich ):
Empirische bedingte Verteilung oder konditionale Verteilung
Gegeben sei eine zweidimensionale Häufigkeitsverteilung zweier Merkmale und .
Die Häufigkeitsverteilung von (bzw. ), die sich für eine bestimmte Ausprägung von (bzw. ) ergibt, heißt bedingte Verteilung oder konditionale Verteilung von (bzw. ) für ein gegebenes (bzw. ).
Bedingte relative Häufigkeitsverteilung von für gegebenes :
Bedingte relative Häufigkeitsverteilung von für gegebenes :
Die bedingten Verteilungen sind eindimensionale Verteilungen.
Empirische oder statistische Unabhängigkeit
Empirische oder statistische Unabhängigkeit bedeutet, dass die Verteilung des einen Merkmals nicht davon abhängt, welche Werte das andere Merkmal annimmt.
Sind zwei Merkmale und voneinander unabhängig, dann gilt:
- Alle bedingten Verteilungen für bzw. für stimmen untereinander und mit der entsprechenden Randverteilung überein, d.h. für die bedingte Verteilung von gilt
- für alle und für alle
- und für die bedingte Verteilung von gilt
- für alle und für alle
- Die relative Häufigkeit für das gemeinsame Auftreten der Ausprägungen und der Merkmale und ist gleich dem Produkt der relativen Häufigkeiten der Randverteilungen.
- Eine analoge Darstellung unter Verwendung der absoluten Häufigkeiten ist:
- Dies muss für alle und gelten.
- Andernfalls heißen die beiden Merkmale und empirisch abhängig.
Beispiele
Berufsgruppe und Sport
Ausgangspunkt für die folgende Kontingenztabelle sind die Variablen:
- Berufsgruppe (nominalskaliert)
- sportliche Betätigung (nominalskaliert),
die an berufstätigen Personen beobachtet wurden.
Berufsgruppe | sportliche Betätigung | RV | ||
kaum | manchmal | regelmäßig | ||
Arbeiter | 240 | 120 | 70 | 430 |
Angestellter | 160 | 90 | 90 | 340 |
Beamter | 30 | 30 | 30 | 90 |
Landwirt | 37 | 7 | 6 | 50 |
sonstiger freier Beruf | 40 | 32 | 18 | 90 |
RV | 507 | 279 | 214 | 1000 |
Die bedingten Verteilungen des Merkmals (sportliche Betätigung) für gegebene (Berufsgruppe):
Berufsgruppe | sportliche Betätigung | |||
kaum | gelegentlich | regelmäßig | ||
Arbeiter | 0,56 | 0,28 | 0,16 | 1,00 |
Angestellter | 0,47 | 0,26 | 0,26 | 1,00 |
Beamter | 0,33 | 0,33 | 0,33 | 1,00 |
Landwirt | 0,74 | 0,14 | 0,12 | 1,00 |
sonstiger freier Beruf | 0,44 | 0,36 | 0,20 | 1,00 |
Studenten
Von 107 Studenten wurden in einer Befragung unter anderem ihr Fachbereich und ihr Geschlecht erfasst.
Aus den Ergebnissen lässt sich die folgende Kontingenztabelle darstellen:
Frau | Mann | RV (Fachber.) | |
Geist. | 12 | 13 | 25 |
Ing. | 1 | 1 | 2 |
Jura | 8 | 13 | 21 |
Mediz. | 6 | 4 | 10 |
Natur. | 1 | 8 | 9 |
Psych. | 3 | 8 | 11 |
Sonst. | 1 | 0 | 1 |
Theol. | 7 | 2 | 9 |
WiWi | 5 | 14 | 19 |
RV (Geschl.) | 44 | 63 | 107 |
An dieser Stelle interessiert, welchen Anteil die Frauen bzw. Männer innerhalb der einzelnen Fachbereiche stellen.
Die bedingte Verteilung des Geschlechts für gegebene Fachbereiche gibt darüber Auskunft.
Die Werte ergeben sich als Quotient aus dem jeweiligen Zellenwert und dem Wert der dazugehörigen Randverteilung des Fachbereichs.
Frau | Mann | ||
Geist. | 0,480 | 0,520 | 1,000 |
Ing. | 0,500 | 0,500 | 1,000 |
Jura | 0,381 | 0,619 | 1,000 |
Mediz. | 0,600 | 0,400 | 1,000 |
Natur. | 0,111 | 0,889 | 1,000 |
Psych. | 0,273 | 0,727 | 1,000 |
Sonst. | 1,000 | 0,000 | 1,000 |
Theol. | 0,778 | 0,222 | 1,000 |
WiWi | 0,263 | 0,737 | 1,000 |
Gesamt | 0,411 | 0,589 | 1,000 |
Im Ergebnis dieser Befragung zeigt sich zum Beispiel, dass der Studiengang Wirtschaftswissenschaften von den Männern dominiert wird.
Sie stellen 73,7% der Studenten in diesem Fachbereich.
Im Fachbereich Theologie dagegen bilden die Frauen mit einem Anteil von 77,8% die Mehrheit.
Schulbildung und Alter
Im Rahmen einer Befragung von 941 Personen wurden unter anderem ihr Alter (gruppiert in 18-29, 30-39 und 40-49) und ihre Schulbildung (Universität, Abitur, Realschule, Volkshochschule) erfasst.
Aus den Ergebnissen lässt sich die folgende Kontingenztabelle darstellen:
Universtät | Abitur | Realschule | VHS | RV (Alter) | |
18-29 | 38 | 93 | 134 | 42 | 307 |
30-39 | 23 | 94 | 168 | 70 | 355 |
40-49 | 12 | 39 | 129 | 99 | 279 |
RV (Bildung) | 73 | 226 | 431 | 211 | 941 |
Die bedingte Verteilung der Schulbildung für eine gegebene Altersgruppe ergibt sich wie folgt:
Universtät | Abitur | Realschule | VHS | ||
18-29 | 0,124 | 0,303 | 0,436 | 0,137 | 1,000 |
30-39 | 0,065 | 0,265 | 0,473 | 0,197 | 1,000 |
40-49 | 0,043 | 0,140 | 0,462 | 0,355 | 1,000 |
Die Werte ergeben sich als Quotient aus dem jeweiligen Zellenwert und dem Wert der dazugehörigen Randverteilung der Altersgruppe.
Die obige Tabelle zeigt, dass beispielsweise in der Gruppe der 18-29 jährigen 12,4% eine Hochschulausbildung, 30,3% Abitur und 43,6% eine Realschulausbildung haben.
In der Gruppe der 40-49 jährigen beträgt der Anteil der Personen mit abgeschlossener Hochschulausbildung nur 4,3%.
Analog lässt sich die bedingte Verteilung der Altersgruppen für eine gegebene Schulbildung errechnen:
Universtät | Abitur | Realschule | VHS | |
18-29 | 0,521 | 0,411 | 0,311 | 0,199 |
30-39 | 0,315 | 0,416 | 0,390 | 0,332 |
40-49 | 0,164 | 0,173 | 0,299 | 0,469 |
1,000 | 1,000 | 1,000 | 1,000 |
Hierbei zeigt sich beispielsweise, dass die Personen, die ein abgeschlossenes Abitur (ohne Studium) haben, zu 41,1% der Altersgruppe 18-29, zu 41,6% der Altersgruppe 30-39 und zu 17,3% der Altersgruppe 40-49 angehören.
Rauchen und Lungenkrebs
An zufällig ausgewählten Personen wurde festgestellt, ob sie rauchen und ob bei ihnen Lungenkrebs aufgetreten ist.
Die Variablen sind
- "Rauchen" mit den Ausprägungen ja und nein
- Auftreten von "Lungenkrebs" mit den Ausprägungen ja und nein
Das Ergebnis der Untersuchung ist in der folgenden Kontingenztabelle dargestellt:
Lungenkrebs
ja |
Lungenkrebs
nein |
RV | |
Rauchen ja | 10 | 15 | 25 |
Rauchen nein | 5 | 70 | 75 |
RV | 15 | 85 | 100 |
Die bedingte Verteilung des Merkmals (Rauchen) für gegebene (Auftreten von Lungenkrebs) bei Personen:
Lungenkrebs
ja |
Lungenkrebs
nein | |
Rauchen ja | 0,667 | 0,176 |
Rauchen nein | 0,333 | 0,824 |
1,000 | 1,000 |
Die Werte ergeben sich als Quotient aus dem jeweiligen Zellenwert und dem Wert der dazugehörigen Randverteilung (Lungenkrebs ja bzw. nein).
Die obige Tabelle zeigt, dass 66,7% der Personen, bei denen Lungenkrebs festgestellt wurde, zu den Rauchern gehören.
82,4% der Personen, die keinen Lungenkrebs haben, sind Nichtraucher.
Analog ist die bedingte Verteilung des Merkmals (Lungenkrebs) für gegebene (Rauchen) bei Personen dargestellt:
Lungenkrebs
ja |
Lungenkrebs
nein |
||
Rauchen ja | 0,400 | 0,600 | 1,000 |
Rauchen nein | 0,067 | 0,933 | 1,000 |
Hierbei zeigt sich, dass an 40% aller Raucher, aber nur an 6,7% aller Nichtraucher Lungenkrebs beobachtet wurde.