Randverteilungen, Bedingte Verteilungen

Aus MM*Stat

Wechseln zu: Navigation, Suche

Bivariate Statistik

Zweidimensionale Häufigkeitsverteilung • Graphische Darstellung zweidimensionaler Verteilungen • Randverteilungen, Bedingte Verteilungen • Parameter zweidimensionaler Verteilungen (empirisch) • Kontingenz • Spearman'scher Rangkorrelationskoeffizient • Kendall'scher Rangkorrelationskoeffizient • Kovarianz (empirisch) • Bravais–Pearson–Korrelationskoeffizient • Multiple Choice • Video • Aufgaben • Lösungen
3D-Balkendiagramm • 3D-Scatterplot • Absolute Häufigkeit (zweidimensional) • Ausprägungskombination • Bedingte Verteilung (empirisch) • Bindung • Chi-Quadrat-Koeffizient • Diskordante Merkmalspaare • Gegensinnige Merkmalspaare • Gemeinsame Variation • Gleichsinnige Merkmalspaare • Gruppiertes Balkendiagramm • Häufigkeitstabelle (zweidimensional) • Konditionale Verteilung • Konkordante Merkmalspaare • Kontingenzkoeffizient • Kontingenztabelle • Korrelation • Korrelationskoeffizient (empirisch) • Korrelationskoeffizient (nach Bravais-Pearson) • Korrigierter Kontingenzkoeffizient • Kreuztabelle • linearer Zusammenhang • Marginale Verteilung (empirisch) • Parameter (emp. Randverteilung) • Parameter (emp. bedingte Verteilung) • Quadratische Kontingenz • Randverteilung (empirisch) • Relative Häufigkeit (zweidimensional) • Scatterplot • Scatterplot-Matrix • Streuungsdiagramm • Unabhängigkeit (empirisch) • Unabhängigkeit (statistisch) • Variation (Streuung)

Grundbegriffe

Empirische Randverteilung oder marginale Verteilung

Gegeben sei eine zweidimensionale Häufigkeitsverteilung zweier Merkmale X\; und Y\;.

Die eindimensionale Häufigkeitsverteilung des Merkmals X\; (bzw. Y\;), bei der das Auftreten des Merkmals Y\; (bzw. X\;) nicht berücksichtigt wird, heisst Randverteilung oder marginale Verteilung von X\; (bzw. Y\;).

Die Randverteilung ergibt sich durch "Aufsummieren" der Häufigkeitsverteilungen für die einzelnen Merkmalsausprägungen, z.B. für die Randverteilung von X:

Merkmal X\; Merkmal Y\; Randverteilung X\;
\,y_1 \,y_2 \,y_3
\cdots \cdots \cdots \cdots \cdots
\,x_i \,h(x_i,y_1) \,h(x_i,y_2) \,h(x_i,y_3) \,=h(x_i,y_1)+h(x_i,y_2)+h(x_i,y_3)
\cdots \cdots \cdots \cdots \cdots
Randverteilung Y\; \cdots \cdots \cdots

Randverteilung für das Merkmal X\; mit den Merkmalsausprägungen x_{j}:

h_{i \bullet }=\sum_{j=1}^{r}h_{ij};\quad i=1,...,,m

Randverteilung für das Merkmal Y\; mit den Merkmalsausprägungen y_{j}:

h_{\bullet j}=\sum_{i=1}^{m}h_{ij};\quad j=1,...,r

Gesamtzahl der Merkmalsausprägungen von X\; und Y\; (gleich n):

h_{\bullet \bullet }=\sum_{i=1}^{m}\sum_{j=1}^{r}h_{ij}=\sum_{i=1}^{m}h_{i\bullet}=\sum_{j=1}^{r}h_{\bullet j}=n

Empirische bedingte Verteilung oder konditionale Verteilung

Gegeben sei eine zweidimensionale Häufigkeitsverteilung zweier Merkmale X\; und Y\;.

Die Häufigkeitsverteilung von X\; (bzw. Y\;), die sich für eine bestimmte Ausprägung von Y\; (bzw. X\;) ergibt, heißt bedingte Verteilung oder konditionale Verteilung von X\; (bzw. Y\;) für ein gegebenes y_{j} (bzw. x_{i}).

Bedingte relative Häufigkeitsverteilung von X\; für gegebenes Y=y_{j}:

f(x_{i}|Y=y_{j})=f(x_{i}|y_{j})=\frac{f_{ij}}{f_{\bullet j}}=\frac{h_{ij}}{h_{\bullet j}}

Bedingte relative Häufigkeitsverteilung von Y\; für gegebenes X=x_{i}:

f(y_{j}|X=x_{i})=f(y_{j}|x_{i})=\frac{f_{ij}}{f_{i\bullet }}=\frac{h_{ij}}{h_{i\bullet }}

Die bedingten Verteilungen sind eindimensionale Verteilungen.

Empirische oder statistische Unabhängigkeit

Empirische oder statistische Unabhängigkeit bedeutet, dass die Verteilung des einen Merkmals nicht davon abhängt, welche Werte das andere Merkmal annimmt.

Sind zwei Merkmale X\; und Y\; voneinander unabhängig, dann gilt:

f(x_{i}|y_{j})=f(x_{i}|y_{k})=f(x_{i}) für alle j,k=1,\ldots ,r und für alle i=1,\ldots ,m
und für die bedingte Verteilung von Y\; gilt
f(y_{j}|x_{i})=f(y_{j}|x_{h})=f(y_{j}) für alle i,h=1,\ldots ,m und für alle j=1,\ldots ,r
f(x_{i}|y_{j})=f(x_{i})=\frac{f(x_{i},y_{j})}{f(y_{j})} \Rightarrow f(x_i,y_j)=f(x_i)\cdot f(y_j)
f(y_j|x_i)=f(y_j)=\frac{f(x_i,y_j)}{f(x_i)} \Rightarrow f(x_{i},y_{j})=f(x_{i})\cdot f(y_{j})
Eine analoge Darstellung unter Verwendung der absoluten Häufigkeiten ist:
h(x_{i};y_{j})=\frac{h(x_{i})\cdot h(y_{j})}{n}
Dies muss für alle (i=1,\ldots ,m; und j=1,\ldots ,r) gelten.
Andernfalls heißen die beiden Merkmale X\; und Y\; empirisch abhängig.

Beispiele

Berufsgruppe und Sport

Ausgangspunkt für die folgende 5\times3 Kontingenztabelle sind die Variablen:

X\; - Berufsgruppe (nominalskaliert)

Y\; - sportliche Betätigung (nominalskaliert),

die an n = 1000 berufstätigen Personen beobachtet wurden.

Berufsgruppe X\; sportliche Betätigung Y\; RV X\;
kaum manchmal regelmäßig
Arbeiter 240 120 70 430
Angestellter 160 90 90 340
Beamter 30 30 30 90
Landwirt 37 7 6 50
sonstiger freier Beruf 40 32 18 90
RV Y\; 507 279 214 1000

Die bedingten Verteilungen des Merkmals Y\; (sportliche Betätigung) für gegebene x_{i} (Berufsgruppe):

Berufsgruppe X\; sportliche Betätigung Y\;
kaum gelegentlich regelmäßig
Arbeiter 0,56 0,28 0,16 1,00
Angestellter 0,47 0,26 0,26 1,00
Beamter 0,33 0,33 0,33 1,00
Landwirt 0,74 0,14 0,12 1,00
sonstiger freier Beruf 0,44 0,36 0,20 1,00

Studenten

Von 107 Studenten wurden in einer Befragung unter anderem ihr Fachbereich und ihr Geschlecht erfasst.

Aus den Ergebnissen lässt sich die folgende 9\times2 Kontingenztabelle darstellen:

Frau Mann RV (Fachber.)
Geist. 12 13 25
Ing. 1 1 2
Jura 8 13 21
Mediz. 6 4 10
Natur. 1 8 9
Psych. 3 8 11
Sonst. 1 0 1
Theol. 7 2 9
WiWi 5 14 19
RV (Geschl.) 44 63 107

An dieser Stelle interessiert, welchen Anteil die Frauen bzw. Männer innerhalb der einzelnen Fachbereiche stellen.

Die bedingte Verteilung des Geschlechts für gegebene Fachbereiche gibt darüber Auskunft.

Die Werte ergeben sich als Quotient aus dem jeweiligen Zellenwert und dem Wert der dazugehörigen Randverteilung des Fachbereichs.

Frau Mann
Geist. 0,480 0,520 1,000
Ing. 0,500 0,500 1,000
Jura 0,381 0,619 1,000
Mediz. 0,600 0,400 1,000
Natur. 0,111 0,889 1,000
Psych. 0,273 0,727 1,000
Sonst. 1,000 0,000 1,000
Theol. 0,778 0,222 1,000
WiWi 0,263 0,737 1,000
Gesamt 0,411 0,589 1,000

Im Ergebnis dieser Befragung zeigt sich zum Beispiel, dass der Studiengang Wirtschaftswissenschaften von den Männern dominiert wird.

Sie stellen 73,7% der Studenten in diesem Fachbereich.

Im Fachbereich Theologie dagegen bilden die Frauen mit einem Anteil von 77,8% die Mehrheit.

Schulbildung und Alter

Im Rahmen einer Befragung von 941 Personen wurden unter anderem ihr Alter (gruppiert in 18-29, 30-39 und 40-49) und ihre Schulbildung (Universität, Abitur, Realschule, Volkshochschule) erfasst.

Aus den Ergebnissen lässt sich die folgende 3\times4 Kontingenztabelle darstellen:

Universtät Abitur Realschule VHS RV (Alter)
18-29 38 93 134 42 307
30-39 23 94 168 70 355
40-49 12 39 129 99 279
RV (Bildung) 73 226 431 211 941

Die bedingte Verteilung der Schulbildung für eine gegebene Altersgruppe ergibt sich wie folgt:

Universtät Abitur Realschule VHS
18-29 0,124 0,303 0,436 0,137 1,000
30-39 0,065 0,265 0,473 0,197 1,000
40-49 0,043 0,140 0,462 0,355 1,000

Die Werte ergeben sich als Quotient aus dem jeweiligen Zellenwert und dem Wert der dazugehörigen Randverteilung der Altersgruppe.

Die obige Tabelle zeigt, dass beispielsweise in der Gruppe der 18-29 jährigen 12,4% eine Hochschulausbildung, 30,3% Abitur und 43,6% eine Realschulausbildung haben.

In der Gruppe der 40-49 jährigen beträgt der Anteil der Personen mit abgeschlossener Hochschulausbildung nur 4,3%.

Analog lässt sich die bedingte Verteilung der Altersgruppen für eine gegebene Schulbildung errechnen:

Universtät Abitur Realschule VHS
18-29 0,521 0,411 0,311 0,199
30-39 0,315 0,416 0,390 0,332
40-49 0,164 0,173 0,299 0,469
1,000 1,000 1,000 1,000

Hierbei zeigt sich beispielsweise, dass die Personen, die ein abgeschlossenes Abitur (ohne Studium) haben, zu 41,1% der Altersgruppe 18-29, zu 41,6% der Altersgruppe 30-39 und zu 17,3% der Altersgruppe 40-49 angehören.

Rauchen und Lungenkrebs

An n = 100 zufällig ausgewählten Personen wurde festgestellt, ob sie rauchen und ob bei ihnen Lungenkrebs aufgetreten ist.

Die Variablen sind

X\; - "Rauchen" mit den Ausprägungen x_1 = ja und x_2 = nein

Y\; - Auftreten von "Lungenkrebs" mit den Ausprägungen y_1 = ja und y_2 = nein

Das Ergebnis der Untersuchung ist in der folgenden 2\times2 Kontingenztabelle dargestellt:

Lungenkrebs

ja (y_{1})

Lungenkrebs

nein (y_{2})

RV X\;
Rauchen ja (x_{1}) 10 15 25
Rauchen nein (x_{2}) 5 70 75
RV Y\; 15 85 100

Die bedingte Verteilung des Merkmals X\; (Rauchen) für gegebene y_{j} (Auftreten von Lungenkrebs) bei 100 Personen:

Lungenkrebs

ja (y_{1})

Lungenkrebs

nein (y_{2})

Rauchen ja (x_{1}) 0,667 0,176
Rauchen nein (x_{2}) 0,333 0,824
1,000 1,000

Die Werte ergeben sich als Quotient aus dem jeweiligen Zellenwert und dem Wert der dazugehörigen Randverteilung (Lungenkrebs ja bzw. nein).

Die obige Tabelle zeigt, dass 66,7% der Personen, bei denen Lungenkrebs festgestellt wurde, zu den Rauchern gehören.

82,4% der Personen, die keinen Lungenkrebs haben, sind Nichtraucher.

Analog ist die bedingte Verteilung des Merkmals Y\; (Lungenkrebs) für gegebene x_i (Rauchen) bei 100 Personen dargestellt:

Lungenkrebs

ja (y_{1})

Lungenkrebs

nein (y_{2})

Rauchen ja (x_{1}) 0,400 0,600 1,000
Rauchen nein (x_{2}) 0,067 0,933 1,000

Hierbei zeigt sich, dass an 40% aller Raucher, aber nur an 6,7% aller Nichtraucher Lungenkrebs beobachtet wurde.