Randverteilungen, Bedingte Verteilungen

Aus MM*Stat

Version vom 14. Mai 2018, 21:43 Uhr von Germainf (Diskussion | Beiträge) (Die Seite wurde neu angelegt: „{{Bivariate Statistik}} =={{Vorlage:Überschrift}}== ===Empirische Randverteilung oder marginale Verteilung=== Gegeben sei eine zweidimensionale Häufigke…“)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Wechseln zu: Navigation, Suche

Bivariate Statistik

Zweidimensionale Häufigkeitsverteilung • Graphische Darstellung zweidimensionaler Verteilungen • Randverteilungen, Bedingte Verteilungen • Parameter zweidimensionaler Verteilungen (empirisch) • Kontingenz • Spearman'scher Rangkorrelationskoeffizient • Kendall'scher Rangkorrelationskoeffizient • Kovarianz (empirisch) • Bravais–Pearson–Korrelationskoeffizient • Multiple Choice • Video • Aufgaben • Lösungen
3D-Balkendiagramm • 3D-Scatterplot • Absolute Häufigkeit (zweidimensional) • Ausprägungskombination • Bedingte Verteilung (empirisch) • Bindung • Chi-Quadrat-Koeffizient • Diskordante Merkmalspaare • Gegensinnige Merkmalspaare • Gemeinsame Variation • Gleichsinnige Merkmalspaare • Gruppiertes Balkendiagramm • Häufigkeitstabelle (zweidimensional) • Konditionale Verteilung • Konkordante Merkmalspaare • Kontingenzkoeffizient • Kontingenztabelle • Korrelation • Korrelationskoeffizient (empirisch) • Korrelationskoeffizient (nach Bravais-Pearson) • Korrigierter Kontingenzkoeffizient • Kreuztabelle • linearer Zusammenhang • Marginale Verteilung (empirisch) • Parameter (emp. Randverteilung) • Parameter (emp. bedingte Verteilung) • Quadratische Kontingenz • Randverteilung (empirisch) • Relative Häufigkeit (zweidimensional) • Scatterplot • Scatterplot-Matrix • Streuungsdiagramm • Unabhängigkeit (empirisch) • Unabhängigkeit (statistisch) • Variation (Streuung)

Grundbegriffe

Empirische Randverteilung oder marginale Verteilung

Gegeben sei eine zweidimensionale Häufigkeitsverteilung zweier Merkmale und .

Die eindimensionale Häufigkeitsverteilung des Merkmals (bzw. ), bei der das Auftreten des Merkmals (bzw. ) nicht berücksichtigt wird, heisst Randverteilung oder marginale Verteilung von (bzw. ).

Die Randverteilung ergibt sich durch "Aufsummieren" der Häufigkeitsverteilungen für die einzelnen Merkmalsausprägungen, z.B. für die Randverteilung von :

Merkmal Merkmal Randverteilung
Randverteilung

Randverteilung für das Merkmal mit den Merkmalsausprägungen :

Randverteilung für das Merkmal mit den Merkmalsausprägungen :

Gesamtzahl der Merkmalsausprägungen von und (gleich ):

Empirische bedingte Verteilung oder konditionale Verteilung

Gegeben sei eine zweidimensionale Häufigkeitsverteilung zweier Merkmale und .

Die Häufigkeitsverteilung von (bzw. ), die sich für eine bestimmte Ausprägung von (bzw. ) ergibt, heißt bedingte Verteilung oder konditionale Verteilung von (bzw. ) für ein gegebenes (bzw. ).

Bedingte relative Häufigkeitsverteilung von für gegebenes :

Bedingte relative Häufigkeitsverteilung von für gegebenes :

Die bedingten Verteilungen sind eindimensionale Verteilungen.

Empirische oder statistische Unabhängigkeit

Empirische oder statistische Unabhängigkeit bedeutet, dass die Verteilung des einen Merkmals nicht davon abhängt, welche Werte das andere Merkmal annimmt.

Sind zwei Merkmale und voneinander unabhängig, dann gilt:

für alle und für alle
und für die bedingte Verteilung von gilt
für alle und für alle
Eine analoge Darstellung unter Verwendung der absoluten Häufigkeiten ist:
Dies muss für alle und gelten.
Andernfalls heißen die beiden Merkmale und empirisch abhängig.

Beispiele

Berufsgruppe und Sport

Ausgangspunkt für die folgende Kontingenztabelle sind die Variablen:

- Berufsgruppe (nominalskaliert)

- sportliche Betätigung (nominalskaliert),

die an berufstätigen Personen beobachtet wurden.

Berufsgruppe sportliche Betätigung RV
kaum manchmal regelmäßig
Arbeiter 240 120 70 430
Angestellter 160 90 90 340
Beamter 30 30 30 90
Landwirt 37 7 6 50
sonstiger freier Beruf 40 32 18 90
RV 507 279 214 1000

Die bedingten Verteilungen des Merkmals (sportliche Betätigung) für gegebene (Berufsgruppe):

Berufsgruppe sportliche Betätigung
kaum gelegentlich regelmäßig
Arbeiter 0,56 0,28 0,16 1,00
Angestellter 0,47 0,26 0,26 1,00
Beamter 0,33 0,33 0,33 1,00
Landwirt 0,74 0,14 0,12 1,00
sonstiger freier Beruf 0,44 0,36 0,20 1,00

Studenten

Von 107 Studenten wurden in einer Befragung unter anderem ihr Fachbereich und ihr Geschlecht erfasst.

Aus den Ergebnissen lässt sich die folgende Kontingenztabelle darstellen:

Frau Mann RV (Fachber.)
Geist. 12 13 25
Ing. 1 1 2
Jura 8 13 21
Mediz. 6 4 10
Natur. 1 8 9
Psych. 3 8 11
Sonst. 1 0 1
Theol. 7 2 9
WiWi 5 14 19
RV (Geschl.) 44 63 107

An dieser Stelle interessiert, welchen Anteil die Frauen bzw. Männer innerhalb der einzelnen Fachbereiche stellen.

Die bedingte Verteilung des Geschlechts für gegebene Fachbereiche gibt darüber Auskunft.

Die Werte ergeben sich als Quotient aus dem jeweiligen Zellenwert und dem Wert der dazugehörigen Randverteilung des Fachbereichs.

Frau Mann
Geist. 0,480 0,520 1,000
Ing. 0,500 0,500 1,000
Jura 0,381 0,619 1,000
Mediz. 0,600 0,400 1,000
Natur. 0,111 0,889 1,000
Psych. 0,273 0,727 1,000
Sonst. 1,000 0,000 1,000
Theol. 0,778 0,222 1,000
WiWi 0,263 0,737 1,000
Gesamt 0,411 0,589 1,000

Im Ergebnis dieser Befragung zeigt sich zum Beispiel, dass der Studiengang Wirtschaftswissenschaften von den Männern dominiert wird.

Sie stellen 73,7% der Studenten in diesem Fachbereich.

Im Fachbereich Theologie dagegen bilden die Frauen mit einem Anteil von 77,8% die Mehrheit.

Schulbildung und Alter

Im Rahmen einer Befragung von 941 Personen wurden unter anderem ihr Alter (gruppiert in 18-29, 30-39 und 40-49) und ihre Schulbildung (Universität, Abitur, Realschule, Volkshochschule) erfasst.

Aus den Ergebnissen lässt sich die folgende Kontingenztabelle darstellen:

Universtät Abitur Realschule VHS RV (Alter)
18-29 38 93 134 42 307
30-39 23 94 168 70 355
40-49 12 39 129 99 279
RV (Bildung) 73 226 431 211 941

Die bedingte Verteilung der Schulbildung für eine gegebene Altersgruppe ergibt sich wie folgt:

Universtät Abitur Realschule VHS
18-29 0,124 0,303 0,436 0,137 1,000
30-39 0,065 0,265 0,473 0,197 1,000
40-49 0,043 0,140 0,462 0,355 1,000

Die Werte ergeben sich als Quotient aus dem jeweiligen Zellenwert und dem Wert der dazugehörigen Randverteilung der Altersgruppe.

Die obige Tabelle zeigt, dass beispielsweise in der Gruppe der 18-29 jährigen 12,4% eine Hochschulausbildung, 30,3% Abitur und 43,6% eine Realschulausbildung haben.

In der Gruppe der 40-49 jährigen beträgt der Anteil der Personen mit abgeschlossener Hochschulausbildung nur 4,3%.

Analog lässt sich die bedingte Verteilung der Altersgruppen für eine gegebene Schulbildung errechnen:

Universtät Abitur Realschule VHS
18-29 0,521 0,411 0,311 0,199
30-39 0,315 0,416 0,390 0,332
40-49 0,164 0,173 0,299 0,469
1,000 1,000 1,000 1,000

Hierbei zeigt sich beispielsweise, dass die Personen, die ein abgeschlossenes Abitur (ohne Studium) haben, zu 41,1% der Altersgruppe 18-29, zu 41,6% der Altersgruppe 30-39 und zu 17,3% der Altersgruppe 40-49 angehören.

Rauchen und Lungenkrebs

An zufällig ausgewählten Personen wurde festgestellt, ob sie rauchen und ob bei ihnen Lungenkrebs aufgetreten ist.

Die Variablen sind

- "Rauchen" mit den Ausprägungen ja und nein

- Auftreten von "Lungenkrebs" mit den Ausprägungen ja und nein

Das Ergebnis der Untersuchung ist in der folgenden Kontingenztabelle dargestellt:

Lungenkrebs

ja

Lungenkrebs

nein

RV
Rauchen ja 10 15 25
Rauchen nein 5 70 75
RV 15 85 100

Die bedingte Verteilung des Merkmals (Rauchen) für gegebene (Auftreten von Lungenkrebs) bei Personen:

Lungenkrebs

ja

Lungenkrebs

nein

Rauchen ja 0,667 0,176
Rauchen nein 0,333 0,824
1,000 1,000

Die Werte ergeben sich als Quotient aus dem jeweiligen Zellenwert und dem Wert der dazugehörigen Randverteilung (Lungenkrebs ja bzw. nein).

Die obige Tabelle zeigt, dass 66,7% der Personen, bei denen Lungenkrebs festgestellt wurde, zu den Rauchern gehören.

82,4% der Personen, die keinen Lungenkrebs haben, sind Nichtraucher.

Analog ist die bedingte Verteilung des Merkmals (Lungenkrebs) für gegebene (Rauchen) bei Personen dargestellt:

Lungenkrebs

ja

Lungenkrebs

nein

Rauchen ja 0,400 0,600 1,000
Rauchen nein 0,067 0,933 1,000

Hierbei zeigt sich, dass an 40% aller Raucher, aber nur an 6,7% aller Nichtraucher Lungenkrebs beobachtet wurde.