Randverteilung (stochastisch): Unterschied zwischen den Versionen
Aus MM*Stat
Keine Bearbeitungszusammenfassung |
Keine Bearbeitungszusammenfassung |
||
Zeile 1: | Zeile 1: | ||
{{Zufallsvariable}} | |||
=={{Vorlage:Überschrift}}== | =={{Vorlage:Überschrift}}== | ||
Aktuelle Version vom 7. April 2019, 16:02 Uhr
Grundbegriffe
Randverteilung oder marginale Verteilung diskreter Zufallsvariablen
Die Randverteilung oder marginale Verteilung der diskreten Zufallsvariablen gibt an, wie groß die Wahrscheinlichkeit dafür ist, dass einen speziellen Wert annimmt, wobei es gleichgültig ist, welchen Wert die zweite diskrete Zufallsvariable annimmt.
Die Randverteilung der diskreten Zufallsvariablen ist analog definiert.
Randverteilungen (RV) sind eindimensionale Verteilungen.
Seien und zwei diskrete Zufallsvariablen. Dann ist die Randverteilung definiert durch
Randverteilung (Randdichte) oder marginale Verteilung (Marginaldichte) stetiger Zufallsvariablen
Seien und zwei stetige Zufallsvariablen. Dann ist die Randverteilung oder marginale Verteilung definiert durch
Verteilungsfunktion der Randverteilung oder Randverteilungsfunktion
Die Randverteilungsfunktion der Zufallsvariablen bezeichnet die Verteilungsfunktion der Zufallsvariablen , unabhängig davon, welche Werte die Zufallsvariable angenommen hat.
Sie ist definiert als:
Die Randverteilungsfunktion der Zufallsvariablen bezeichnet die Verteilungsfunktion der Zufallsvariablen , unabhängig davon, welche Werte die Zufallsvariable angenommen hat.
Sie ist definiert als
Beispiele
Stetige Zufallsvariablen
Gegeben seien zwei stetige Zufallsvariablen und mit der gemeinsamen Dichtefunktion
Für diese Dichtefunktion gilt:
Die nachstehende Abbildung zeigt die grafische Darstellung der gemeinsamen Dichtefunktion von und .
Als Randverteilungen erhält man:
und
Die Graphische Darstellung der Randverteilungen liefert:
Herzkranzgefäßkrankheiten und Alter
Ein Kardiologe vermutet einen Zusammenhang zwischen dem Auftreten von Herzkranzgefäßerkrankungen und dem Alter, weshalb er diese beiden Zufallsvariablen an seinen 100 Patienten erfasst.
Es seien
- Alter der Patienten in Jahren,
- Herzkranzgefäßerkrankung mit den Ausprägungen für ja und für nein.
Als einen ersten Schritt für die Überprüfung seiner Vermutung will der Kardiologe die Wahrscheinlichkeiten und Randverteilungen der beiden Zufallsvariablen in Form einer Kontingenztabelle angeben.
Da bei der diskreten Zufallsvariablen = "Alter" 43 verschiedene Ausprägungen im Bereich von 20 bis 69 Jahre aufgetreten sind, lässt sich eine Kontingenztabelle mit dieser Anzahl von Ausprägungen von nicht sinnvoll erstellen.
Es wird deshalb eine Klassierung des Alters vorgenommen, wobei eine Klassenbreite von 5 Jahren gewählt wird, außer für die jüngeren und die älteren Patienten, die jeweils in einer Klasse der Breite 10 Jahre zusammengefasst werden:
Damit resultieren die nachstehenden Wahrscheinlichkeiten und Randverteilungen der beiden Zufallsvariablen.
Alter | Herzkranzgefäßerkrankung | RV | |
(ja) | (nein) | ||
20-29 | 0,01 | 0,09 | 0,10 |
30-34 | 0,02 | 0,13 | 0,15 |
35-39 | 0,03 | 0,09 | 0,12 |
40-44 | 0,05 | 0,10 | 0,15 |
45-49 | 0,06 | 0,07 | 0,13 |
50-54 | 0,05 | 0,03 | 0,08 |
55-59 | 0,13 | 0,04 | 0,17 |
60-69 | 0,08 | 0,02 | 0,10 |
RV | 0,43 | 0,57 | 1,00 |
Jede Zelle dieser Tabelle enthält die Wahrscheinlichkeit, dass die Zufallsvariable eine Realisation aus der Klasse und gleichzeitig die Zufallsvariable die Realisation annimmt, wobei hier die statistische Definition der Wahrscheinlichkeit verwendet wird.
Zum Beispiel besagt der Inhalt der Zelle (2,1), dass ein zufällig ausgewählter Patient mit einer Wahrscheinlichkeit von 0,13 in die Altersklasse 30 bis einschließlich 34 Jahre fällt und er keine Herzkranzgefäßerkrankung hat.
Die Randverteilung (RV) von gibt die Wahrscheinlichkeiten der Realisationen der Zufallsvariablen "Alter" an.
So beträgt z.B. die Wahrscheinlichkeit, dass ein zufällig ausgewählter Patient in die Altersklasse 30 bis einschließlich 34 Jahre fällt, 0,15.
Die Randverteilung (RV) von enthält die Wahrscheinlichkeiten der Realisationen der Zufallsvariablen "Herzkranzgefäßerkrankung".
Mit einer Wahrscheinlichkeit von 0,43 weist ein zufällig ausgewählter Patient eine Herzkranzgefäßerkrankung auf.
Die folgende Abbildung zeigt die grafische Darstellung der zweidimensionalen Wahrscheinlichkeitsfunktion von Alter und Herzkranzgefäßerkrankung (HKE).
Aus seiner langjährigen medizinischen Erfahrung weiß der Kardiologe, dass Personen ab einem Alter von 55 Jahren anfälliger für Herzkranzgefäßerkrankungen sind, weshalb er die Klassierung der Zufallsvariablen "Alter" in folgender Weise verändert: bis einschließlich 40 Jahre, 41 - 54 Jahre, 55 Jahre und älter.
Mit dieser Klassierung ergibt sich:
Alter | Herzkranzgefäßerkrankung | RV | |
(ja) | (nein) | ||
bis einschl. 40 | 0,07 | 0,32 | 0,39 |
41 - 54 | 0,15 | 0,19 | 0,34 |
55 und älter | 0,21 | 0,06 | 0,27 |
RV | 0,43 | 0,57 | 1,00 |
Die folgende Abbildung enthält die grafische Darstellung dieser zweidimensionalen Wahrscheinlichkeitsfunktion von Alter und Herzkranzgefäßerkrankung (HKE).
<R output="display">
pdf(rpdf,width=7, height=7) library(RColorBrewer) library(lattice) library(latticeExtra) data <- read.table(text='HKE P Alter "(y1) ja" 0.07 "(x1) bis einschl. 40" "(y1) ja" 0.15 "(x2) 41-54" "(y1) ja" 0.21 "(x3) 55 und \u00E4lter" "(y2) nein" 0.32 "(x1) bis einschl. 40" "(y2) nein" 0.19 "(x2) 41-54" "(y2) nein" 0.06 "(x3) 55 und \u00E4lter" ',header=TRUE) colors <- c("cornflowerblue","cornflowerblue","cornflowerblue", "deeppink4","deeppink4","deeppink4") cloud(P~HKE+Alter, data, panel.3d.cloud=panel.3dbars, col.facet=colors, xbase=0.4, ybase=0.4, scales=list(arrows=FALSE, col=1), par.settings = list(axis.line = list(col = "transparent"))) </R> |
Schlussfolgerung:
Bei diskreten Zufallsvariablen mit einer hohen Anzahl von Ausprägungen ist eine Klassierung erforderlich, um eine übersichtliche Kontingenztabelle erstellen zu können.
Der Erkenntnisgewinn, den man aus der Kontingenztabelle über mögliche Beziehungen zwischen den Zufallsvariablen gewinnen kann, ist entscheidend von dieser Klassierung abhängig.
Es ist somit durchaus angebracht, weiterführende statistische Analysen mit verschiedenen Klassierungen durchzuführen.