Randverteilung (stochastisch)

Aus MM*Stat

(Weitergeleitet von Randdichte)
Wechseln zu: Navigation, Suche

Zufallsvariable

Zufallsvariable • Wahrscheinlichkeitsfunktion • Wahrscheinlichkeitsdichtefunktion • Verteilungsfunktion (stochastisch) • Randverteilung (stochastisch) • Bedingte Verteilung (stochastisch) • Stochastische Unabhängigkeit • Parameter eindimensionaler Verteilungen (stochastisch) • Parameter zweidimensionaler Verteilungen (stochastisch) • Multiple Choice • Video • Aufgaben • Lösungen
Bedingte Dichtefunktion • Bedingte Verteilungsfunktion • Bedingte Wahrscheinlichkeitsfunktion • Dichtefunktion (eindimensional) • Dichtefunktion (zweidimensional) • Diskrete Zufallsvariable • Erwartungswert • Erwartungswert (diskret) • Erwartungswert (stetig) • Korrelationskoeffizient (stochastisch) • Kovarianz (stochastisch) • Marginaldichte • Marginale Verteilung (stochastisch) • Randdichte • Randverteilungsfunktion • Realisation • Standardabweichung (stochastisch) • Standardisierung • Stetige Zufallsvariable • Tschebyschev-Ungleichung • Unabhängigkeit (stochastisch) • Varianz (stochastisch) • Varianz (stochastisch, diskret) • Varianz (stochastisch, stetig) • Verteilungsfunktion (stochastisch, eindimensional) • Verteilungsfunktion (stochastisch, zweidimensional) • Verteilungsfunktion der Randverteilung • Wahrscheinlichkeitsdichte (eindimensional) • Wahrscheinlichkeitsdichte (zweidimensional) • Wahrscheinlichkeitsfunktion (eindimensional) • Wahrscheinlichkeitsfunktion (zweidimensional) • Verteilung (stochastisch) • Wahrscheinlichkeitsverteilung

Grundbegriffe

Randverteilung oder marginale Verteilung diskreter Zufallsvariablen

Die Randverteilung oder marginale Verteilung f(x_{i}) der diskreten Zufallsvariablen X gibt an, wie groß die Wahrscheinlichkeit dafür ist, dass X einen speziellen Wert x_{i} annimmt, wobei es gleichgültig ist, welchen Wert die zweite diskrete Zufallsvariable Y annimmt.

Die Randverteilung f(y_{j}) der diskreten Zufallsvariablen Y ist analog definiert.

Randverteilungen (RV) sind eindimensionale Verteilungen.

X/Y \,y_1 \,\dots \,y_j \,\dots \,\mbox{RV } X
\,x_1 \,f(x_1,y_1) \,\dots \,f(x_1,y_j) \,\dots \,f(x_1)
\,: \,: \,\dots \,: \,\dots \,:
\,x_i \,f(x_i,y_1) \,\dots \,f(x_i,y_j) \,\dots \,f(x_i)
\,: \,: \,\dots \,: \,\dots \,:
\,\mbox{RV }Y \,f(y_1) \,\dots \,f(y_j) \,\dots \,1,00

Seien X und Y zwei diskrete Zufallsvariablen. Dann ist die Randverteilung definiert durch

 P(X=x_{i})=f(x_{i})=\sum\nolimits_{j}f(x_{i},y_{j})

 P(Y=y_{j})=f(y_{j})=\sum\nolimits_{i}f(x_{i},y_{j})

Randverteilung (Randdichte) oder marginale Verteilung (Marginaldichte) stetiger Zufallsvariablen

Seien X und Y zwei stetige Zufallsvariablen. Dann ist die Randverteilung oder marginale Verteilung definiert durch

f(x) = \int\limits_{- \infty}^{+ \infty} f(x,y) \, dy

f(y) = \int\limits_{- \infty}^{+ \infty} f(x,y) \, dx

Verteilungsfunktion der Randverteilung oder Randverteilungsfunktion

Die Randverteilungsfunktion F_{y}(x) der Zufallsvariablen X bezeichnet die Verteilungsfunktion der Zufallsvariablen X, unabhängig davon, welche Werte die Zufallsvariable Y angenommen hat.

Sie ist definiert als:

 P(X\leq x|Y)=F_{y}(x)=\begin{cases}
\sum\limits_{j=-\infty }^{+\infty }\sum\limits_{i=-\infty}^{x}f(x_{i},y_{j})\quad \mbox{ }X & \mbox{diskret}\\
\int\limits_{-\infty }^{+\infty }\int\limits_{-\infty}^{x}f(u,v)\,du\,dv\quad \mbox{ }X & \mbox{stetig}
\end{cases}

Die Randverteilungsfunktion F_{x}(y) der Zufallsvariablen Y bezeichnet die Verteilungsfunktion der Zufallsvariablen Y, unabhängig davon, welche Werte die Zufallsvariable X angenommen hat.

Sie ist definiert als

 P(Y\leq y|X)=F_{x}(y)=\begin{cases}
\sum\limits_{j=-\infty }^{y}\sum\limits_{i=-\infty }^{+\infty}f(x_{i},y_{j})\quad \mbox{  }Y & \mbox{diskret}\\
\int\limits_{-\infty }^{y}\int\limits_{-\infty }^{+\infty}f(u,v)\,du\,dv\quad \mbox{  }Y & \mbox{stetig}\end{cases}

Beispiele

Stetige Zufallsvariablen

Gegeben seien zwei stetige Zufallsvariablen X\; und Y\; mit der gemeinsamen Dichtefunktion

f(x,y)=\begin{cases}
\frac{x+3y}{2}\quad  & \mbox{, wenn  }0<x<1 \mbox{ und }0<y<1 \\
0 & \mbox{, sonst}\end{cases}

Für diese Dichtefunktion gilt:

\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f(x,y)\, dx\, dy  = \int_0^1 \int_0^1 \frac{x + 3 y}{2} \, dx\, dy = \int_0^1 \left[ \frac{x^2}{4} + \frac{3xy}{2} \right]_0^1\, dy
= \int_0^1 \left( \frac{1}{4} + \frac{3y}{2} \right) \, dy = \left[\frac{y}{4} + \frac{3y^2}{4} \right]_0^1 = 1

Die nachstehende Abbildung zeigt die grafische Darstellung der gemeinsamen Dichtefunktion von X\; und Y\;.

Als Randverteilungen erhält man:

 f(x)=\int_{-\infty }^{\infty }f(x,y)\,dy=\int_{0}^{1}\frac{x+3y}{2}\,dy=\left[ \frac{xy}{2}+\frac{3y^{2}}{4}\right] _{0}^{1}

f(x)=\begin{cases}
\frac{x}{2}+\frac{3}{4}\quad  & \mbox{, wenn }0<x<1 \\
0 & \mbox{, sonst}
\end{cases}

und

 f(y)=\int_{-\infty }^{\infty }f(x,y)\,dx=\int_{0}^{1}\frac{x+3y}{2}\,dx=\left[ \frac{x^{2}}{4}+\frac{3xy}{2}\right] _{0}^{1}

 f(y)=\begin{cases}
\frac{3y}{2}+\frac{1}{4}\quad  & \mbox{, wenn }0<y<1 \\
0 & \mbox{, sonst}\end{cases}

Die Graphische Darstellung der Randverteilungen liefert:

Herzkranzgefäßkrankheiten und Alter

Ein Kardiologe vermutet einen Zusammenhang zwischen dem Auftreten von Herzkranzgefäßerkrankungen und dem Alter, weshalb er diese beiden Zufallsvariablen an seinen 100 Patienten erfasst.

Es seien

X\; - Alter der Patienten in Jahren,

Y\; - Herzkranzgefäßerkrankung mit den Ausprägungen y_{1} = 0 für ja und y_{2} = 1 für nein.

Als einen ersten Schritt für die Überprüfung seiner Vermutung will der Kardiologe die Wahrscheinlichkeiten und Randverteilungen der beiden Zufallsvariablen in Form einer Kontingenztabelle angeben.

Da bei der diskreten Zufallsvariablen X = "Alter" 43 verschiedene Ausprägungen im Bereich von 20 bis 69 Jahre aufgetreten sind, lässt sich eine Kontingenztabelle mit dieser Anzahl von Ausprägungen von X nicht sinnvoll erstellen.

Es wird deshalb eine Klassierung des Alters vorgenommen, wobei eine Klassenbreite von 5 Jahren gewählt wird, außer für die jüngeren und die älteren Patienten, die jeweils in einer Klasse der Breite 10 Jahre zusammengefasst werden:

 \, 20-29,\;30-34,\;35-39,\;40-44,\;45-49,\;50-54,\;55-59 \mbox{ und } 60-69

Damit resultieren die nachstehenden Wahrscheinlichkeiten und Randverteilungen der beiden Zufallsvariablen.

Alter X\; Herzkranzgefäßerkrankung RV X\;
y_{1}=0 (ja) y_{2}=1 (nein)
20-29 0,01 0,09 0,10
30-34 0,02 0,13 0,15
35-39 0,03 0,09 0,12
40-44 0,05 0,10 0,15
45-49 0,06 0,07 0,13
50-54 0,05 0,03 0,08
55-59 0,13 0,04 0,17
60-69 0,08 0,02 0,10
RV Y\; 0,43 0,57 1,00

Jede Zelle dieser Tabelle enthält die Wahrscheinlichkeit, dass die Zufallsvariable X\; eine Realisation aus der Klasse x_{i} und gleichzeitig die Zufallsvariable Y\; die Realisation y_{j} annimmt, wobei hier die statistische Definition der Wahrscheinlichkeit verwendet wird.

Zum Beispiel besagt der Inhalt der Zelle (2,1), dass ein zufällig ausgewählter Patient mit einer Wahrscheinlichkeit von 0,13 in die Altersklasse 30 bis einschließlich 34 Jahre fällt und er keine Herzkranzgefäßerkrankung hat.

Die Randverteilung (RV) von X\; gibt die Wahrscheinlichkeiten der Realisationen der Zufallsvariablen "Alter" an.

So beträgt z.B. die Wahrscheinlichkeit, dass ein zufällig ausgewählter Patient in die Altersklasse 30 bis einschließlich 34 Jahre fällt, 0,15.

Die Randverteilung (RV) von Y\; enthält die Wahrscheinlichkeiten der Realisationen der Zufallsvariablen "Herzkranzgefäßerkrankung".

Mit einer Wahrscheinlichkeit von 0,43 weist ein zufällig ausgewählter Patient eine Herzkranzgefäßerkrankung auf.

Die folgende Abbildung zeigt die grafische Darstellung der zweidimensionalen Wahrscheinlichkeitsfunktion von Alter und Herzkranzgefäßerkrankung (HKE).

Aus seiner langjährigen medizinischen Erfahrung weiß der Kardiologe, dass Personen ab einem Alter von 55 Jahren anfälliger für Herzkranzgefäßerkrankungen sind, weshalb er die Klassierung der Zufallsvariablen "Alter" in folgender Weise verändert: bis einschließlich 40 Jahre, 41 - 54 Jahre, 55 Jahre und älter.

Mit dieser Klassierung ergibt sich:

Alter X\; Herzkranzgefäßerkrankung RV X\;
 y_{1}=0 (ja)  y_{2}=1 (nein)
bis einschl. 40 0,07 0,32 0,39
41 - 54 0,15 0,19 0,34
55 und älter 0,21 0,06 0,27
RV Y\; 0,43 0,57 1,00

Die folgende Abbildung enthält die grafische Darstellung dieser zweidimensionalen Wahrscheinlichkeitsfunktion von Alter und Herzkranzgefäßerkrankung (HKE).

<R output="display">

pdf(rpdf,width=7, height=7) library(RColorBrewer) library(lattice) library(latticeExtra)

data <- read.table(text='HKE P Alter

                   "(y1) ja"  0.07  "(x1) bis einschl. 40"
                   "(y1) ja"  0.15  "(x2) 41-54"
                   "(y1) ja"  0.21  "(x3) 55 und \u00E4lter"
                   "(y2) nein"  0.32  "(x1) bis einschl. 40"
                   "(y2) nein"  0.19  "(x2) 41-54"
                   "(y2) nein"  0.06  "(x3) 55 und \u00E4lter"
                   ',header=TRUE)

colors <- c("cornflowerblue","cornflowerblue","cornflowerblue",

           "deeppink4","deeppink4","deeppink4")

cloud(P~HKE+Alter, data, panel.3d.cloud=panel.3dbars, col.facet=colors,

      xbase=0.4, ybase=0.4, scales=list(arrows=FALSE, col=1), 
      par.settings = list(axis.line = list(col = "transparent")))

</R>

Schlussfolgerung:

Bei diskreten Zufallsvariablen mit einer hohen Anzahl von Ausprägungen ist eine Klassierung erforderlich, um eine übersichtliche Kontingenztabelle erstellen zu können.

Der Erkenntnisgewinn, den man aus der Kontingenztabelle über mögliche Beziehungen zwischen den Zufallsvariablen gewinnen kann, ist entscheidend von dieser Klassierung abhängig.

Es ist somit durchaus angebracht, weiterführende statistische Analysen mit verschiedenen Klassierungen durchzuführen.