Randverteilung (stochastisch): Unterschied zwischen den Versionen

Version vom 30. Mai 2018, 15:46 Uhr

Grundbegriffe

Randverteilung oder marginale Verteilung diskreter Zufallsvariablen

Die Randverteilung oder marginale Verteilung $f(x_{i})$ der diskreten Zufallsvariablen $X$ gibt an, wie groß die Wahrscheinlichkeit dafür ist, dass $X$ einen speziellen Wert $x_{i}$ annimmt, wobei es gleichgültig ist, welchen Wert die zweite diskrete Zufallsvariable $Y$ annimmt.

Die Randverteilung $f(y_{j})$ der diskreten Zufallsvariablen $Y$ ist analog definiert.

Randverteilungen (RV) sind eindimensionale Verteilungen.

$X/Y$	$\,y_{1}$	$\,\dots$	$\,y_{j}$	$\,\dots$	$\,{\mbox{RV }}X$
$\,x_{1}$	$\,f(x_{1},y_{1})$	$\,\dots$	$\,f(x_{1},y_{j})$	$\,\dots$	$\,f(x_{1})$
$\,:$	$\,:$	$\,\dots$	$\,:$	$\,\dots$	$\,:$
$\,x_{i}$	$\,f(x_{i},y_{1})$	$\,\dots$	$\,f(x_{i},y_{j})$	$\,\dots$	$\,f(x_{i})$
$\,:$	$\,:$	$\,\dots$	$\,:$	$\,\dots$	$\,:$
$\,{\mbox{RV }}Y$	$\,f(y_{1})$	$\,\dots$	$\,f(y_{j})$	$\,\dots$	$\,1,00$

Seien $X$ und $Y$ zwei diskrete Zufallsvariablen. Dann ist die Randverteilung definiert durch

$P(X=x_{i})=f(x_{i})=\sum \nolimits _{j}f(x_{i},y_{j})$

$P(Y=y_{j})=f(y_{j})=\sum \nolimits _{i}f(x_{i},y_{j})$

Randverteilung (Randdichte) oder marginale Verteilung (Marginaldichte) stetiger Zufallsvariablen

Seien $X$ und $Y$ zwei stetige Zufallsvariablen. Dann ist die Randverteilung oder marginale Verteilung definiert durch

$f(x)=\int \limits _{-\infty }^{+\infty }f(x,y)\,dy$

$f(y)=\int \limits _{-\infty }^{+\infty }f(x,y)\,dx$

Verteilungsfunktion der Randverteilung oder Randverteilungsfunktion

Die Randverteilungsfunktion $F_{y}(x)$ der Zufallsvariablen $X$ bezeichnet die Verteilungsfunktion der Zufallsvariablen $X$ , unabhängig davon, welche Werte die Zufallsvariable $Y$ angenommen hat.

Sie ist definiert als:

$P(X\leq x|Y)=F_{y}(x)={\begin{cases}\sum \limits _{j=-\infty }^{+\infty }\sum \limits _{i=-\infty }^{x}f(x_{i},y_{j})\quad {\mbox{ }}X&{\mbox{diskret}}\\\int \limits _{-\infty }^{+\infty }\int \limits _{-\infty }^{x}f(u,v)\,du\,dv\quad {\mbox{ }}X&{\mbox{stetig}}\end{cases}}$

Die Randverteilungsfunktion $F_{x}(y)$ der Zufallsvariablen $Y$ bezeichnet die Verteilungsfunktion der Zufallsvariablen $Y$ , unabhängig davon, welche Werte die Zufallsvariable $X$ angenommen hat.

Sie ist definiert als

$P(Y\leq y|X)=F_{x}(y)={\begin{cases}\sum \limits _{j=-\infty }^{y}\sum \limits _{i=-\infty }^{+\infty }f(x_{i},y_{j})\quad {\mbox{ }}Y&{\mbox{diskret}}\\\int \limits _{-\infty }^{y}\int \limits _{-\infty }^{+\infty }f(u,v)\,du\,dv\quad {\mbox{ }}Y&{\mbox{stetig}}\end{cases}}$

Beispiele

Stetige Zufallsvariablen

Gegeben seien zwei stetige Zufallsvariablen $X\;$ und $Y\;$ mit der gemeinsamen Dichtefunktion

$f(x,y)={\begin{cases}{\frac {x+3y}{2}}\quad &{\mbox{, wenn }}0<x<1{\mbox{ und }}0<y<1\\0&{\mbox{, sonst}}\end{cases}}$

Für diese Dichtefunktion gilt:

$\int _{-\infty }^{\infty }\int _{-\infty }^{\infty }f(x,y)\,dx\,dy$	$=\int _{0}^{1}\int _{0}^{1}{\frac {x+3y}{2}}\,dx\,dy=\int _{0}^{1}\left[{\frac {x^{2}}{4}}+{\frac {3xy}{2}}\right]_{0}^{1}\,dy$
	$=\int _{0}^{1}\left({\frac {1}{4}}+{\frac {3y}{2}}\right)\,dy=\left[{\frac {y}{4}}+{\frac {3y^{2}}{4}}\right]_{0}^{1}=1$

Die nachstehende Abbildung zeigt die grafische Darstellung der gemeinsamen Dichtefunktion von $X\;$ und $Y\;$ .

Als Randverteilungen erhält man:

$f(x)=\int _{-\infty }^{\infty }f(x,y)\,dy=\int _{0}^{1}{\frac {x+3y}{2}}\,dy=\left[{\frac {xy}{2}}+{\frac {3y^{2}}{4}}\right]_{0}^{1}$

$f(x)={\begin{cases}{\frac {x}{2}}+{\frac {3}{4}}\quad &{\mbox{, wenn }}0<x<1\\0&{\mbox{, sonst}}\end{cases}}$

und

$f(y)=\int _{-\infty }^{\infty }f(x,y)\,dx=\int _{0}^{1}{\frac {x+3y}{2}}\,dx=\left[{\frac {x^{2}}{4}}+{\frac {3xy}{2}}\right]_{0}^{1}$

$f(y)={\begin{cases}{\frac {3y}{2}}+{\frac {1}{4}}\quad &{\mbox{, wenn }}0<y<1\\0&{\mbox{, sonst}}\end{cases}}$

Die Graphische Darstellung der Randverteilungen liefert:

Herzkranzgefäßkrankheiten und Alter

Ein Kardiologe vermutet einen Zusammenhang zwischen dem Auftreten von Herzkranzgefäßerkrankungen und dem Alter, weshalb er diese beiden Zufallsvariablen an seinen 100 Patienten erfasst.

Es seien

$X\;$ - Alter der Patienten in Jahren,

$Y\;$ - Herzkranzgefäßerkrankung mit den Ausprägungen $y_{1}=0$ für ja und $y_{2}=1$ für nein.

Als einen ersten Schritt für die Überprüfung seiner Vermutung will der Kardiologe die Wahrscheinlichkeiten und Randverteilungen der beiden Zufallsvariablen in Form einer Kontingenztabelle angeben.

Da bei der diskreten Zufallsvariablen $X$ = "Alter" 43 verschiedene Ausprägungen im Bereich von 20 bis 69 Jahre aufgetreten sind, lässt sich eine Kontingenztabelle mit dieser Anzahl von Ausprägungen von $X$ nicht sinnvoll erstellen.

Es wird deshalb eine Klassierung des Alters vorgenommen, wobei eine Klassenbreite von 5 Jahren gewählt wird, außer für die jüngeren und die älteren Patienten, die jeweils in einer Klasse der Breite 10 Jahre zusammengefasst werden:

$\,20-29,\;30-34,\;35-39,\;40-44,\;45-49,\;50-54,\;55-59{\mbox{ und }}60-69$

Damit resultieren die nachstehenden Wahrscheinlichkeiten und Randverteilungen der beiden Zufallsvariablen.

Alter $X\;$	Herzkranzgefäßerkrankung		RV $X\;$
Alter $X\;$	$y_{1}=0$ (ja)	$y_{2}=1$ (nein)	RV $X\;$
20-29	0,01	0,09	0,10
30-34	0,02	0,13	0,15
35-39	0,03	0,09	0,12
40-44	0,05	0,10	0,15
45-49	0,06	0,07	0,13
50-54	0,05	0,03	0,08
55-59	0,13	0,04	0,17
60-69	0,08	0,02	0,10
RV $Y\;$	0,43	0,57	1,00

Jede Zelle dieser Tabelle enthält die Wahrscheinlichkeit, dass die Zufallsvariable $X\;$ eine Realisation aus der Klasse $x_{i}$ und gleichzeitig die Zufallsvariable $Y\;$ die Realisation $y_{j}$ annimmt, wobei hier die statistische Definition der Wahrscheinlichkeit verwendet wird.

Zum Beispiel besagt der Inhalt der Zelle (2,1), dass ein zufällig ausgewählter Patient mit einer Wahrscheinlichkeit von 0,13 in die Altersklasse 30 bis einschließlich 34 Jahre fällt und er keine Herzkranzgefäßerkrankung hat.

Die Randverteilung (RV) von $X\;$ gibt die Wahrscheinlichkeiten der Realisationen der Zufallsvariablen "Alter" an.

So beträgt z.B. die Wahrscheinlichkeit, dass ein zufällig ausgewählter Patient in die Altersklasse 30 bis einschließlich 34 Jahre fällt, 0,15.

Die Randverteilung (RV) von $Y\;$ enthält die Wahrscheinlichkeiten der Realisationen der Zufallsvariablen "Herzkranzgefäßerkrankung".

Mit einer Wahrscheinlichkeit von 0,43 weist ein zufällig ausgewählter Patient eine Herzkranzgefäßerkrankung auf.

Die folgende Abbildung zeigt die grafische Darstellung der zweidimensionalen Wahrscheinlichkeitsfunktion von Alter und Herzkranzgefäßerkrankung (HKE).

Aus seiner langjährigen medizinischen Erfahrung weiß der Kardiologe, dass Personen ab einem Alter von 55 Jahren anfälliger für Herzkranzgefäßerkrankungen sind, weshalb er die Klassierung der Zufallsvariablen "Alter" in folgender Weise verändert: bis einschließlich 40 Jahre, 41 - 54 Jahre, 55 Jahre und älter.

Mit dieser Klassierung ergibt sich:

Alter $X\;$	Herzkranzgefäßerkrankung		RV $X\;$
Alter $X\;$	$y_{1}=0$ (ja)	$y_{2}=1$ (nein)	RV $X\;$
bis einschl. 40	0,07	0,32	0,39
41 - 54	0,15	0,19	0,34
55 und älter	0,21	0,06	0,27
RV $Y\;$	0,43	0,57	1,00

Die folgende Abbildung enthält die grafische Darstellung dieser zweidimensionalen Wahrscheinlichkeitsfunktion von Alter und Herzkranzgefäßerkrankung (HKE).

pdf(rpdf,width=7, height=7) library(RColorBrewer) library(lattice) library(latticeExtra)

data <- read.table(text='HKE P Alter

                   "(y1) ja"  0.07  "(x1) bis einschl. 40"
                   "(y1) ja"  0.15  "(x2) 41-54"
                   "(y1) ja"  0.21  "(x3) 55 und \u00E4lter"
                   "(y2) nein"  0.32  "(x1) bis einschl. 40"
                   "(y2) nein"  0.19  "(x2) 41-54"
                   "(y2) nein"  0.06  "(x3) 55 und \u00E4lter"
                   ',header=TRUE)

colors <- c("cornflowerblue","cornflowerblue","cornflowerblue",

           "deeppink4","deeppink4","deeppink4")

cloud(P~HKE+Alter, data, panel.3d.cloud=panel.3dbars, col.facet=colors,

      xbase=0.4, ybase=0.4, scales=list(arrows=FALSE, col=1), 
      par.settings = list(axis.line = list(col = "transparent")))

</R>

Schlussfolgerung:

Bei diskreten Zufallsvariablen mit einer hohen Anzahl von Ausprägungen ist eine Klassierung erforderlich, um eine übersichtliche Kontingenztabelle erstellen zu können.

Der Erkenntnisgewinn, den man aus der Kontingenztabelle über mögliche Beziehungen zwischen den Zufallsvariablen gewinnen kann, ist entscheidend von dieser Klassierung abhängig.

Es ist somit durchaus angebracht, weiterführende statistische Analysen mit verschiedenen Klassierungen durchzuführen.

@@ Zeile 112: / Zeile 112: @@
 Die nachstehende Abbildung zeigt die grafische Darstellung der [[Dichtefunktion (zweidimensional)|gemeinsamen Dichtefunktion]] von <math>X\;</math> und <math>Y\;</math>.
-{|
+<iframe k="wiwi" p="examples/stat_Randverteilung_Randverteilung_Dichte_R00480004800000000000000_plot.html" />
-|<R output="display">
-pdf(rpdf, width=7, height=7)
-x=seq(0,1,0.05)
-y=x
-fxy=outer(x,y,function(x,y) (x+3*y)/2)
-persp(x,y,fxy,main="f(x,y) = (x+3y)/2", xlab="x", ylab="y", zlab="f(x,y)", xlim=c(0,1), ylim=c(0,1),zlim=c(0,2.2), theta=-40, phi=25, ticktype="detailed", nticks=5, bty="l", col="purple", box=TRUE, axes=TRUE, font.lab=2, font.axis=2, scale=TRUE)
-</R>
-|}
 Als Randverteilungen erhält man:
@@ Zeile 143: / Zeile 134: @@
 Die Graphische Darstellung der Randverteilungen liefert:
-{|
+<iframe k="wiwi" p="examples/stat_Randverteilung_Randverteilung_Grafik_R00480004800000000000000_plot.html" />
-   |<R output="display">
-   pdf(rpdf, width=14, height=7)
- par(mfrow=c(1,2))
- x <- seq(0,1,0.1)
- fx <- (x/2)+(3/4)
- plot(x, fx, type = "l", main="Randverteilung von X: f(x) = x/2 + 3/4", xlab="x", ylab="f(x)",
-      col="darkred",xlim=c(0,1), ylim=c(0,2), lwd = 2)
- y <- seq(0,1,0.1)
- fy <- 3*y/2 + 1/4
- plot(y, fy, type = "l", main="Randverteilung von Y: f(y) = 3y/2 + 1/4", xlab="y", ylab="f(y)",
-      col="darkblue",xlim=c(0,1),ylim=c(0,2), lwd = 2)
- </R>
-   |}
 ===Herzkranzgefäßkrankheiten und Alter===
@@ Zeile 250: / Zeile 225: @@
 Die folgende Abbildung zeigt die grafische Darstellung der [[Wahrscheinlichkeitsfunktion (zweidimensional)|zweidimensionalen Wahrscheinlichkeitsfunktion]] von Alter und Herzkranzgefäßerkrankung (HKE).
-{|
+<iframe k="wiwi" p="examples/stat_Randverteilung_Randverteilung_Wahrscheinlichkeitsfunktion_R00480004800000000000000_plot.html" />
-|<R output="display">
-pdf(rpdf,width=7, height=7)
-library(RColorBrewer)
-library(lattice)
-library(latticeExtra)
- data <- read.table(text='HKE  P  Altersgruppe
-                   "(y1) ja"  0.01  "20-29"
-                   "(y1) ja"  0.02  "30-34"
-                   "(y1) ja"  0.03  "35-39"
-                   "(y1) ja"  0.05  "40-44"
-                   "(y1) ja"  0.06  "45-49"
-                   "(y1) ja"  0.05  "50-54"
-                   "(y1) ja"  0.13  "55-59"
-                   "(y1) ja"  0.08  "60-69"
-                   "(y2) nein"  0.09  "20-29"
-                   "(y2) nein"  0.13  "30-34"
-                   "(y2) nein"  0.09  "35-39"
-                   "(y2) nein"  0.10  "40-44"
-                   "(y2) nein"  0.07  "45-49"
-                   "(y2) nein"  0.03  "50-54"
-                   "(y2) nein"  0.04  "55-59"
-                   "(y2) nein"  0.02  "60-69"
-                    ',header=TRUE)
-colors <- c("cornflowerblue","deeppink4")
-cloud(P~HKE+Altersgruppe, data, panel.3d.cloud=panel.3dbars, col.facet=colors,
-       xbase=0.4, ybase=0.4, scales=list(arrows=FALSE, col=1),
-       par.settings = list(axis.line = list(col = "transparent")))
-</R>
-|}
 Aus seiner langjährigen medizinischen Erfahrung weiß der Kardiologe, dass Personen ab einem Alter von 55 Jahren anfälliger für Herzkranzgefäßerkrankungen sind, weshalb er die [[Klassierung]] der [[Zufallsvariable]]n "Alter" in folgender Weise verändert: bis einschließlich 40 Jahre, 41 - 54 Jahre, 55