Randverteilung (stochastisch)

Aus MM*Stat

Version vom 16. Mai 2018, 13:21 Uhr von Haberema (Diskussion | Beiträge) (Die Seite wurde neu angelegt: „=={{Vorlage:Überschrift}}== ===Randverteilung oder marginale Verteilung diskreter Zufallsvariablen=== Die ''Randverteilung'' oder ''marginale Verteilung'' <…“)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Wechseln zu: Navigation, Suche

Grundbegriffe

Randverteilung oder marginale Verteilung diskreter Zufallsvariablen

Die Randverteilung oder marginale Verteilung der diskreten Zufallsvariablen gibt an, wie groß die Wahrscheinlichkeit dafür ist, dass einen speziellen Wert annimmt, wobei es gleichgültig ist, welchen Wert die zweite diskrete Zufallsvariable annimmt.

Die Randverteilung der diskreten Zufallsvariablen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Y} ist analog definiert.

Randverteilungen (RV) sind eindimensionale Verteilungen.

Seien und zwei diskrete Zufallsvariablen. Dann ist die Randverteilung definiert durch

Randverteilung (Randdichte) oder marginale Verteilung (Marginaldichte) stetiger Zufallsvariablen

Seien und zwei stetige Zufallsvariablen. Dann ist die Randverteilung oder marginale Verteilung definiert durch

Verteilungsfunktion der Randverteilung oder Randverteilungsfunktion

Die Randverteilungsfunktion der Zufallsvariablen bezeichnet die Verteilungsfunktion der Zufallsvariablen , unabhängig davon, welche Werte die Zufallsvariable angenommen hat.

Sie ist definiert als:

Die Randverteilungsfunktion der Zufallsvariablen bezeichnet die Verteilungsfunktion der Zufallsvariablen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Y} , unabhängig davon, welche Werte die Zufallsvariable angenommen hat.

Sie ist definiert als

Beispiele

Stetige Zufallsvariablen

Gegeben seien zwei stetige Zufallsvariablen und mit der gemeinsamen Dichtefunktion

Für diese Dichtefunktion gilt:

Die nachstehende Abbildung zeigt die grafische Darstellung der gemeinsamen Dichtefunktion von und .

<R output="display">

pdf(rpdf, width=7, height=7) x=seq(0,1,0.05) y=x fxy=outer(x,y,function(x,y) (x+3*y)/2) persp(x,y,fxy,main="f(x,y) = (x+3y)/2", xlab="x", ylab="y", zlab="f(x,y)", xlim=c(0,1), ylim=c(0,1),zlim=c(0,2.2), theta=-40, phi=25, ticktype="detailed", nticks=5, bty="l", col="purple", box=TRUE, axes=TRUE, font.lab=2, font.axis=2, scale=TRUE)

</R>

Als Randverteilungen erhält man:

und

Die Graphische Darstellung der Randverteilungen liefert:

<R output="display">
  pdf(rpdf, width=14, height=7)
par(mfrow=c(1,2))

x <- seq(0,1,0.1)
fx <- (x/2)+(3/4)
plot(x, fx, type = "l", main="Randverteilung von X: f(x) = x/2 + 3/4", xlab="x", ylab="f(x)",
     col="darkred",xlim=c(0,1), ylim=c(0,2), lwd = 2)


y <- seq(0,1,0.1)
fy <- 3*y/2 + 1/4
plot(y, fy, type = "l", main="Randverteilung von Y: f(y) = 3y/2 + 1/4", xlab="y", ylab="f(y)",
     col="darkblue",xlim=c(0,1),ylim=c(0,2), lwd = 2)
</R>

Herzkranzgefäßkrankheiten und Alter

Ein Kardiologe vermutet einen Zusammenhang zwischen dem Auftreten von Herzkranzgefäßerkrankungen und dem Alter, weshalb er diese beiden Zufallsvariablen an seinen 100 Patienten erfasst.

Es seien

- Alter der Patienten in Jahren,

- Herzkranzgefäßerkrankung mit den Ausprägungen für ja und für nein.

Als einen ersten Schritt für die Überprüfung seiner Vermutung will der Kardiologe die Wahrscheinlichkeiten und Randverteilungen der beiden Zufallsvariablen in Form einer Kontingenztabelle angeben.

Da bei der diskreten Zufallsvariablen = "Alter" 43 verschiedene Ausprägungen im Bereich von 20 bis 69 Jahre aufgetreten sind, lässt sich eine Kontingenztabelle mit dieser Anzahl von Ausprägungen von nicht sinnvoll erstellen.

Es wird deshalb eine Klassierung des Alters vorgenommen, wobei eine Klassenbreite von 5 Jahren gewählt wird, außer für die jüngeren und die älteren Patienten, die jeweils in einer Klasse der Breite 10 Jahre zusammengefasst werden:

Damit resultieren die nachstehenden Wahrscheinlichkeiten und Randverteilungen der beiden Zufallsvariablen.

Alter Herzkranzgefäßerkrankung RV
(ja) (nein)
20-29 0,01 0,09 0,10
30-34 0,02 0,13 0,15
35-39 0,03 0,09 0,12
40-44 0,05 0,10 0,15
45-49 0,06 0,07 0,13
50-54 0,05 0,03 0,08
55-59 0,13 0,04 0,17
60-69 0,08 0,02 0,10
RV 0,43 0,57 1,00

Jede Zelle dieser Tabelle enthält die Wahrscheinlichkeit, dass die Zufallsvariable eine Realisation aus der Klasse und gleichzeitig die Zufallsvariable die Realisation annimmt, wobei hier die statistische Definition der Wahrscheinlichkeit verwendet wird.

Zum Beispiel besagt der Inhalt der Zelle (2,1), dass ein zufällig ausgewählter Patient mit einer Wahrscheinlichkeit von 0,13 in die Altersklasse 30 bis einschließlich 34 Jahre fällt und er keine Herzkranzgefäßerkrankung hat.

Die Randverteilung (RV) von gibt die Wahrscheinlichkeiten der Realisationen der Zufallsvariablen "Alter" an.

So beträgt z.B. die Wahrscheinlichkeit, dass ein zufällig ausgewählter Patient in die Altersklasse 30 bis einschließlich 34 Jahre fällt, 0,15.

Die Randverteilung (RV) von enthält die Wahrscheinlichkeiten der Realisationen der Zufallsvariablen "Herzkranzgefäßerkrankung".

Mit einer Wahrscheinlichkeit von 0,43 weist ein zufällig ausgewählter Patient eine Herzkranzgefäßerkrankung auf.

Die folgende Abbildung zeigt die grafische Darstellung der zweidimensionalen Wahrscheinlichkeitsfunktion von Alter und Herzkranzgefäßerkrankung (HKE).

<R output="display">

pdf(rpdf,width=7, height=7) library(RColorBrewer) library(lattice) library(latticeExtra)

data <- read.table(text='HKE  P  Altersgruppe
                  "(y1) ja"  0.01  "20-29"
                  "(y1) ja"  0.02  "30-34"
                  "(y1) ja"  0.03  "35-39"
                  "(y1) ja"  0.05  "40-44"
                  "(y1) ja"  0.06  "45-49"
                  "(y1) ja"  0.05  "50-54"
                  "(y1) ja"  0.13  "55-59"
                  "(y1) ja"  0.08  "60-69"
                  "(y2) nein"  0.09  "20-29"
                  "(y2) nein"  0.13  "30-34"
                  "(y2) nein"  0.09  "35-39"
                  "(y2) nein"  0.10  "40-44"
                  "(y2) nein"  0.07  "45-49"
                  "(y2) nein"  0.03  "50-54"
                  "(y2) nein"  0.04  "55-59"
                  "(y2) nein"  0.02  "60-69" 
                   ',header=TRUE)

colors <- c("cornflowerblue","deeppink4") cloud(P~HKE+Altersgruppe, data, panel.3d.cloud=panel.3dbars, col.facet=colors,

      xbase=0.4, ybase=0.4, scales=list(arrows=FALSE, col=1), 
      par.settings = list(axis.line = list(col = "transparent")))

</R>

Aus seiner langjährigen medizinischen Erfahrung weiß der Kardiologe, dass Personen ab einem Alter von 55 Jahren anfälliger für Herzkranzgefäßerkrankungen sind, weshalb er die Klassierung der Zufallsvariablen "Alter" in folgender Weise verändert: bis einschließlich 40 Jahre, 41 - 54 Jahre, 55 Jahre und älter.

Mit dieser Klassierung ergibt sich:

Alter Herzkranzgefäßerkrankung RV
(ja) (nein)
bis einschl. 40 0,07 0,32 0,39
41 - 54 0,15 0,19 0,34
55 und älter 0,21 0,06 0,27
RV 0,43 0,57 1,00

Die folgende Abbildung enthält die grafische Darstellung dieser zweidimensionalen Wahrscheinlichkeitsfunktion von Alter und Herzkranzgefäßerkrankung (HKE).

<R output="display">

pdf(rpdf,width=7, height=7) library(RColorBrewer) library(lattice) library(latticeExtra)

data <- read.table(text='HKE P Alter

                   "(y1) ja"  0.07  "(x1) bis einschl. 40"
                   "(y1) ja"  0.15  "(x2) 41-54"
                   "(y1) ja"  0.21  "(x3) 55 und \u00E4lter"
                   "(y2) nein"  0.32  "(x1) bis einschl. 40"
                   "(y2) nein"  0.19  "(x2) 41-54"
                   "(y2) nein"  0.06  "(x3) 55 und \u00E4lter"
                   ',header=TRUE)

colors <- c("cornflowerblue","cornflowerblue","cornflowerblue",

           "deeppink4","deeppink4","deeppink4")

cloud(P~HKE+Alter, data, panel.3d.cloud=panel.3dbars, col.facet=colors,

      xbase=0.4, ybase=0.4, scales=list(arrows=FALSE, col=1), 
      par.settings = list(axis.line = list(col = "transparent")))

</R>

Schlussfolgerung:

Bei diskreten Zufallsvariablen mit einer hohen Anzahl von Ausprägungen ist eine Klassierung erforderlich, um eine übersichtliche Kontingenztabelle erstellen zu können.

Der Erkenntnisgewinn, den man aus der Kontingenztabelle über mögliche Beziehungen zwischen den Zufallsvariablen gewinnen kann, ist entscheidend von dieser Klassierung abhängig.

Es ist somit durchaus angebracht, weiterführende statistische Analysen mit verschiedenen Klassierungen durchzuführen.