Wahrscheinlichkeitsdichtefunktion

Aus MM*Stat

(Weitergeleitet von Verteilung (stochastisch))
Wechseln zu: Navigation, Suche

Zufallsvariable

Zufallsvariable • Wahrscheinlichkeitsfunktion • Wahrscheinlichkeitsdichtefunktion • Verteilungsfunktion (stochastisch) • Randverteilung (stochastisch) • Bedingte Verteilung (stochastisch) • Stochastische Unabhängigkeit • Parameter eindimensionaler Verteilungen (stochastisch) • Parameter zweidimensionaler Verteilungen (stochastisch) • Multiple Choice • Video • Aufgaben • Lösungen
Bedingte Dichtefunktion • Bedingte Verteilungsfunktion • Bedingte Wahrscheinlichkeitsfunktion • Dichtefunktion (eindimensional) • Dichtefunktion (zweidimensional) • Diskrete Zufallsvariable • Erwartungswert • Erwartungswert (diskret) • Erwartungswert (stetig) • Korrelationskoeffizient (stochastisch) • Kovarianz (stochastisch) • Marginaldichte • Marginale Verteilung (stochastisch) • Randdichte • Randverteilungsfunktion • Realisation • Standardabweichung (stochastisch) • Standardisierung • Stetige Zufallsvariable • Tschebyschev-Ungleichung • Unabhängigkeit (stochastisch) • Varianz (stochastisch) • Varianz (stochastisch, diskret) • Varianz (stochastisch, stetig) • Verteilungsfunktion (stochastisch, eindimensional) • Verteilungsfunktion (stochastisch, zweidimensional) • Verteilungsfunktion der Randverteilung • Wahrscheinlichkeitsdichte (eindimensional) • Wahrscheinlichkeitsdichte (zweidimensional) • Wahrscheinlichkeitsfunktion (eindimensional) • Wahrscheinlichkeitsfunktion (zweidimensional) • Verteilung (stochastisch) • Wahrscheinlichkeitsverteilung

Grundbegriffe

Wahrscheinlichkeitsdichte oder Dichtefunktion von eindimensionalen Zufallsvariablen

X sei eine stetige Zufallsvariable.

Es existiert eine Funktion f(x), für die gilt:

  1. P(a<X\leq b)=\int\nolimits_{a}^{b}f(x)\,dx mit  a,b \in \mathbb{R}, \ a \leq b
  2. f(x)\geq 0
  3. \int\nolimits_{-\infty }^{+\infty }f(x)\,dx=1

Dann heißt die Funktion f(x) Wahrscheinlichkeitsdichte oder Dichtefunktion der eindimensionalen stetigen Zufallsvariable X.

Aus obigen drei Eigenschaften folgt, dass f(x) für sich alleine keine Wahrscheinlichkeit bedeutet, sondern nur f(x) \, dx einer Wahrscheinlichkeit entspricht, nämlich der Wahrscheinlichkeit, dass die stetige Zufallsvariable X einen Wert in einem beliebig kleinen Intervall [x, x + dx] annimmt.

Die Wahrscheinlichkeit, dass eine stetige Zufallsvariable X genau einen bestimmten Wert x annimmt, ist stets Null.

Das ergibt sich aus der Tatsache, dass die Fläche über einem Punkt x gleich Null ist:

P(X=x)=\int_{x}^{x}f(t)\,dt=F(x)-F(x)=0

Als Konsequenz folgt:

Die Wahrscheinlichkeit, dass X einen Wert in dem Intervall [a, b] annimmt, ist die gleiche, ob die Werte a und b in das Intervall eingeschlossen oder nicht eingeschlossen werden. Also P(a\leq X\leq b)=P(a<X<b) \mbox{ wegen } P(a)=0 \mbox{ und }P(b)=0

Die folgenden drei Histogramme veranschaulichen, dass eine Vergrößerung der Anzahl der Beobachtungen sukzessive eine Glättung des Histogramms bewirkt.

Letztendlich kann die Häufigkeitsdichte durch eine stetige Kurve approximiert werden.

Die von a und b begrenzte Fläche unter der Kurve entspricht der Wahrscheinlichkeit, einen Wert für X aus dem Intervall [a, b] zu erhalten.

Die Wahrscheinlichkeit wird dabei formal durch ein Integral beschrieben.

<R output="display">

pdf(rpdf, height=14,width=14) par(mfrow=c(2,2)) x <- seq(-4,4,by=.1)

  1. Funktion zum plotten der Histogramm

rnormhist = function(n, br){

 h = hist(rnorm(n), breaks = br,  plot = FALSE)
 
 clr <- rep("white", br)
 
 i=1
 while(i<length(h$breaks)){
   if(h$breaks[i]<1.5 && h$breaks[i]>0.5){
     clr[i] = "green"
   }
   i=i+1
 }
 plot(h, col = clr, xlim = c(-4, 4), main = paste("n = ", n), ylab = "Histogram", xlab = "", 
      axes = FALSE, ylim = c(0, (max(h$counts)*1.1)))
 axis(1, at = c (-4, -2, 0, 2, 4), pos = 0)
 axis(2, at = c(0, (max(h$counts)*1.1)), pos = -4, labels = c("", ""), tck = 0)
 axis(3, at = c (-4, -2, 0, 2, 4), pos = max(h$counts)*1.1, labels = rep("", 5), tck = 0)
 axis(4, at = c(0, (max(h$counts)*1.1)), pos = 4, labels = rep("", 2), tck = 0)

}


      1. n = 50 ###

rnormhist(50, 20)

      1. n = 500 ###

rnormhist(500, 35)

      1. n = 5000 ###

rnormhist(5000, 50)

      1. model ###

plot(x, dnorm(x), type = "l", main = "Model", ylab = "f(x)", xlab = "",

    yaxs = "i", ylim = c(0,0.6), lwd = 3)

cord.x <- c(0.5,seq(0.5,1.5,0.01),1.5) cord.y <- c(0,dnorm(seq(0.5,1.5,0.01)),0) polygon(cord.x, cord.y, col = "green")

</R>

Wahrscheinlichkeitsdichte oder Dichtefunktion von zweidimensionalen Zufallsvariablen

X und Y seien zwei stetige Zufallsvariablen.

Es existiert eine Funktion f(x,y), für die gilt:

  1. P(a<X<b,c<Y<d)=\int_a^b\int_c^d f(x,y) \; dx \, dy
  2. f(x,y)\geq 0
  3. \int\nolimits_{-\infty }^{+\infty}\int\nolimits_{-\infty }^{+\infty }f(x,y)\,dx\,dy=1

Dann heißt die Funktion f(x,y) Wahrscheinlichkeitsdichte oder Dichtefunktion der zweidimensionalen stetigen Zufallsvariablen X und Y.

Wahrscheinlichkeitsverteilung oder (stochastische) Verteilung

Jede Zufallsvariable ist durch die Angabe der Wahrscheinlichkeitsfunktion (diskrete Zufallsvariable) bzw. der Wahrscheinlichkeitsdichtefunktion (stetige Zufallsvariable) vollständig beschrieben.

Die Wahrscheinlichkeitsverteilung oder (stochastische) Verteilung fasst die Wahrscheinlichkeitsfunktion und Wahrscheinlichkeitsdichtefunktion unter einem Begriff zusammen.

Beispiele

Wartezeiten

An den Kassen eines Supermarktes wurde über eine lange Periode die Wartezeit (in Minuten) der Kunden erfasst.

Es ergab sich die folgende relative Häufigkeitsverteilung:

Wartezeit in Minuten relative Häufigkeit kumulative relative Häufigkeit
8,0 - 8,5 0,002 0,002
8,5 - 9,0 0,004 0,006
9,0 - 9,5 0,009 0,015
9,5 - 10,0 0,013 0,028
10,0 - 10,5 0,020 0,048
10,5 - 11,0 0,043 0,091
11,0 - 11,5 0,094 0,185
11,5 - 12,0 0,135 0,320
12,0 - 12,5 0,169 0,489
12,5 - 13,0 0,158 0,647
13,0 - 13,5 0,139 0,786
13,5 - 14,0 0,078 0,864
14,0 - 14,5 0,065 0,929
14,5 - 15,0 0,030 0,959
15,0 - 15,5 0,010 0,969
15,5 - 16,0 0,014 0,983
16,0 - 16,5 0,006 0,989
16,5 - 17,0 0,004 0,993
16,0 - 17,5 0,003 0,996
17,5 - 18,0 0,004 1,000

Die relativen Häufigkeiten werden verwendet, um ein Histogramm (Abb. 1) und ein Polygon (Abb. 2) zu erstellen.

<R output="display">

pdf(rpdf,height=7,width=7)

warte <- readdataSK("Wartezeiten.csv", sep=";")

barplot(warte[,2], names = warte[,1], las = 1, col = "red", ylim = c(0, 0.2), cex.names = 0.7,

       ylab = "f(x)", xlab = "Wartezeit", xaxt = "n", space = 0,sub="Abb. 1: Histogramm der Wartezeit")

axis(1, at = (0.5:19.5), labels = warte[,1], tck = -0.01, ) </R>

<R output="display">

pdf(rpdf,height=7,width=7)

warte <- readdataSK("Wartezeiten.csv", sep=";") plot(warte[,2], type = "l", axes = FALSE, col = "blue", lwd = 3, ylab="f(x)", xlab = "Wartezeit",sub="Abb. 2: Polygon der Wartezeit") axis(1, at = (1:20), labels = warte[,1], tck = -0.01, pos = 0) axis(2, at = seq(from = 0, to = 0.2, by = 0.04), tck = -0.01, pos = 0)

</R>

Die stetige Zufallsvariable X = \mbox{Wartezeit der Kunden} ist hier gruppiert mit konstanter Klassenbreite von 0,5 Minuten angegeben.

Die Wahrscheinlichkeiten werden durch die relativen Häufigkeiten approximiert (statistische Definition der Wahrscheinlichkeit).

Man beachte: In dem Histogramm der Abb. 1 geben nicht die Flächen der Rechtecke über den einzelnen Klassen, sondern die Höhen der Rechtecke die Wahrscheinlichkeiten an.

Das liegt darin begründet, dass in diesem Histogramm die Basis eines jeden Rechtecks 0,5 ist.

Somit ergibt sich die Fläche jedes Rechtecks als seine Höhe multipliziert mit 0,5.

Damit folgt, dass die Gesamtfläche aller Rechtecke gleich 0,5 und nicht 1,0 ist. Somit ist das Polygon der Abb. 2 keine Dichtefunktion, da die Eigenschaft

\int_{-\infty }^{+\infty }f(x)\,dx=1

nicht erfüllt ist.

Um die Kurve der Dichtefunktion für die Zufallsvariable X zu erhalten, wird zunächst die Häufigkeitsdichte berechnet, die man als relative Häufigkeit dividiert durch die Klassenbreite erhält.

Wartezeit in Minuten Häufigkeitsdichte
8,0 - 8,5 0,004
8,5 - 9,0 0,008
9,0 - 9,5 0,018
9,5 - 10,0 0,026
10,0 - 10,5 0,040
10,5 - 11,0 0,086
11,0 - 11,5 0,188
11,5 - 12,0 0,270
12,0 - 12,5 0,338
12,5 - 13,0 0,316
13,0 - 13,5 0,278
13,5 - 14,0 0,156
14,0 - 14,5 0,1301
4,5 - 15,0 0,060
15,0 - 15,5 0,020
15,5 - 16,0 0,028
16,0 - 16,5 0,012
16,5 - 17,0 0,008
16,0 - 17,5 0,006
17,5 - 18,0 0,008

Unter Verwendung der Häufigkeitsdichten wird erneut ein Histogramm gezeichnet und ein geglättetes Polygon angepasst.

<R output="display">

pdf(rpdf)

warte <- readdataSK("Wartezeiten.csv", sep=";")

barplot(warte[,4], names = warte[,1], las = 1, col = "red", ylim = c(0, 0.35), cex.names = 0.7,

       ylab = "rel. H\u00E4ufigkeitsdichte", xlab = "Wartezeit", xaxt = "n", space = 0, sub="Abb. 3: Histogramm der Wartezeit mit den H\u00E4ufigkeitsdichten")

axis(1, at = (0.5:19.5), labels = warte[,1], tck = -0.01, )

</R>

<R output="display">

pdf(rpdf)

warte <- readdataSK("Wartezeiten.csv", sep=";") plot(warte[,4], type = "l", axes = FALSE, col = "red", lwd = 3, ylab="rel. H\u00E4ufigkeitsdichte",

    xlab = "Wartezeit", ylim = c(0, 0.35), sub="Abb. 4: Dichtefunktion von X")

axis(1, at = (1:20), labels = warte[,1], tck = -0.01, pos = 0) axis(2, at = seq(from = 0, to = 0.35, by = 0.05), tck = -0.01, pos = 0)

</R>

Im Histogramm der Abb. 3 entspricht die Fläche und nicht die Höhe des Rechtecks der Wahrscheinlichkeit der jeweiligen Klasse, so dass die Summe aller Flächen gleich Eins ist.

Das Polygon in Abb. 4 ist die (approximative) Dichtefunktion für die stetige Zufallsvariable X={ \mbox{Wartezeit der Kunden }}.

Stetige Zufallsvariablen

Gegeben seien zwei stetige Zufallsvariablen X\; und Y\; mit der gemeinsamen Dichtefunktion

f(x,y)=\begin{cases}
\frac{x+3y}{2}\quad  & \mbox{, wenn  }0<x<1 \mbox{und }0<y<1 \\
0 & \mbox{, sonst}\end{cases}

Für diese Dichtefunktion gilt:

\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f(x,y)\, dx\, dy  = \int_0^1 \int_0^1 \frac{x + 3 y}{2} \, dx\, dy = \int_0^1 \left[ \frac{x^2}{4} + \frac{3xy}{2} \right]_0^1\, dy
= \int_0^1 \left( \frac{1}{4} + \frac{3y}{2} \right) \, dy = \left[\frac{y}{4} + \frac{3y^2}{4} \right]_0^1 = 1

Die nachstehende Abbildung zeigt die grafische Darstellung der zweidimensionalen Wahrscheinlichkeitsfunktion von X\; und Y\;.

<R output="display">

pdf(rpdf, width=7, height=7) x=seq(0,1,0.05) y=x fxy=outer(x,y,function(x,y) (x+3*y)/2) persp(x,y,fxy,main="f(x,y) = (x+3y)/2", xlab="x", ylab="y", zlab="f(x,y)", xlim=c(0,1), ylim=c(0,1),zlim=c(0,2.2), theta=-40, phi=25, ticktype="detailed", nticks=5, bty="l", col="purple", box=TRUE, axes=TRUE, font.lab=2, font.axis=2, scale=TRUE)

</R>