Wahrscheinlichkeitsdichtefunktion
Aus MM*Stat
Grundbegriffe
Wahrscheinlichkeitsdichte oder Dichtefunktion von eindimensionalen Zufallsvariablen
sei eine stetige Zufallsvariable.
Es existiert eine Funktion , für die gilt:
- mit
Dann heißt die Funktion Wahrscheinlichkeitsdichte oder Dichtefunktion der eindimensionalen stetigen Zufallsvariable .
Aus obigen drei Eigenschaften folgt, dass für sich alleine keine Wahrscheinlichkeit bedeutet, sondern nur einer Wahrscheinlichkeit entspricht, nämlich der Wahrscheinlichkeit, dass die stetige Zufallsvariable einen Wert in einem beliebig kleinen Intervall annimmt.
Die Wahrscheinlichkeit, dass eine stetige Zufallsvariable genau einen bestimmten Wert annimmt, ist stets Null.
Das ergibt sich aus der Tatsache, dass die Fläche über einem Punkt gleich Null ist:
Als Konsequenz folgt:
Die Wahrscheinlichkeit, dass einen Wert in dem Intervall annimmt, ist die gleiche, ob die Werte und in das Intervall eingeschlossen oder nicht eingeschlossen werden. Also
Die folgenden drei Histogramme veranschaulichen, dass eine Vergrößerung der Anzahl der Beobachtungen sukzessive eine Glättung des Histogramms bewirkt.
Letztendlich kann die Häufigkeitsdichte durch eine stetige Kurve approximiert werden.
Die von und begrenzte Fläche unter der Kurve entspricht der Wahrscheinlichkeit, einen Wert für aus dem Intervall zu erhalten.
Die Wahrscheinlichkeit wird dabei formal durch ein Integral beschrieben.
<R output="display">
pdf(rpdf, height=14,width=14) par(mfrow=c(2,2)) x <- seq(-4,4,by=.1)
rnormhist = function(n, br){ h = hist(rnorm(n), breaks = br, plot = FALSE) clr <- rep("white", br) i=1 while(i<length(h$breaks)){ if(h$breaks[i]<1.5 && h$breaks[i]>0.5){ clr[i] = "green" } i=i+1 } plot(h, col = clr, xlim = c(-4, 4), main = paste("n = ", n), ylab = "Histogram", xlab = "", axes = FALSE, ylim = c(0, (max(h$counts)*1.1))) axis(1, at = c (-4, -2, 0, 2, 4), pos = 0) axis(2, at = c(0, (max(h$counts)*1.1)), pos = -4, labels = c("", ""), tck = 0) axis(3, at = c (-4, -2, 0, 2, 4), pos = max(h$counts)*1.1, labels = rep("", 5), tck = 0) axis(4, at = c(0, (max(h$counts)*1.1)), pos = 4, labels = rep("", 2), tck = 0) }
rnormhist(50, 20)
rnormhist(500, 35)
rnormhist(5000, 50)
plot(x, dnorm(x), type = "l", main = "Model", ylab = "f(x)", xlab = "", yaxs = "i", ylim = c(0,0.6), lwd = 3) cord.x <- c(0.5,seq(0.5,1.5,0.01),1.5) cord.y <- c(0,dnorm(seq(0.5,1.5,0.01)),0) polygon(cord.x, cord.y, col = "green") </R> |
Wahrscheinlichkeitsdichte oder Dichtefunktion von zweidimensionalen Zufallsvariablen
und seien zwei stetige Zufallsvariablen.
Es existiert eine Funktion , für die gilt:
Dann heißt die Funktion Wahrscheinlichkeitsdichte oder Dichtefunktion der zweidimensionalen stetigen Zufallsvariablen und .
Wahrscheinlichkeitsverteilung oder (stochastische) Verteilung
Jede Zufallsvariable ist durch die Angabe der Wahrscheinlichkeitsfunktion (diskrete Zufallsvariable) bzw. der Wahrscheinlichkeitsdichtefunktion (stetige Zufallsvariable) vollständig beschrieben.
Die Wahrscheinlichkeitsverteilung oder (stochastische) Verteilung fasst die Wahrscheinlichkeitsfunktion und Wahrscheinlichkeitsdichtefunktion unter einem Begriff zusammen.
Beispiele
Wartezeiten
An den Kassen eines Supermarktes wurde über eine lange Periode die Wartezeit (in Minuten) der Kunden erfasst.
Es ergab sich die folgende relative Häufigkeitsverteilung:
Wartezeit in Minuten | relative Häufigkeit | kumulative relative Häufigkeit |
8,0 - 8,5 | 0,002 | 0,002 |
8,5 - 9,0 | 0,004 | 0,006 |
9,0 - 9,5 | 0,009 | 0,015 |
9,5 - 10,0 | 0,013 | 0,028 |
10,0 - 10,5 | 0,020 | 0,048 |
10,5 - 11,0 | 0,043 | 0,091 |
11,0 - 11,5 | 0,094 | 0,185 |
11,5 - 12,0 | 0,135 | 0,320 |
12,0 - 12,5 | 0,169 | 0,489 |
12,5 - 13,0 | 0,158 | 0,647 |
13,0 - 13,5 | 0,139 | 0,786 |
13,5 - 14,0 | 0,078 | 0,864 |
14,0 - 14,5 | 0,065 | 0,929 |
14,5 - 15,0 | 0,030 | 0,959 |
15,0 - 15,5 | 0,010 | 0,969 |
15,5 - 16,0 | 0,014 | 0,983 |
16,0 - 16,5 | 0,006 | 0,989 |
16,5 - 17,0 | 0,004 | 0,993 |
16,0 - 17,5 | 0,003 | 0,996 |
17,5 - 18,0 | 0,004 | 1,000 |
Die relativen Häufigkeiten werden verwendet, um ein Histogramm (Abb. 1) und ein Polygon (Abb. 2) zu erstellen.
<R output="display">
pdf(rpdf,height=7,width=7) warte <- readdataSK("Wartezeiten.csv", sep=";") barplot(warte[,2], names = warte[,1], las = 1, col = "red", ylim = c(0, 0.2), cex.names = 0.7, ylab = "f(x)", xlab = "Wartezeit", xaxt = "n", space = 0,sub="Abb. 1: Histogramm der Wartezeit") axis(1, at = (0.5:19.5), labels = warte[,1], tck = -0.01, ) </R> |
<R output="display">
pdf(rpdf,height=7,width=7) warte <- readdataSK("Wartezeiten.csv", sep=";") plot(warte[,2], type = "l", axes = FALSE, col = "blue", lwd = 3, ylab="f(x)", xlab = "Wartezeit",sub="Abb. 2: Polygon der Wartezeit") axis(1, at = (1:20), labels = warte[,1], tck = -0.01, pos = 0) axis(2, at = seq(from = 0, to = 0.2, by = 0.04), tck = -0.01, pos = 0) </R> |
Die stetige Zufallsvariable ist hier gruppiert mit konstanter Klassenbreite von 0,5 Minuten angegeben.
Die Wahrscheinlichkeiten werden durch die relativen Häufigkeiten approximiert (statistische Definition der Wahrscheinlichkeit).
Man beachte: In dem Histogramm der Abb. 1 geben nicht die Flächen der Rechtecke über den einzelnen Klassen, sondern die Höhen der Rechtecke die Wahrscheinlichkeiten an.
Das liegt darin begründet, dass in diesem Histogramm die Basis eines jeden Rechtecks 0,5 ist.
Somit ergibt sich die Fläche jedes Rechtecks als seine Höhe multipliziert mit 0,5.
Damit folgt, dass die Gesamtfläche aller Rechtecke gleich 0,5 und nicht 1,0 ist. Somit ist das Polygon der Abb. 2 keine Dichtefunktion, da die Eigenschaft
nicht erfüllt ist.
Um die Kurve der Dichtefunktion für die Zufallsvariable zu erhalten, wird zunächst die Häufigkeitsdichte berechnet, die man als relative Häufigkeit dividiert durch die Klassenbreite erhält.
Wartezeit in Minuten | Häufigkeitsdichte |
8,0 - 8,5 | 0,004 |
8,5 - 9,0 | 0,008 |
9,0 - 9,5 | 0,018 |
9,5 - 10,0 | 0,026 |
10,0 - 10,5 | 0,040 |
10,5 - 11,0 | 0,086 |
11,0 - 11,5 | 0,188 |
11,5 - 12,0 | 0,270 |
12,0 - 12,5 | 0,338 |
12,5 - 13,0 | 0,316 |
13,0 - 13,5 | 0,278 |
13,5 - 14,0 | 0,156 |
14,0 - 14,5 | 0,1301 |
4,5 - 15,0 | 0,060 |
15,0 - 15,5 | 0,020 |
15,5 - 16,0 | 0,028 |
16,0 - 16,5 | 0,012 |
16,5 - 17,0 | 0,008 |
16,0 - 17,5 | 0,006 |
17,5 - 18,0 | 0,008 |
Unter Verwendung der Häufigkeitsdichten wird erneut ein Histogramm gezeichnet und ein geglättetes Polygon angepasst.
<R output="display">
pdf(rpdf) warte <- readdataSK("Wartezeiten.csv", sep=";") barplot(warte[,4], names = warte[,1], las = 1, col = "red", ylim = c(0, 0.35), cex.names = 0.7, ylab = "rel. H\u00E4ufigkeitsdichte", xlab = "Wartezeit", xaxt = "n", space = 0, sub="Abb. 3: Histogramm der Wartezeit mit den H\u00E4ufigkeitsdichten") axis(1, at = (0.5:19.5), labels = warte[,1], tck = -0.01, ) </R> |
<R output="display">
pdf(rpdf) warte <- readdataSK("Wartezeiten.csv", sep=";") plot(warte[,4], type = "l", axes = FALSE, col = "red", lwd = 3, ylab="rel. H\u00E4ufigkeitsdichte", xlab = "Wartezeit", ylim = c(0, 0.35), sub="Abb. 4: Dichtefunktion von X") axis(1, at = (1:20), labels = warte[,1], tck = -0.01, pos = 0) axis(2, at = seq(from = 0, to = 0.35, by = 0.05), tck = -0.01, pos = 0) </R> |
Im Histogramm der Abb. 3 entspricht die Fläche und nicht die Höhe des Rechtecks der Wahrscheinlichkeit der jeweiligen Klasse, so dass die Summe aller Flächen gleich Eins ist.
Das Polygon in Abb. 4 ist die (approximative) Dichtefunktion für die stetige Zufallsvariable .
Stetige Zufallsvariablen
Gegeben seien zwei stetige Zufallsvariablen und mit der gemeinsamen Dichtefunktion
Für diese Dichtefunktion gilt:
Die nachstehende Abbildung zeigt die grafische Darstellung der zweidimensionalen Wahrscheinlichkeitsfunktion von und .
<R output="display">
pdf(rpdf, width=7, height=7) x=seq(0,1,0.05) y=x fxy=outer(x,y,function(x,y) (x+3*y)/2) persp(x,y,fxy,main="f(x,y) = (x+3y)/2", xlab="x", ylab="y", zlab="f(x,y)", xlim=c(0,1), ylim=c(0,1),zlim=c(0,2.2), theta=-40, phi=25, ticktype="detailed", nticks=5, bty="l", col="purple", box=TRUE, axes=TRUE, font.lab=2, font.axis=2, scale=TRUE) </R> |