Verteilungsfunktion (empirisch)
Aus MM*Stat
Vorlage:Mmstat3:Statistik I&II/Univariate Statistik
Grundbegriffe
Empirische Verteilungsfunktion
Die Ermittlung von empirischen Verteilungsfunktionen setzt skalierte Merkmalsausprägungen voraus, d.h. mindestens ordinal- oder kardinalskalierte Merkmale.
Empirische Verteilungsfunktion eines diskreten (nicht klassierten) Merkmals
Für die empirische Verteilungsfunktion eines diskreten (nicht klassierten) Merkmals gilt:
Die grafische Darstellung der empirischen Verteilungsfunktion ergibt bei diskreten (nicht klassierten) Merkmalen eine monoton wachsende Treppenfunktion. Sie "springt" um die zu jeder Merkmalsausprägung dazugehörige relative Häufigkeit.
Empirische Verteilungsfunktion eines kardinalskalierten klassierten Merkmals
Für die empirische Verteilungsfunktion eines kardinalskalierten klassierten Merkmals gilt:
Die empirische Verteilungsfunktion bei klassierten Merkmalen gibt an, wie viele Ausprägungen insgesamt unterhalb der jeweiligen oberen Klassengrenze liegen.
In der grafischen Darstellung der empirischen Verteilungsfunktion werden die sich ergebenden einzelnen Punkte geradlinig zu einer stückweise linearen Kurve (Polygonzug) verbunden.
Interpolation
Mittels einer Interpolation der empirischen Verteilungsfunktion eines kardinalskalierten klassierten Merkmals kann der Wert der Verteilungsfunktion für jedes im beobachteten Bereich des Merkmals approximativ bestimmt werden.
Grafische Veranschaulichung der Interpolation:
<R output="display">
pdf(rpdf, width=8, height=8) par(mar=c(0.1, 1.1, 2.1, 2.1)) matplot(c(-0.5:6), c(-0.5:6), type="n", axes = FALSE, ylab="", xlab="") axis(1, at = c(1:6), pos=1, tck = 0, labels = c("", expression(x[j]^u, x),"", expression(x[j]^o),"")) axis(2, at = c(1:6), pos=1, las = 1, tck = 0, labels = c("",expression(F(x[j]^u), F(x)),"", expression(F(x[j]^o)),"")) lines(x = c(2,5), y = c(2,5), lwd=3)
lines(x = c(1,5), y = c(2,2), lty=2) lines(x = c(1,5), y = c(3,3), lty=2) lines(x = c(1,5), y = c(5,5), lty=2)
lines(x = c(2,2), y = c(1,2), lty=2) lines(x = c(3,3), y = c(1,3), lty=2) lines(x = c(5,5), y = c(1,5), lty=2)
arrows(x0 = 5.5, y0 = 2, x1 = 5.5, y1 = 5, col = "blue") arrows(x0 = 5.5, y0 = 5, x1 = 5.5, y1 = 2, col = "blue") text(x = 5.65, y = 3.5, labels="f(x)", col = "blue") arrows(x0 = 4.5, y0 = 2, x1 = 4.5, y1 = 3, col = "blue") arrows(x0 = 4.5, y0 = 3, x1 = 4.5, y1 = 2, col = "blue") text(x = 4, y = 2.5, labels=expression(F(x) - F(x[j]^u)), col = "blue") arrows(x0 = 2, y0 = -0.35, x1 = 5, y1 = -0.35, col = "blue") arrows(x0 = 5, y0 = -0.35, x1 = 2, y1 = -0.35, col = "blue") text(x = 3.5, y = -0.1, labels=expression(x[j]^o - x[j]^u), col = "blue") arrows(x0 = 2, y0 = 0.1, x1 = 3, y1 = 0.1, col = "blue") arrows(x0 = 3, y0 = 0.1, x1 = 2, y1 = 0.1, col = "blue") text(x = 2.5, y = 0.35, labels=expression(x - x[j]^u), col = "blue") </R> |
Beispiele
Statistik-Prüfung
In der Statistik-Prüfung haben 20 Studenten folgende Noten erzielt:
2, 2, 4, 1, 3, 2, 5, 4, 2, 4, 3, 2, 5, 1, 3, 2, 2, 3, 5, 4
Die Verteilung der Noten lässt sich übersichtlich in Form einer Häufigkeitstabelle darstellen:
Note
|
absolute Häufigkeit
|
relative Häufigkeit
|
Empirische Verteilungsfunktion
|
---|---|---|---|
1 | 2 | 0,10 | 0,10 |
2 | 7 | 0,35 | 0,45 |
3 | 4 | 0,20 | 0,65 |
4 | 4 | 0,20 | 0,85 |
5 | 3 | 0,15 | 1,00 |
Die Verteilungsfunktion lässt sich grafisch darstellen:
Die Tabelle bzw. die Grafik lässt beispielsweise folgende Interpretationsmöglichkeiten zu:
- 65% der 20 Studenten (= 13) haben die Note 3 oder besser erreicht.
- 15% (100% - 85%) der 20 Studenten (= 3) haben die Prüfung nicht bestanden.
Haushaltsgröße (empirische Verteilungsfunktion, diskret, nicht klassiert)
Empirische Verteilungsfunktion der Haushaltsgröße 1990:
Haushaltsgröße | ||
1 | 0,350 | 0,350 |
2 | 0,302 | 0,652 |
3 | 0,167 | 0,819 |
4 | 0,128 | 0,947 |
5 und mehr | 0,053 | 1,000 |
<R output="display">
pdf(rpdf,width=7, height=7) hh_groesse = c(1:5)
F = c(0.35, 0.652, 0.819, 0.947, 1) plot(stepfun(hh_groesse, c(0, F)), verticals = FALSE, do.points = FALSE, lwd = 2, axes=FALSE, main ="", ylab="F(x)", xlab="Haushaltsgr\u00F6\u00DFe") axis(1, at =c(0:5), labels=c("",1:4, ">5"), pos = 0) axis(2, at = c(0,seq(from=0.2, to=1, by=0.2)), labels = c("",seq(from=0.2, to=1, by=0.2)), pos = 0) arrows(x0 = 5, y0 = 0, x1 = 6.5, y1 = 0, xpd=TRUE) arrows(x0 = 0, y0 = 0.5, x1 = 0, y1 = 1.1, xpd=TRUE) </R> |
Mittels der empirischen Verteilungsfunktion lässt sich die relative Häufigkeit berechnen:
für mit .
Es gilt:
Lebensdauer von Glühlampen (empirische Verteilungsfunktion, kardinalskaliert, klassiert)
Untersuchung der Lebensdauer (in Stunden) von 100 Glühlampen:
statistische Einheit: | Glühlampe |
statistisches Merkmal: | Lebensdauer |
kardinalskaliert, stetig |
0-100 | 1 | 0,01 | 0,01 |
100-500 | 24 | 0,24 | 0,25 |
500-1000 | 45 | 0,45 | 0,70 |
1000-2000 | 30 | 0,30 | 1,00 |
Summe | 100 | 1.00 |
Die empirische Verteilungsfunktion der Lebensdauer von Glühlampen hat die folgende Form:
<R output="display">
pdf(rpdf, width=7, height=7) stunden = c(0, 100, 500, 1000, 2000) F = c(0, 0.01, 0.25, 0.7, 1, 1) plot(c(stunden, 2500), F, type="l", axes=FALSE, xlab="x", ylab="F(x)", lwd=2) axis(1, at = c(stunden, 2500), labels=c(stunden,""), pos = 0) axis(2, at = c(0,seq(from=0, to=1, by=0.2)), pos=0) lines (c(2000, 2500), c(1,1), lty=2, col="WHITE", lwd=2) </R> |
Die geradlinige Verbindung der Punkte in der grafischen Darstellung erfolgt ausgehend von der Annahme einer gleichmäßigen Verteilung der Ausprägungen innerhalb einer Klasse.
Benzinverbrauch (empirische Verteilungsfunktion, kardinalskaliert, klassiert)
Von 74 verschiedenen Autotypen wurde der Benzinverbrauch in "miles per gallon" (mpg) gemessen - Umrechnung in l/100km:
Das Ergebnis der Untersuchung lässt sich übersichtlich in Form einer Häufigkeitstabelle darstellen:
Benzinverbrauch(MPG)
|
absolute Häufigkeit
|
relative Häufigkeit
|
Empirische Verteilungsfunktion
|
---|---|---|---|
12 bis < 15 | 8 | 0,108 | 0,108 |
15 bis < 18 | 10 | 0,135 | 0,243 |
18 bis < 21 | 20 | 0,270 | 0,513 |
21 bis < 24 | 13 | 0,176 | 0,689 |
24 bis < 27 | 12 | 0,162 | 0,851 |
27 bis < 30 | 4 | 0,054 | 0,905 |
30 bis < 33 | 3 | 0,041 | 0,946 |
33 bis < 36 | 3 | 0,041 | 0,987 |
36 bis < 39 | 0 | 0,000 | 0,987 |
39 bis < 41 | 1 | 0,013 | 1,000 |
Summe | 74 | 1,000 |
Die empirische Verteilungsfunktion lässt sich in Form eines Histogramms mit der gleichen Klassenbreite wie in der Häufigkeitstabelle (3 Meilen) grafisch veranschaulichen. Auf der Ordinatenachse werden die Häufigkeitsdichten abgetragen.
<R output="display">
pdf(rpdf,width=7, height=7) y <- c(0, 0.108, 0.243, 0.513, 0.689, 0.851, 0.905, 0.946, 0.987, 0.987, 1) x <- c(1:11) plot(x, y, type="o", axes = FALSE, col = "blue", xlab= "x", ylab="F(x)", lwd=2, pch=8, main="Verteilungsfunktion 'miles per gallon'", font.lab=2) axis(1, at = c(0:10), labels = seq(9, 41, by=3)) axis(2, at = c(0, seq(from=0, to=1, by=0.1)), las=1) lines(x = c(0, 5), y = c(0.689, 0.689), col = "red") lines(x = c(5, 5), y = c(0, 0.689), col = "red") </R> |
Die geradlinige Verbindung der Punkte in der grafischen Darstellung erfolgt ausgehend von der Annahme einer gleichmäßigen Verteilung der Ausprägungen innerhalb einer Klasse.
Aus der empirischen Verteilungsfunktion lässt sich beispielsweise ablesen, dass 68,9 Prozent der untersuchten Autotypen weniger als 24 Meilen mit einer Gallone fahren können, das heißt, einen Benzinverbrauch von mehr als 9,8 Litern aufweisen.