Verteilungsfunktion (empirisch)

Aus MM*Stat

Wechseln zu: Navigation, Suche

Univariate Statistik

Eindimensionale Häufigkeitsverteilung • Graphische Darstellung eindimensionaler Verteilungen • Grafische Darstellung diskreter Merkmale • Grafische Darstellung stetiger Merkmale • Verteilungsfunktion (empirisch) • Parameter eindimensionaler Verteilungen (empirisch) • Modus • Arithmetisches Mittel • Harmonisches Mittel • Geometrisches Mittel • Quantil • Spannweite • Quartilsabstand • Mittlere absolute Abweichung • Varianz und Standardabweichung (empirisch) • Multiple Choice • Video • Aufgaben • Lösungen
Balkendiagramm • Dezil • Dotplot • Flächendiagramm • Flächenproportionale Darstellung • Häufigkeitstabelle (eindimensional) • Histogramm • Höhenproportionale Darstellung • Interpolation • Interquartilsabstand • Kartogramm • Kreisdiagramm • Lagemaß • Lageparameter • Liniendiagramm • Median • Mittelwert • Mittlere quadratische Abweichung (empirisch) • Mittlere Wachstumsrate • Modalklasse • Modalwert • Multimodale Verteilung • Piktogramm • Prognosewert • p-Quantil • Quartil • Quartilsdispersionskoeffizient (empirisch) • Quintil • Rechteckdiagramm • Robustheit • Säulendiagramm • Stabdiagramm • Standardabweichung (empirisch) • Stengel-Blatt-Diagramm • Streuung • Streuungsmaß • Streuungsparameter • Unimodale Verteilung • Varianz (empirisch) • Variationskoeffizient (empirisch) • Wachstumsrate • Zentralwert

Grundbegriffe

Empirische Verteilungsfunktion

Die Ermittlung von empirischen Verteilungsfunktionen setzt skalierte Merkmalsausprägungen voraus, d.h. mindestens ordinal- oder kardinalskalierte Merkmale.

Empirische Verteilungsfunktion eines diskreten (nicht klassierten) Merkmals

Für die empirische Verteilungsfunktion eines diskreten (nicht klassierten) Merkmals gilt:

Die grafische Darstellung der empirischen Verteilungsfunktion ergibt bei diskreten (nicht klassierten) Merkmalen eine monoton wachsende Treppenfunktion. Sie "springt" um die zu jeder Merkmalsausprägung dazugehörige relative Häufigkeit.

Empirische Verteilungsfunktion eines kardinalskalierten klassierten Merkmals

Für die empirische Verteilungsfunktion eines kardinalskalierten klassierten Merkmals gilt:


Die empirische Verteilungsfunktion bei klassierten Merkmalen gibt an, wie viele Ausprägungen insgesamt unterhalb der jeweiligen oberen Klassengrenze liegen.

In der grafischen Darstellung der empirischen Verteilungsfunktion werden die sich ergebenden einzelnen Punkte geradlinig zu einer stückweise linearen Kurve (Polygonzug) verbunden.

Interpolation

Mittels einer Interpolation der empirischen Verteilungsfunktion eines kardinalskalierten klassierten Merkmals kann der Wert der Verteilungsfunktion für jedes im beobachteten Bereich des Merkmals approximativ bestimmt werden.

Grafische Veranschaulichung der Interpolation:

<R output="display">

pdf(rpdf, width=8, height=8)

par(mar=c(0.1, 1.1, 2.1, 2.1)) matplot(c(-0.5:6), c(-0.5:6), type="n", axes = FALSE, ylab="", xlab="")

axis(1, at = c(1:6), pos=1, tck = 0,

    labels = c("", expression(x[j]^u, x),"", expression(x[j]^o),""))

axis(2, at = c(1:6), pos=1, las = 1, tck = 0,

    labels = c("",expression(F(x[j]^u), F(x)),"", expression(F(x[j]^o)),""))

lines(x = c(2,5), y = c(2,5), lwd=3)

  1. vertical lines

lines(x = c(1,5), y = c(2,2), lty=2) lines(x = c(1,5), y = c(3,3), lty=2) lines(x = c(1,5), y = c(5,5), lty=2)

  1. horizontal lines

lines(x = c(2,2), y = c(1,2), lty=2) lines(x = c(3,3), y = c(1,3), lty=2) lines(x = c(5,5), y = c(1,5), lty=2)

  1. arrows

arrows(x0 = 5.5, y0 = 2, x1 = 5.5, y1 = 5, col = "blue") arrows(x0 = 5.5, y0 = 5, x1 = 5.5, y1 = 2, col = "blue") text(x = 5.65, y = 3.5, labels="f(x)", col = "blue")

arrows(x0 = 4.5, y0 = 2, x1 = 4.5, y1 = 3, col = "blue") arrows(x0 = 4.5, y0 = 3, x1 = 4.5, y1 = 2, col = "blue") text(x = 4, y = 2.5, labels=expression(F(x) - F(x[j]^u)), col = "blue")

arrows(x0 = 2, y0 = -0.35, x1 = 5, y1 = -0.35, col = "blue") arrows(x0 = 5, y0 = -0.35, x1 = 2, y1 = -0.35, col = "blue") text(x = 3.5, y = -0.1, labels=expression(x[j]^o - x[j]^u), col = "blue")

arrows(x0 = 2, y0 = 0.1, x1 = 3, y1 = 0.1, col = "blue") arrows(x0 = 3, y0 = 0.1, x1 = 2, y1 = 0.1, col = "blue") text(x = 2.5, y = 0.35, labels=expression(x - x[j]^u), col = "blue")

</R>

Beispiele

Statistik-Prüfung

In der Statistik-Prüfung haben 20 Studenten folgende Noten erzielt:

2, 2, 4, 1, 3, 2, 5, 4, 2, 4, 3, 2, 5, 1, 3, 2, 2, 3, 5, 4

Die Verteilung der Noten lässt sich übersichtlich in Form einer Häufigkeitstabelle darstellen:

Note

absolute Häufigkeit

relative Häufigkeit

Empirische Verteilungsfunktion

1 2 0,10 0,10
2 7 0,35 0,45
3 4 0,20 0,65
4 4 0,20 0,85
5 3 0,15 1,00

Die Verteilungsfunktion lässt sich grafisch darstellen:

STAT-Summenhäufigkeitsverteilung.gif

Die Tabelle bzw. die Grafik lässt beispielsweise folgende Interpretationsmöglichkeiten zu:

  • 65% der 20 Studenten (= 13) haben die Note 3 oder besser erreicht.
  • 15% (100% - 85%) der 20 Studenten (= 3) haben die Prüfung nicht bestanden.

Haushaltsgröße (empirische Verteilungsfunktion, diskret, nicht klassiert)

Empirische Verteilungsfunktion der Haushaltsgröße 1990:

Haushaltsgröße
1 0,350 0,350
2 0,302 0,652
3 0,167 0,819
4 0,128 0,947
5 und mehr 0,053 1,000
<R output="display">

pdf(rpdf,width=7, height=7) hh_groesse = c(1:5)

  1. f = c(0.35, 0.302, 0.167, 0.128, 0.053)

F = c(0.35, 0.652, 0.819, 0.947, 1) plot(stepfun(hh_groesse, c(0, F)), verticals = FALSE, do.points = FALSE, lwd = 2, axes=FALSE,

    main ="", ylab="F(x)", xlab="Haushaltsgr\u00F6\u00DFe")

axis(1, at =c(0:5), labels=c("",1:4, ">5"), pos = 0) axis(2, at = c(0,seq(from=0.2, to=1, by=0.2)), labels = c("",seq(from=0.2, to=1, by=0.2)), pos = 0) arrows(x0 = 5, y0 = 0, x1 = 6.5, y1 = 0, xpd=TRUE) arrows(x0 = 0, y0 = 0.5, x1 = 0, y1 = 1.1, xpd=TRUE) </R>

Mittels der empirischen Verteilungsfunktion lässt sich die relative Häufigkeit berechnen:

für mit .

Es gilt:

Lebensdauer von Glühlampen (empirische Verteilungsfunktion, kardinalskaliert, klassiert)

Untersuchung der Lebensdauer (in Stunden) von 100 Glühlampen:

statistische Einheit: Glühlampe
statistisches Merkmal: Lebensdauer
kardinalskaliert, stetig
0-100 1 0,01 0,01
100-500 24 0,24 0,25
500-1000 45 0,45 0,70
1000-2000 30 0,30 1,00
Summe 100 1.00

Die empirische Verteilungsfunktion der Lebensdauer von Glühlampen hat die folgende Form:

<R output="display">

pdf(rpdf, width=7, height=7)

stunden = c(0, 100, 500, 1000, 2000) F = c(0, 0.01, 0.25, 0.7, 1, 1) plot(c(stunden, 2500), F, type="l", axes=FALSE, xlab="x", ylab="F(x)", lwd=2) axis(1, at = c(stunden, 2500), labels=c(stunden,""), pos = 0) axis(2, at = c(0,seq(from=0, to=1, by=0.2)), pos=0) lines (c(2000, 2500), c(1,1), lty=2, col="WHITE", lwd=2) </R>

Die geradlinige Verbindung der Punkte in der grafischen Darstellung erfolgt ausgehend von der Annahme einer gleichmäßigen Verteilung der Ausprägungen innerhalb einer Klasse.

Benzinverbrauch (empirische Verteilungsfunktion, kardinalskaliert, klassiert)

Von 74 verschiedenen Autotypen wurde der Benzinverbrauch in "miles per gallon" (mpg) gemessen - Umrechnung in l/100km:

Das Ergebnis der Untersuchung lässt sich übersichtlich in Form einer Häufigkeitstabelle darstellen:

Benzinverbrauch(MPG)

absolute Häufigkeit

relative Häufigkeit

Empirische Verteilungsfunktion

12 bis < 15 8 0,108 0,108
15 bis < 18 10 0,135 0,243
18 bis < 21 20 0,270 0,513
21 bis < 24 13 0,176 0,689
24 bis < 27 12 0,162 0,851
27 bis < 30 4 0,054 0,905
30 bis < 33 3 0,041 0,946
33 bis < 36 3 0,041 0,987
36 bis < 39 0 0,000 0,987
39 bis < 41 1 0,013 1,000
Summe 74 1,000

Die empirische Verteilungsfunktion lässt sich in Form eines Histogramms mit der gleichen Klassenbreite wie in der Häufigkeitstabelle (3 Meilen) grafisch veranschaulichen. Auf der Ordinatenachse werden die Häufigkeitsdichten abgetragen.

<R output="display">

pdf(rpdf,width=7, height=7)

y <- c(0, 0.108, 0.243, 0.513, 0.689, 0.851, 0.905, 0.946, 0.987, 0.987, 1) x <- c(1:11) plot(x, y, type="o", axes = FALSE, col = "blue", xlab= "x", ylab="F(x)", lwd=2, pch=8,

    main="Verteilungsfunktion 'miles per gallon'", font.lab=2)

axis(1, at = c(0:10), labels = seq(9, 41, by=3)) axis(2, at = c(0, seq(from=0, to=1, by=0.1)), las=1) lines(x = c(0, 5), y = c(0.689, 0.689), col = "red") lines(x = c(5, 5), y = c(0, 0.689), col = "red") </R>

Die geradlinige Verbindung der Punkte in der grafischen Darstellung erfolgt ausgehend von der Annahme einer gleichmäßigen Verteilung der Ausprägungen innerhalb einer Klasse.

Aus der empirischen Verteilungsfunktion lässt sich beispielsweise ablesen, dass 68,9 Prozent der untersuchten Autotypen weniger als 24 Meilen mit einer Gallone fahren können, das heißt, einen Benzinverbrauch von mehr als 9,8 Litern aufweisen.