Quantil: Unterschied zwischen den Versionen

Aus MM*Stat

Wechseln zu: Navigation, Suche
(Die Seite wurde neu angelegt: „{{Grundbegriffe der Statistik}} =={{Vorlage:Überschrift}}== ===p-Quantil=== Gegeben sei eine Folge von Merkmalsausprägungen eines mindestens Ordinal…“)
 
Keine Bearbeitungszusammenfassung
Zeile 1: Zeile 1:
{{Grundbegriffe der Statistik}}
{{Univariate Statistik}}


=={{Vorlage:Überschrift}}==
=={{Vorlage:Überschrift}}==

Version vom 14. Mai 2018, 21:33 Uhr

Univariate Statistik

Eindimensionale Häufigkeitsverteilung • Graphische Darstellung eindimensionaler Verteilungen • Grafische Darstellung diskreter Merkmale • Grafische Darstellung stetiger Merkmale • Verteilungsfunktion (empirisch) • Parameter eindimensionaler Verteilungen (empirisch) • Modus • Arithmetisches Mittel • Harmonisches Mittel • Geometrisches Mittel • Quantil • Spannweite • Quartilsabstand • Mittlere absolute Abweichung • Varianz und Standardabweichung (empirisch) • Multiple Choice • Video • Aufgaben • Lösungen
Balkendiagramm • Dezil • Dotplot • Flächendiagramm • Flächenproportionale Darstellung • Häufigkeitstabelle (eindimensional) • Histogramm • Höhenproportionale Darstellung • Interpolation • Interquartilsabstand • Kartogramm • Kreisdiagramm • Lagemaß • Lageparameter • Liniendiagramm • Median • Mittelwert • Mittlere quadratische Abweichung (empirisch) • Mittlere Wachstumsrate • Modalklasse • Modalwert • Multimodale Verteilung • Piktogramm • Prognosewert • p-Quantil • Quartil • Quartilsdispersionskoeffizient (empirisch) • Quintil • Rechteckdiagramm • Robustheit • Säulendiagramm • Stabdiagramm • Standardabweichung (empirisch) • Stengel-Blatt-Diagramm • Streuung • Streuungsmaß • Streuungsparameter • Unimodale Verteilung • Varianz (empirisch) • Variationskoeffizient (empirisch) • Wachstumsrate • Zentralwert

Grundbegriffe

p-Quantil

Gegeben sei eine Folge von Merkmalsausprägungen eines mindestens ordinalskalierten Merkmals .

Der Punkt auf der Merkmalsachse, der eine der Größe nach in aufsteigender Folge geordnete Reihe von Merkmalswerten der Anzahl nach ungefähr oder genau im Verhältnis mit teilt, wird als p-Quantil bezeichnet.

p-Quantil, unklassierte Variablen

Sei keine natürliche Zahl und die auf folgende (nächst größere) natürliche Zahl, so ist das p-Quantil .

Sei eine natürliche Zahl und , so könnte jeder Wert zwischen und als p-Quantil definiert werden. Vereinbarungsgemäß verwendet man jedoch

p-Quantil, klassierte Variablen

Liegen klassierte Merkmale vor, ergibt sich das p-Quantil wie folgt:

Darin ist die untere Klassengrenze, die obere Klassengrenze, die relative Häufigkeit der Quantilsklasse und die empirische Verteilungsfunktion der Quantilsklasse vorausgehenden Klasse.

Das p-Quantil wird durch Interpolation ermittelt. Wegen lassen sich die p-Quantile leicht aus der Grafik der empirischen Verteilungsfunktion entnehmen, wie die folgende Abbildung verdeutlicht.

<R output="display">

pdf(rpdf, width=14, height=7) par(mfrow=c(1,2)) gl <- readdataSK("gluehlampen.csv", format="csv2") barplot(gl$f_hat, names = rep("", length(gl$f_hat)), las=2,

       width = (gl$k_o - gl$k_u), space = 0, col="white", axes = FALSE)

axis(1, at =c(1:2500), labels = rep("",2500) ,lty = 0, xpd = TRUE) axis(2, at = c(0:9), labels = rep("",10), pos = 0, xpd = TRUE, tck = 0) rect(500, 0, 666.67, 9, col = "grey") rect(100, 0, 500, 6, col = "grey") rect(0, 0, 100, 3, col = "grey") points(0, 9, pch =17, xpd = TRUE) lines(x = c(666.67,666.67), y = c(0,9), lty=1, lwd = 3) text(x = 666.67, y = -0.5, labels=expression(x[p]), xpd = TRUE) text(x = -80, y = 9, labels=expression(hat("f(x)")), xpd = TRUE) F_hat = c(0, 1, 7, 16, 19, 19) plot(c(gl$k_u, gl$k_o[4], 2500), F_hat, type = "l", axes = FALSE, ylab = "",

    xlab = "", xpd = TRUE, lwd = 3)

axis(1, at =c(1:2500), labels = rep("",2500), xpd = TRUE, tck = 0, pos = 0) axis(2, at = c(0:21), labels = rep("",22), pos = 0, xpd = TRUE, tck = 0) points(0, 21, pch =17, xpd = TRUE) text(x = 666.67, y = -1, labels=expression(x[p]), xpd = TRUE) text(x = 2500, y = -1, labels="x", xpd = TRUE) text(x = -80, y = 22, labels= expression(hat("F(x)")), xpd = TRUE) text(x = -80, y = 10, labels= "p", xpd = TRUE) text(x = -80, y = 19, labels= "1", xpd = TRUE) lines(x = c(666.67,666.67), y = c(0, 10), lty=2) lines(x = c(0,666.67), y = c(10, 10), lty=2) lines(x = c(0,2500), y = c(19, 19), lty=2, xpd = TRUE) </R>

Median bzw. Zentralwert

Gegeben sei die in aufsteigender Folge geordnete Reihe der Merkmalsausprägungen eines mindestens ordinalskalierten Merkmals .

Diejenige Merkmalsausprägung, die die Reihe in zwei gleiche Teile zerlegt, sich also an zentraler Stelle befindet, wird als Median oder Zentralwert bezeichnet. Der Median ist somit ein spezielles p-Quantil an der Stelle , also .

Er ist relativ unempfindlich gegenüber Ausreißern, also Merkmalswerten, die übermäßig stark von den anderen Werten abweichen.

Median für nicht-klassierte Merkmale

  • Falls ungerade ist:
  • Falls gerade ist: .

Median für klassierte Merkmale

Liegen klassierte Merkmale vor, ergibt sich der Median wie folgt:

Dabei ist die untere Klassengrenze, die obere Klassengrenze, die relative Häufigkeit der Medianklasse und die empirische Verteilungsfunktion der Medianklasse vorausgehenden Klasse.

Der Median wird durch Interpolation ermittelt. Wegen lässt sich der Median leicht aus der Grafik der empirischen Verteilungsfunktion entnehmen, wie die folgende Abbildung verdeutlicht.

<R output="display">

pdf(rpdf, width=7, height=7) gl <- readdataSK("gluehlampen.csv", format="csv2") F_hat = c(0, 1, 7, 16, 19, 19) plot(c(gl$k_u, gl$k_o[4], 2500), F_hat, type = "l", axes = FALSE, ylab = "",

    xlab = "", xpd = TRUE, lwd = 3)

axis(1, at =c(1:2500), labels = rep("",2500), xpd = TRUE, tck = 0, pos = 0) axis(2, at = c(0:21), labels = rep("",22), pos = 0, xpd = TRUE, tck = 0) points(0, 21, pch =17, xpd = TRUE) text(x = 666.67, y = -1, labels=expression(x["0,5"]), xpd = TRUE) text(x = 2500, y = -1, labels="x", xpd = TRUE) text(x = -80, y = 22, labels= "F(x)", xpd = TRUE) text(x = -80, y = 10, labels= "0,5", xpd = TRUE) text(x = -80, y = 19, labels= "1", xpd = TRUE) lines(x = c(666.67,666.67), y = c(0, 10), lty=2) lines(x = c(0,666.67), y = c(10, 10), lty=2) lines(x = c(0,2500), y = c(19, 19), lty=2, xpd = TRUE) </R>

Quartil

Als Quartil bezeichnen wir jene p-Quantile, die die geordnete Reihe der Merkmalsausprägungen in 4 gleichgroße Teile zerlegt. Es gibt also 3 Quartile:

Quintil

Als Quintil bezeichnen wir jene p-Quantile, die die geordnete Reihe der Merkmalsausprägungen in 5 gleichgroße Teile zerlegt. Es gibt also 4 Quintile:

Dezil

Als Dezil bezeichnen wir jene p-Quantile, die die geordnete Reihe der Merkmalsausprägungen in 10 gleichgroße Teile zerlegt. Es gibt also 9 Dezile:

Zusatzinformationen

Eigenschaften des Median für metrisch skalierte Merkmale

Lineare Minimumeigenschaft

Die Summe der absoluten Abweichungen der Merkmalswerte vom Median ist ein Minimum im Vergleich zur Summe der absoluten Abweichungen der Merkmalswerte von jedem anderen beliebigen Wert.

Lineare Transformation

Beispiele

Haushaltsnettoeinkommen

Mmstat3:Statistik I&II/MHNE98

Grafische Darstellung der Quartile

<R output="display">

pdf(rpdf, width=7, height=7)

x <- c(0, 1.6, 2.1, 3, 4, 4.5, 6, 7) y <- c(0, 0.15, 0.25, 0.50, 0.69, 0.75, 1, 1) plot( x, y,xlim=c( 0, 7), ylim=c(0, 1), type="l", lwd=2, axes=FALSE, xlab="X (in DM)",

     ylab="F(X)", font.lab=2)

axis(1, at= x, labels = c( "", "", "1536", "2385", "", "3568", "5000", ""), tck=0, pos=0) axis(2, at = y, labels = c("", "", "0.25", "0.50", "", "0.75", "1", "1"), tck = 0, las = 1, pos=0, xpd=TRUE) lines(x = c(2.1,2.1), y = c(0, 0.25), lty=2) lines(x = c(0,2.1), y = c(0.25, 0.25), lty=2) lines(x = c(3,3), y = c(0, 0.5), lty=2) lines(x = c(0,3), y = c(0.5, 0.5), lty=2) lines(x = c(4.5,4.5), y = c(0, 0.75), lty=2) lines(x = c(0,4.5), y = c(0.75, 0.75), lty=2) lines(x = c(6,7), y = c(1, 1), lty=2, col="WHITE", lwd=2)

</R>

Berechnung der Quartile

Aus der empirischen Verteilungsfunktion (3. Spalte der Tabelle) ist erkennbar, dass das erste Quartil mit und das zweite Quartil mit in die dritte Klasse 1400 - 3000 DM fallen.

Diese Klasse weist eine Klassenbreite von 1600 DM auf. Das dritte Quartil mit liegt in der vierten Klasse 3000 - 5000 DM mit einer Klassenbreite von 2000 DM.


Interpretationen

1. Quartil: 25% der betrachteten Haushalte haben ein monatliches Haushaltsnettoeinkommen von höchstens 1535,88 DM und 75% der Haushalte ein monatliches Haushaltsnettoeinkommen größer als 1535,88 DM.

2. Quartil: 50% der Haushalte haben ein monatliches Haushaltsnettoeinkommen von höchstens 2385,14 DM und 50% der Haushalte ein monatliches Haushaltsnettoeinkommen größer als 2385,14 DM.

3. Quartil: 75% der Haushalte haben ein monatliches Haushaltsnettoeinkommen von höchstens 3567,90 DM und 25% der Haushalte ein monatliches Haushaltsnettoeinkommen größer als 3567,90 DM.

Aus der Berechnung der Quartile folgt unmittelbar, dass 50% der Haushalte ein monatliches Haushaltsnettoeinkommen zwischen 1535,88 DM und 3567,90 DM haben.

Dieser Abstand wird auch als Interquartilsabstand bezeichnet und in einem der folgenden Kapitel genauer erläutert.