Quantil: Unterschied zwischen den Versionen
Aus MM*Stat
(Die Seite wurde neu angelegt: „{{Grundbegriffe der Statistik}} =={{Vorlage:Überschrift}}== ===p-Quantil=== Gegeben sei eine Folge von Merkmalsausprägungen eines mindestens Ordinal…“) |
Keine Bearbeitungszusammenfassung |
||
Zeile 1: | Zeile 1: | ||
{{ | {{Univariate Statistik}} | ||
=={{Vorlage:Überschrift}}== | =={{Vorlage:Überschrift}}== |
Version vom 14. Mai 2018, 21:33 Uhr
Grundbegriffe
p-Quantil
Gegeben sei eine Folge von Merkmalsausprägungen eines mindestens ordinalskalierten Merkmals .
Der Punkt auf der Merkmalsachse, der eine der Größe nach in aufsteigender Folge geordnete Reihe von Merkmalswerten der Anzahl nach ungefähr oder genau im Verhältnis mit teilt, wird als p-Quantil bezeichnet.
p-Quantil, unklassierte Variablen
Sei keine natürliche Zahl und die auf folgende (nächst größere) natürliche Zahl, so ist das p-Quantil .
Sei eine natürliche Zahl und , so könnte jeder Wert zwischen und als p-Quantil definiert werden. Vereinbarungsgemäß verwendet man jedoch
p-Quantil, klassierte Variablen
Liegen klassierte Merkmale vor, ergibt sich das p-Quantil wie folgt:
Darin ist die untere Klassengrenze, die obere Klassengrenze, die relative Häufigkeit der Quantilsklasse und die empirische Verteilungsfunktion der Quantilsklasse vorausgehenden Klasse.
Das p-Quantil wird durch Interpolation ermittelt. Wegen lassen sich die p-Quantile leicht aus der Grafik der empirischen Verteilungsfunktion entnehmen, wie die folgende Abbildung verdeutlicht.
<R output="display">
pdf(rpdf, width=14, height=7) par(mfrow=c(1,2)) gl <- readdataSK("gluehlampen.csv", format="csv2") barplot(gl$f_hat, names = rep("", length(gl$f_hat)), las=2, width = (gl$k_o - gl$k_u), space = 0, col="white", axes = FALSE) axis(1, at =c(1:2500), labels = rep("",2500) ,lty = 0, xpd = TRUE) axis(2, at = c(0:9), labels = rep("",10), pos = 0, xpd = TRUE, tck = 0) rect(500, 0, 666.67, 9, col = "grey") rect(100, 0, 500, 6, col = "grey") rect(0, 0, 100, 3, col = "grey") points(0, 9, pch =17, xpd = TRUE) lines(x = c(666.67,666.67), y = c(0,9), lty=1, lwd = 3) text(x = 666.67, y = -0.5, labels=expression(x[p]), xpd = TRUE) text(x = -80, y = 9, labels=expression(hat("f(x)")), xpd = TRUE) F_hat = c(0, 1, 7, 16, 19, 19) plot(c(gl$k_u, gl$k_o[4], 2500), F_hat, type = "l", axes = FALSE, ylab = "", xlab = "", xpd = TRUE, lwd = 3) axis(1, at =c(1:2500), labels = rep("",2500), xpd = TRUE, tck = 0, pos = 0) axis(2, at = c(0:21), labels = rep("",22), pos = 0, xpd = TRUE, tck = 0) points(0, 21, pch =17, xpd = TRUE) text(x = 666.67, y = -1, labels=expression(x[p]), xpd = TRUE) text(x = 2500, y = -1, labels="x", xpd = TRUE) text(x = -80, y = 22, labels= expression(hat("F(x)")), xpd = TRUE) text(x = -80, y = 10, labels= "p", xpd = TRUE) text(x = -80, y = 19, labels= "1", xpd = TRUE) lines(x = c(666.67,666.67), y = c(0, 10), lty=2) lines(x = c(0,666.67), y = c(10, 10), lty=2) lines(x = c(0,2500), y = c(19, 19), lty=2, xpd = TRUE) </R> |
Median bzw. Zentralwert
Gegeben sei die in aufsteigender Folge geordnete Reihe der Merkmalsausprägungen eines mindestens ordinalskalierten Merkmals .
Diejenige Merkmalsausprägung, die die Reihe in zwei gleiche Teile zerlegt, sich also an zentraler Stelle befindet, wird als Median oder Zentralwert bezeichnet. Der Median ist somit ein spezielles p-Quantil an der Stelle , also .
Er ist relativ unempfindlich gegenüber Ausreißern, also Merkmalswerten, die übermäßig stark von den anderen Werten abweichen.
Median für nicht-klassierte Merkmale
- Falls ungerade ist:
- Falls gerade ist: .
Median für klassierte Merkmale
Liegen klassierte Merkmale vor, ergibt sich der Median wie folgt:
Dabei ist die untere Klassengrenze, die obere Klassengrenze, die relative Häufigkeit der Medianklasse und die empirische Verteilungsfunktion der Medianklasse vorausgehenden Klasse.
Der Median wird durch Interpolation ermittelt. Wegen lässt sich der Median leicht aus der Grafik der empirischen Verteilungsfunktion entnehmen, wie die folgende Abbildung verdeutlicht.
<R output="display">
pdf(rpdf, width=7, height=7) gl <- readdataSK("gluehlampen.csv", format="csv2") F_hat = c(0, 1, 7, 16, 19, 19) plot(c(gl$k_u, gl$k_o[4], 2500), F_hat, type = "l", axes = FALSE, ylab = "", xlab = "", xpd = TRUE, lwd = 3) axis(1, at =c(1:2500), labels = rep("",2500), xpd = TRUE, tck = 0, pos = 0) axis(2, at = c(0:21), labels = rep("",22), pos = 0, xpd = TRUE, tck = 0) points(0, 21, pch =17, xpd = TRUE) text(x = 666.67, y = -1, labels=expression(x["0,5"]), xpd = TRUE) text(x = 2500, y = -1, labels="x", xpd = TRUE) text(x = -80, y = 22, labels= "F(x)", xpd = TRUE) text(x = -80, y = 10, labels= "0,5", xpd = TRUE) text(x = -80, y = 19, labels= "1", xpd = TRUE) lines(x = c(666.67,666.67), y = c(0, 10), lty=2) lines(x = c(0,666.67), y = c(10, 10), lty=2) lines(x = c(0,2500), y = c(19, 19), lty=2, xpd = TRUE) </R> |
Quartil
Als Quartil bezeichnen wir jene p-Quantile, die die geordnete Reihe der Merkmalsausprägungen in 4 gleichgroße Teile zerlegt. Es gibt also 3 Quartile:
Quintil
Als Quintil bezeichnen wir jene p-Quantile, die die geordnete Reihe der Merkmalsausprägungen in 5 gleichgroße Teile zerlegt. Es gibt also 4 Quintile:
Dezil
Als Dezil bezeichnen wir jene p-Quantile, die die geordnete Reihe der Merkmalsausprägungen in 10 gleichgroße Teile zerlegt. Es gibt also 9 Dezile:
Zusatzinformationen
Eigenschaften des Median für metrisch skalierte Merkmale
Lineare Minimumeigenschaft
Die Summe der absoluten Abweichungen der Merkmalswerte vom Median ist ein Minimum im Vergleich zur Summe der absoluten Abweichungen der Merkmalswerte von jedem anderen beliebigen Wert.
Lineare Transformation
Beispiele
Haushaltsnettoeinkommen
Grafische Darstellung der Quartile
<R output="display">
pdf(rpdf, width=7, height=7) x <- c(0, 1.6, 2.1, 3, 4, 4.5, 6, 7) y <- c(0, 0.15, 0.25, 0.50, 0.69, 0.75, 1, 1) plot( x, y,xlim=c( 0, 7), ylim=c(0, 1), type="l", lwd=2, axes=FALSE, xlab="X (in DM)", ylab="F(X)", font.lab=2) axis(1, at= x, labels = c( "", "", "1536", "2385", "", "3568", "5000", ""), tck=0, pos=0) axis(2, at = y, labels = c("", "", "0.25", "0.50", "", "0.75", "1", "1"), tck = 0, las = 1, pos=0, xpd=TRUE) lines(x = c(2.1,2.1), y = c(0, 0.25), lty=2) lines(x = c(0,2.1), y = c(0.25, 0.25), lty=2) lines(x = c(3,3), y = c(0, 0.5), lty=2) lines(x = c(0,3), y = c(0.5, 0.5), lty=2) lines(x = c(4.5,4.5), y = c(0, 0.75), lty=2) lines(x = c(0,4.5), y = c(0.75, 0.75), lty=2) lines(x = c(6,7), y = c(1, 1), lty=2, col="WHITE", lwd=2) </R> |
Berechnung der Quartile
Aus der empirischen Verteilungsfunktion (3. Spalte der Tabelle) ist erkennbar, dass das erste Quartil mit und das zweite Quartil mit in die dritte Klasse 1400 - 3000 DM fallen.
Diese Klasse weist eine Klassenbreite von 1600 DM auf. Das dritte Quartil mit liegt in der vierten Klasse 3000 - 5000 DM mit einer Klassenbreite von 2000 DM.
Interpretationen
1. Quartil: 25% der betrachteten Haushalte haben ein monatliches Haushaltsnettoeinkommen von höchstens 1535,88 DM und 75% der Haushalte ein monatliches Haushaltsnettoeinkommen größer als 1535,88 DM.
2. Quartil: 50% der Haushalte haben ein monatliches Haushaltsnettoeinkommen von höchstens 2385,14 DM und 50% der Haushalte ein monatliches Haushaltsnettoeinkommen größer als 2385,14 DM.
3. Quartil: 75% der Haushalte haben ein monatliches Haushaltsnettoeinkommen von höchstens 3567,90 DM und 25% der Haushalte ein monatliches Haushaltsnettoeinkommen größer als 3567,90 DM.
Aus der Berechnung der Quartile folgt unmittelbar, dass 50% der Haushalte ein monatliches Haushaltsnettoeinkommen zwischen 1535,88 DM und 3567,90 DM haben.
Dieser Abstand wird auch als Interquartilsabstand bezeichnet und in einem der folgenden Kapitel genauer erläutert.