Quantil: Unterschied zwischen den Versionen

Version vom 14. Mai 2018, 21:33 Uhr

Univariate Statistik

Eindimensionale Häufigkeitsverteilung • Graphische Darstellung eindimensionaler Verteilungen • Grafische Darstellung diskreter Merkmale • Grafische Darstellung stetiger Merkmale • Verteilungsfunktion (empirisch) • Parameter eindimensionaler Verteilungen (empirisch) • Modus • Arithmetisches Mittel • Harmonisches Mittel • Geometrisches Mittel • Quantil • Spannweite • Quartilsabstand • Mittlere absolute Abweichung • Varianz und Standardabweichung (empirisch) • Multiple Choice • Video • Aufgaben • Lösungen

Balkendiagramm • Dezil • Dotplot • Flächendiagramm • Flächenproportionale Darstellung • Häufigkeitstabelle (eindimensional) • Histogramm • Höhenproportionale Darstellung • Interpolation • Interquartilsabstand • Kartogramm • Kreisdiagramm • Lagemaß • Lageparameter • Liniendiagramm • Median • Mittelwert • Mittlere quadratische Abweichung (empirisch) • Mittlere Wachstumsrate • Modalklasse • Modalwert • Multimodale Verteilung • Piktogramm • Prognosewert • p-Quantil • Quartil • Quartilsdispersionskoeffizient (empirisch) • Quintil • Rechteckdiagramm • Robustheit • Säulendiagramm • Stabdiagramm • Standardabweichung (empirisch) • Stengel-Blatt-Diagramm • Streuung • Streuungsmaß • Streuungsparameter • Unimodale Verteilung • Varianz (empirisch) • Variationskoeffizient (empirisch) • Wachstumsrate • Zentralwert

Grundbegriffe

p-Quantil

Gegeben sei eine Folge von Merkmalsausprägungen eines mindestens ordinalskalierten Merkmals $X$ .

Der Punkt auf der Merkmalsachse, der eine der Größe nach in aufsteigender Folge geordnete Reihe von $n$ Merkmalswerten $(x_{n})_{n\in \mathbb {N} }$ der Anzahl nach ungefähr oder genau im Verhältnis $p:(1-p)$ mit $0\leq p\leq 1$ teilt, wird als p-Quantil $x_{p}$ bezeichnet.

p-Quantil, unklassierte Variablen

Sei $n\cdot p$ keine natürliche Zahl und $k\in \mathbb {N}$ die auf $n\cdot p$ folgende (nächst größere) natürliche Zahl, so ist das p-Quantil $x_{p}=(x_{k})_{k\in \mathbb {N} }$ .

Sei $n\cdot p$ eine natürliche Zahl und $k=n\cdot p$ , so könnte jeder Wert zwischen $(x_{k})_{k\in \mathbb {N} }$ und $(x_{k+1})_{k\in \mathbb {N} }$ als p-Quantil definiert werden. Vereinbarungsgemäß verwendet man jedoch

x_{p}={\frac {(x_{k})+(x_{k+1})}{2}}

p-Quantil, klassierte Variablen

Liegen klassierte Merkmale vor, ergibt sich das p-Quantil $x_{p}$ wie folgt:

$x_{p}=x_{j}^{u}+{\frac {p-F\left(x_{j}^{u}\right)}{f\left(x_{j}\right)}}\cdot \left(x_{j}^{o}-x_{j}^{u}\right)$

Darin ist $x_{j}^{u}$ die untere Klassengrenze, $x_{j}^{o}$ die obere Klassengrenze, $f(x_{j})$ die relative Häufigkeit der Quantilsklasse und $F(x_{j}^{u})$ die empirische Verteilungsfunktion der Quantilsklasse vorausgehenden Klasse.

Das p-Quantil $x_{p}$ wird durch Interpolation ermittelt. Wegen $p=F(x_{p})$ lassen sich die p-Quantile leicht aus der Grafik der empirischen Verteilungsfunktion entnehmen, wie die folgende Abbildung verdeutlicht.

pdf(rpdf, width=14, height=7) par(mfrow=c(1,2)) gl <- readdataSK("gluehlampen.csv", format="csv2") barplot(gl$f_hat, names = rep("", length(gl$f_hat)), las=2,

       width = (gl$k_o - gl$k_u), space = 0, col="white", axes = FALSE)

axis(1, at =c(1:2500), labels = rep("",2500) ,lty = 0, xpd = TRUE) axis(2, at = c(0:9), labels = rep("",10), pos = 0, xpd = TRUE, tck = 0) rect(500, 0, 666.67, 9, col = "grey") rect(100, 0, 500, 6, col = "grey") rect(0, 0, 100, 3, col = "grey") points(0, 9, pch =17, xpd = TRUE) lines(x = c(666.67,666.67), y = c(0,9), lty=1, lwd = 3) text(x = 666.67, y = -0.5, labels=expression(x[p]), xpd = TRUE) text(x = -80, y = 9, labels=expression(hat("f(x)")), xpd = TRUE) F_hat = c(0, 1, 7, 16, 19, 19) plot(c(gl$k_u, gl$k_o[4], 2500), F_hat, type = "l", axes = FALSE, ylab = "",

    xlab = "", xpd = TRUE, lwd = 3)

axis(1, at =c(1:2500), labels = rep("",2500), xpd = TRUE, tck = 0, pos = 0) axis(2, at = c(0:21), labels = rep("",22), pos = 0, xpd = TRUE, tck = 0) points(0, 21, pch =17, xpd = TRUE) text(x = 666.67, y = -1, labels=expression(x[p]), xpd = TRUE) text(x = 2500, y = -1, labels="x", xpd = TRUE) text(x = -80, y = 22, labels= expression(hat("F(x)")), xpd = TRUE) text(x = -80, y = 10, labels= "p", xpd = TRUE) text(x = -80, y = 19, labels= "1", xpd = TRUE) lines(x = c(666.67,666.67), y = c(0, 10), lty=2) lines(x = c(0,666.67), y = c(10, 10), lty=2) lines(x = c(0,2500), y = c(19, 19), lty=2, xpd = TRUE) </R>

Median bzw. Zentralwert

Gegeben sei die in aufsteigender Folge geordnete Reihe der Merkmalsausprägungen eines mindestens ordinalskalierten Merkmals $X$ .

Diejenige Merkmalsausprägung, die die Reihe in zwei gleiche Teile zerlegt, sich also an zentraler Stelle befindet, wird als Median oder Zentralwert $x_{z}=x_{0.5}$ bezeichnet. Der Median $x_{z}$ ist somit ein spezielles p-Quantil an der Stelle $p=0.5$ , also $x_{0,5}$ .

Er ist relativ unempfindlich gegenüber Ausreißern, also Merkmalswerten, die übermäßig stark von den anderen Werten abweichen.

Median für nicht-klassierte Merkmale

Falls $n$ ungerade ist: $x_{0.5}=x_{({\frac {n+1}{2}})}$
Falls $n$ gerade ist: $x_{0.5}=\left(x_{({\frac {n}{2}})}+x_{({\frac {n}{2}}+1)}\right)/2$ .

Median für klassierte Merkmale

Liegen klassierte Merkmale vor, ergibt sich der Median $x_{0,5}$ wie folgt:

$x_{0.5}=x_{j}^{u}+{\frac {0.5-F(x_{j}^{u})}{f(x_{j})}}\cdot (x_{j}^{o}-x_{j}^{u})$

Dabei ist $x_{j}^{u}$ die untere Klassengrenze, $x_{j}^{o}$ die obere Klassengrenze, $f(x_{j})$ die relative Häufigkeit der Medianklasse und $F(x_{j}^{u})$ die empirische Verteilungsfunktion der Medianklasse vorausgehenden Klasse.

Der Median $x_{0,5}$ wird durch Interpolation ermittelt. Wegen $F(x_{0,5})=0.5$ lässt sich der Median leicht aus der Grafik der empirischen Verteilungsfunktion entnehmen, wie die folgende Abbildung verdeutlicht.

pdf(rpdf, width=7, height=7) gl <- readdataSK("gluehlampen.csv", format="csv2") F_hat = c(0, 1, 7, 16, 19, 19) plot(c(gl$k_u, gl$k_o[4], 2500), F_hat, type = "l", axes = FALSE, ylab = "",

    xlab = "", xpd = TRUE, lwd = 3)

axis(1, at =c(1:2500), labels = rep("",2500), xpd = TRUE, tck = 0, pos = 0) axis(2, at = c(0:21), labels = rep("",22), pos = 0, xpd = TRUE, tck = 0) points(0, 21, pch =17, xpd = TRUE) text(x = 666.67, y = -1, labels=expression(x["0,5"]), xpd = TRUE) text(x = 2500, y = -1, labels="x", xpd = TRUE) text(x = -80, y = 22, labels= "F(x)", xpd = TRUE) text(x = -80, y = 10, labels= "0,5", xpd = TRUE) text(x = -80, y = 19, labels= "1", xpd = TRUE) lines(x = c(666.67,666.67), y = c(0, 10), lty=2) lines(x = c(0,666.67), y = c(10, 10), lty=2) lines(x = c(0,2500), y = c(19, 19), lty=2, xpd = TRUE) </R>

Quartil

Als Quartil bezeichnen wir jene p-Quantile, die die geordnete Reihe der Merkmalsausprägungen in 4 gleichgroße Teile zerlegt. Es gibt also 3 Quartile:

$x_{0.25},x_{0.5},x_{0.75}$

Quintil

Als Quintil bezeichnen wir jene p-Quantile, die die geordnete Reihe der Merkmalsausprägungen in 5 gleichgroße Teile zerlegt. Es gibt also 4 Quintile:

$x_{0.2},x_{0.4},x_{0.6},x_{0.8}$

Dezil

Als Dezil bezeichnen wir jene p-Quantile, die die geordnete Reihe der Merkmalsausprägungen in 10 gleichgroße Teile zerlegt. Es gibt also 9 Dezile:

$x_{0.1},x_{0.2},\dots ,x_{0.9}$

Zusatzinformationen

Eigenschaften des Median für metrisch skalierte Merkmale

Lineare Minimumeigenschaft

$\sum \limits _{j=1}^{k}|x_{j}-x_{0.5}|\cdot f(x_{j})\rightarrow min.$

Die Summe der absoluten Abweichungen der Merkmalswerte vom Median ist ein Minimum im Vergleich zur Summe der absoluten Abweichungen der Merkmalswerte von jedem anderen beliebigen Wert.

Lineare Transformation

$y_{i}=a+bx_{i}\longrightarrow y_{0.5}=a+bx_{0.5}$

Beispiele

Haushaltsnettoeinkommen

Mmstat3:Statistik I&II/MHNE98

Grafische Darstellung der Quartile

pdf(rpdf, width=7, height=7)

x <- c(0, 1.6, 2.1, 3, 4, 4.5, 6, 7) y <- c(0, 0.15, 0.25, 0.50, 0.69, 0.75, 1, 1) plot( x, y,xlim=c( 0, 7), ylim=c(0, 1), type="l", lwd=2, axes=FALSE, xlab="X (in DM)",

     ylab="F(X)", font.lab=2)

axis(1, at= x, labels = c( "", "", "1536", "2385", "", "3568", "5000", ""), tck=0, pos=0) axis(2, at = y, labels = c("", "", "0.25", "0.50", "", "0.75", "1", "1"), tck = 0, las = 1, pos=0, xpd=TRUE) lines(x = c(2.1,2.1), y = c(0, 0.25), lty=2) lines(x = c(0,2.1), y = c(0.25, 0.25), lty=2) lines(x = c(3,3), y = c(0, 0.5), lty=2) lines(x = c(0,3), y = c(0.5, 0.5), lty=2) lines(x = c(4.5,4.5), y = c(0, 0.75), lty=2) lines(x = c(0,4.5), y = c(0.75, 0.75), lty=2) lines(x = c(6,7), y = c(1, 1), lty=2, col="WHITE", lwd=2)

</R>

Berechnung der Quartile

Aus der empirischen Verteilungsfunktion (3. Spalte der Tabelle) ist erkennbar, dass das erste Quartil $x_{0,25}$ mit $p=0,25$ und das zweite Quartil $x_{0,5}$ mit $p=0,50$ in die dritte Klasse 1400 - 3000 DM fallen.

Diese Klasse weist eine Klassenbreite von 1600 DM auf. Das dritte Quartil $x_{0,75}$ mit $p=0,75$ liegt in der vierten Klasse 3000 - 5000 DM mit einer Klassenbreite von 2000 DM.

$x_{0,25}=1400+1600\cdot {\frac {0,25-0,21}{0.471}}=1535,88\ DM$

$x_{0.50}=1400+1600\cdot {\frac {0,50-0,21}{0,471}}=2385,14\ DM$

$x_{0.75}=3000+2000\cdot {\frac {0,75-0,681}{0,243}}=3567,90\ DM$

Interpretationen

1. Quartil: 25% der betrachteten Haushalte haben ein monatliches Haushaltsnettoeinkommen von höchstens 1535,88 DM und 75% der Haushalte ein monatliches Haushaltsnettoeinkommen größer als 1535,88 DM.

2. Quartil: 50% der Haushalte haben ein monatliches Haushaltsnettoeinkommen von höchstens 2385,14 DM und 50% der Haushalte ein monatliches Haushaltsnettoeinkommen größer als 2385,14 DM.

3. Quartil: 75% der Haushalte haben ein monatliches Haushaltsnettoeinkommen von höchstens 3567,90 DM und 25% der Haushalte ein monatliches Haushaltsnettoeinkommen größer als 3567,90 DM.

Aus der Berechnung der Quartile folgt unmittelbar, dass 50% der Haushalte ein monatliches Haushaltsnettoeinkommen zwischen 1535,88 DM und 3567,90 DM haben.

Dieser Abstand wird auch als Interquartilsabstand bezeichnet und in einem der folgenden Kapitel genauer erläutert.

Version vom 14. Mai 2018, 21:24 Uhr (Quelltext anzeigen) Germainf (Diskussion \| Beiträge) (Die Seite wurde neu angelegt: „{{Grundbegriffe der Statistik}} =={{Vorlage:Überschrift}}== ===p-Quantil=== Gegeben sei eine Folge von Merkmalsausprägungen eines mindestens Ordinal…“)		Version vom 14. Mai 2018, 21:33 Uhr (Quelltext anzeigen) Germainf (Diskussion \| Beiträge) Keine Bearbeitungszusammenfassung Zum nächsten Versionsunterschied →
Zeile 1:		Zeile 1:
	{{~~Grundbegriffe der~~ Statistik}}		{{Univariate Statistik}}

	=={{Vorlage:Überschrift}}==		=={{Vorlage:Überschrift}}==