Quantil: Unterschied zwischen den Versionen

Aus MM*Stat

Wechseln zu: Navigation, Suche
(Die Seite wurde neu angelegt: „{{Grundbegriffe der Statistik}} =={{Vorlage:Überschrift}}== ===p-Quantil=== Gegeben sei eine Folge von Merkmalsausprägungen eines mindestens Ordinal…“)
 
Zeile 1: Zeile 1:
{{Grundbegriffe der Statistik}}
+
{{Univariate Statistik}}
  
 
=={{Vorlage:Überschrift}}==
 
=={{Vorlage:Überschrift}}==

Version vom 14. Mai 2018, 21:33 Uhr

Univariate Statistik

Eindimensionale Häufigkeitsverteilung • Graphische Darstellung eindimensionaler Verteilungen • Verteilungsfunktion (empirisch) • Parameter eindimensionaler Verteilungen (empirisch) • Modus • Arithmetisches Mittel • Harmonisches Mittel • Geometrisches Mittel • Quantil • Spannweite • Quartilsabstand • Mittlere absolute Abweichung • Varianz und Standardabweichung (empirisch) • Multiple Choice • Video • Aufgaben • Lösungen
Balkendiagramm • Dezil • Dotplot • Flächendiagramm • Flächenproportionale Darstellung • Häufigkeitstabelle (eindimensional) • Histogramm • Höhenproportionale Darstellung • Interpolation • Interquartilsabstand • Kartogramm • Kreisdiagramm • Lagemaß • Lageparameter • Liniendiagramm • Median • Mittelwert • Mittlere quadratische Abweichung (empirisch) • Mittlere Wachstumsrate • Modalklasse • Modalwert • Multimodale Verteilung • Piktogramm • Prognosewert • p-Quantil • Quartil • Quartilsdispersionskoeffizient (empirisch) • Quintil • Rechteckdiagramm • Robustheit • Säulendiagramm • Stabdiagramm • Standardabweichung (empirisch) • Stengel-Blatt-Diagramm • Streuung • Streuungsmaß • Streuungsparameter • Unimodale Verteilung • Varianz (empirisch) • Variationskoeffizient (empirisch) • Wachstumsrate • Zentralwert

Grundbegriffe

p-Quantil

Gegeben sei eine Folge von Merkmalsausprägungen eines mindestens ordinalskalierten Merkmals X.

Der Punkt auf der Merkmalsachse, der eine der Größe nach in aufsteigender Folge geordnete Reihe von n Merkmalswerten (x_{n})_{n \in \mathbb{N}} der Anzahl nach ungefähr oder genau im Verhältnis p:(1-p) mit  0\leq p\leq 1 teilt, wird als p-Quantil x_p bezeichnet.

p-Quantil, unklassierte Variablen

Sei  n \cdot p keine natürliche Zahl und k \in \mathbb{N} die auf  n \cdot p folgende (nächst größere) natürliche Zahl, so ist das p-Quantil  x_{p} = (x_{k})_{k \in \mathbb{N}}.

Sei  n \cdot p eine natürliche Zahl und k = n \cdot p , so könnte jeder Wert zwischen  (x_{k})_{k \in \mathbb{N}} und  ( x_{k+1} )_{k \in \mathbb{N}} als p-Quantil definiert werden. Vereinbarungsgemäß verwendet man jedoch

 x_{p} = \frac{(x_{k}) + (x_{k+1})}{2}

p-Quantil, klassierte Variablen

Liegen klassierte Merkmale vor, ergibt sich das p-Quantil x_p wie folgt:

 x_{p}=x_{j}^{u}+\frac{p-F\left(  x_{j}^{u}\right)  }{f\left(x_{j}\right) }\cdot\left(  x_{j}^{o}-x_{j}^{u}\right)

Darin ist  x_{j}^{u} die untere Klassengrenze,  x_{j}^{o} die obere Klassengrenze,  f( x_{j} ) die relative Häufigkeit der Quantilsklasse und  F( x_{j}^{u} ) die empirische Verteilungsfunktion der Quantilsklasse vorausgehenden Klasse.

Das p-Quantil  x_{p} wird durch Interpolation ermittelt. Wegen  p = F( x_{p}) lassen sich die p-Quantile leicht aus der Grafik der empirischen Verteilungsfunktion entnehmen, wie die folgende Abbildung verdeutlicht.

<R output="display">

pdf(rpdf, width=14, height=7) par(mfrow=c(1,2)) gl <- readdataSK("gluehlampen.csv", format="csv2") barplot(gl$f_hat, names = rep("", length(gl$f_hat)), las=2,

       width = (gl$k_o - gl$k_u), space = 0, col="white", axes = FALSE)

axis(1, at =c(1:2500), labels = rep("",2500) ,lty = 0, xpd = TRUE) axis(2, at = c(0:9), labels = rep("",10), pos = 0, xpd = TRUE, tck = 0) rect(500, 0, 666.67, 9, col = "grey") rect(100, 0, 500, 6, col = "grey") rect(0, 0, 100, 3, col = "grey") points(0, 9, pch =17, xpd = TRUE) lines(x = c(666.67,666.67), y = c(0,9), lty=1, lwd = 3) text(x = 666.67, y = -0.5, labels=expression(x[p]), xpd = TRUE) text(x = -80, y = 9, labels=expression(hat("f(x)")), xpd = TRUE) F_hat = c(0, 1, 7, 16, 19, 19) plot(c(gl$k_u, gl$k_o[4], 2500), F_hat, type = "l", axes = FALSE, ylab = "",

    xlab = "", xpd = TRUE, lwd = 3)

axis(1, at =c(1:2500), labels = rep("",2500), xpd = TRUE, tck = 0, pos = 0) axis(2, at = c(0:21), labels = rep("",22), pos = 0, xpd = TRUE, tck = 0) points(0, 21, pch =17, xpd = TRUE) text(x = 666.67, y = -1, labels=expression(x[p]), xpd = TRUE) text(x = 2500, y = -1, labels="x", xpd = TRUE) text(x = -80, y = 22, labels= expression(hat("F(x)")), xpd = TRUE) text(x = -80, y = 10, labels= "p", xpd = TRUE) text(x = -80, y = 19, labels= "1", xpd = TRUE) lines(x = c(666.67,666.67), y = c(0, 10), lty=2) lines(x = c(0,666.67), y = c(10, 10), lty=2) lines(x = c(0,2500), y = c(19, 19), lty=2, xpd = TRUE) </R>

Median bzw. Zentralwert

Gegeben sei die in aufsteigender Folge geordnete Reihe der Merkmalsausprägungen eines mindestens ordinalskalierten Merkmals X.

Diejenige Merkmalsausprägung, die die Reihe in zwei gleiche Teile zerlegt, sich also an zentraler Stelle befindet, wird als Median oder Zentralwert  x_{z} = x_{0.5} bezeichnet. Der Median  x_{z} ist somit ein spezielles p-Quantil an der Stelle p=0.5, also  x_{0,5} .

Er ist relativ unempfindlich gegenüber Ausreißern, also Merkmalswerten, die übermäßig stark von den anderen Werten abweichen.

Median für nicht-klassierte Merkmale

  • Falls n ungerade ist:  x_{0.5} = x_{(\frac{n+1}{2})}
  • Falls n gerade ist:  x_{0.5}=\left(x_{(\frac{n}{2})}+x_{(\frac{n}{2}+1)}\right)/2 .

Median für klassierte Merkmale

Liegen klassierte Merkmale vor, ergibt sich der Median  x_{0,5} wie folgt:

 x_{0.5}=x_{j}^{u}+\frac{0.5-F(x_{j}^{u})}{f(x_{j})}\cdot(x_{j}^{o}-x_{j}^{u})

Dabei ist  x_{j}^{u} die untere Klassengrenze,  x_{j}^{o} die obere Klassengrenze,  f( x_{j} ) die relative Häufigkeit der Medianklasse und  F( x_{j}^{u} ) die empirische Verteilungsfunktion der Medianklasse vorausgehenden Klasse.

Der Median  x_{0,5} wird durch Interpolation ermittelt. Wegen  F(x_{ 0,5 }) = 0.5 lässt sich der Median leicht aus der Grafik der empirischen Verteilungsfunktion entnehmen, wie die folgende Abbildung verdeutlicht.

<R output="display">

pdf(rpdf, width=7, height=7) gl <- readdataSK("gluehlampen.csv", format="csv2") F_hat = c(0, 1, 7, 16, 19, 19) plot(c(gl$k_u, gl$k_o[4], 2500), F_hat, type = "l", axes = FALSE, ylab = "",

    xlab = "", xpd = TRUE, lwd = 3)

axis(1, at =c(1:2500), labels = rep("",2500), xpd = TRUE, tck = 0, pos = 0) axis(2, at = c(0:21), labels = rep("",22), pos = 0, xpd = TRUE, tck = 0) points(0, 21, pch =17, xpd = TRUE) text(x = 666.67, y = -1, labels=expression(x["0,5"]), xpd = TRUE) text(x = 2500, y = -1, labels="x", xpd = TRUE) text(x = -80, y = 22, labels= "F(x)", xpd = TRUE) text(x = -80, y = 10, labels= "0,5", xpd = TRUE) text(x = -80, y = 19, labels= "1", xpd = TRUE) lines(x = c(666.67,666.67), y = c(0, 10), lty=2) lines(x = c(0,666.67), y = c(10, 10), lty=2) lines(x = c(0,2500), y = c(19, 19), lty=2, xpd = TRUE) </R>

Quartil

Als Quartil bezeichnen wir jene p-Quantile, die die geordnete Reihe der Merkmalsausprägungen in 4 gleichgroße Teile zerlegt. Es gibt also 3 Quartile:

 x_{0.25},x_{0.5},x_{0.75}

Quintil

Als Quintil bezeichnen wir jene p-Quantile, die die geordnete Reihe der Merkmalsausprägungen in 5 gleichgroße Teile zerlegt. Es gibt also 4 Quintile:

 x_{0.2},x_{0.4},x_{0.6},x_{0.8}

Dezil

Als Dezil bezeichnen wir jene p-Quantile, die die geordnete Reihe der Merkmalsausprägungen in 10 gleichgroße Teile zerlegt. Es gibt also 9 Dezile:

 x_{0.1},x_{0.2},\dots,x_{0.9}

Zusatzinformationen

Eigenschaften des Median für metrisch skalierte Merkmale

Lineare Minimumeigenschaft

 \sum\limits_{j=1}^{k}|x_{j}-x_{0.5}|\cdot f(x_{j})\rightarrow min.

Die Summe der absoluten Abweichungen der Merkmalswerte vom Median ist ein Minimum im Vergleich zur Summe der absoluten Abweichungen der Merkmalswerte von jedem anderen beliebigen Wert.

Lineare Transformation

 y_{i}=a+bx_{i}\longrightarrow y_{0.5}=a+bx_{0.5}

Beispiele

Haushaltsnettoeinkommen

Mmstat3:Statistik I&II/MHNE98

Grafische Darstellung der Quartile

<R output="display">

pdf(rpdf, width=7, height=7)

x <- c(0, 1.6, 2.1, 3, 4, 4.5, 6, 7) y <- c(0, 0.15, 0.25, 0.50, 0.69, 0.75, 1, 1) plot( x, y,xlim=c( 0, 7), ylim=c(0, 1), type="l", lwd=2, axes=FALSE, xlab="X (in DM)",

     ylab="F(X)", font.lab=2)

axis(1, at= x, labels = c( "", "", "1536", "2385", "", "3568", "5000", ""), tck=0, pos=0) axis(2, at = y, labels = c("", "", "0.25", "0.50", "", "0.75", "1", "1"), tck = 0, las = 1, pos=0, xpd=TRUE) lines(x = c(2.1,2.1), y = c(0, 0.25), lty=2) lines(x = c(0,2.1), y = c(0.25, 0.25), lty=2) lines(x = c(3,3), y = c(0, 0.5), lty=2) lines(x = c(0,3), y = c(0.5, 0.5), lty=2) lines(x = c(4.5,4.5), y = c(0, 0.75), lty=2) lines(x = c(0,4.5), y = c(0.75, 0.75), lty=2) lines(x = c(6,7), y = c(1, 1), lty=2, col="WHITE", lwd=2)

</R>

Berechnung der Quartile

Aus der empirischen Verteilungsfunktion (3. Spalte der Tabelle) ist erkennbar, dass das erste Quartil  x_{0,25} mit  p = 0,25 und das zweite Quartil  x_{0,5} mit p = 0,50 in die dritte Klasse 1400 - 3000 DM fallen.

Diese Klasse weist eine Klassenbreite von 1600 DM auf. Das dritte Quartil  x_{0,75} mit p = 0,75 liegt in der vierten Klasse 3000 - 5000 DM mit einer Klassenbreite von 2000 DM.


 x_{0,25} = 1400 +1600\cdot\frac{0,25-0,21}{0.471}=1535,88 \ DM

 x_{0.50} = 1400 + 1600 \cdot\frac{0,50 - 0,21}{0,471} = 2385,14 \ DM

 x_{0.75} = 3000 + 2000 \cdot\frac{0,75 - 0,681}{0,243} = 3567,90 \ DM

Interpretationen

1. Quartil: 25% der betrachteten Haushalte haben ein monatliches Haushaltsnettoeinkommen von höchstens 1535,88 DM und 75% der Haushalte ein monatliches Haushaltsnettoeinkommen größer als 1535,88 DM.

2. Quartil: 50% der Haushalte haben ein monatliches Haushaltsnettoeinkommen von höchstens 2385,14 DM und 50% der Haushalte ein monatliches Haushaltsnettoeinkommen größer als 2385,14 DM.

3. Quartil: 75% der Haushalte haben ein monatliches Haushaltsnettoeinkommen von höchstens 3567,90 DM und 25% der Haushalte ein monatliches Haushaltsnettoeinkommen größer als 3567,90 DM.

Aus der Berechnung der Quartile folgt unmittelbar, dass 50% der Haushalte ein monatliches Haushaltsnettoeinkommen zwischen 1535,88 DM und 3567,90 DM haben.

Dieser Abstand wird auch als Interquartilsabstand bezeichnet und in einem der folgenden Kapitel genauer erläutert.