Varianz und Standardabweichung (empirisch)

Aus MM*Stat

Version vom 14. Mai 2018, 21:36 Uhr von Germainf (Diskussion | Beiträge) (Die Seite wurde neu angelegt: „{{Univariate Statistik}} =={{Vorlage:Überschrift}}== ===Mittlere quadratische Abweichung=== Die quadratischen Abweichungen der Beobachtungswerte von ei…“)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Wechseln zu: Navigation, Suche

Univariate Statistik

Eindimensionale Häufigkeitsverteilung • Graphische Darstellung eindimensionaler Verteilungen • Grafische Darstellung diskreter Merkmale • Grafische Darstellung stetiger Merkmale • Verteilungsfunktion (empirisch) • Parameter eindimensionaler Verteilungen (empirisch) • Modus • Arithmetisches Mittel • Harmonisches Mittel • Geometrisches Mittel • Quantil • Spannweite • Quartilsabstand • Mittlere absolute Abweichung • Varianz und Standardabweichung (empirisch) • Multiple Choice • Video • Aufgaben • Lösungen
Balkendiagramm • Dezil • Dotplot • Flächendiagramm • Flächenproportionale Darstellung • Häufigkeitstabelle (eindimensional) • Histogramm • Höhenproportionale Darstellung • Interpolation • Interquartilsabstand • Kartogramm • Kreisdiagramm • Lagemaß • Lageparameter • Liniendiagramm • Median • Mittelwert • Mittlere quadratische Abweichung (empirisch) • Mittlere Wachstumsrate • Modalklasse • Modalwert • Multimodale Verteilung • Piktogramm • Prognosewert • p-Quantil • Quartil • Quartilsdispersionskoeffizient (empirisch) • Quintil • Rechteckdiagramm • Robustheit • Säulendiagramm • Stabdiagramm • Standardabweichung (empirisch) • Stengel-Blatt-Diagramm • Streuung • Streuungsmaß • Streuungsparameter • Unimodale Verteilung • Varianz (empirisch) • Variationskoeffizient (empirisch) • Wachstumsrate • Zentralwert

Grundbegriffe

Mittlere quadratische Abweichung

Die quadratischen Abweichungen der Beobachtungswerte von einem bestimmten Bezugspunkt heißt mittlere quadratische Abweichung (MQ).

Der Bezugspunkt kann einem beliebigen Wert auf der Merkmalsachse entsprechen.

Empirische Varianz

Bei Verwendung des arithmetischen Mittels als Bezugspunkt hat die mittlere quadratische Abweichung einen speziellen Namen erhalten: empirische Varianz.

Die empirische Varianz für die beobachteten Werte eines Merkmals wird im weiteren mit bezeichnet.

Empirische Standardabweichung

Die empirische Standardabweichung entspricht der positiven Quadratwurzel aus der empirische Varianz.

Empirischer Variationskoeffizient

Sollen die empirischen Standardabweichungen verschiedener Verteilungsfunktionen miteinander verglichen werden, wird ein (auf das arithmetische Mittel bezogenes) relatives Streuungsmaß, der empirische Variationskoeffizient verwendet.

Der empirische Variationskoeffizient weist keine Maßeinheit auf.

Empirischer Quartilsdispersionskoeffizient

Dividiert man den Interquartilsabstand durch den Median, so erhält man eine robuste Version des empirischen Variationskoeffizienten

Diesen bezeichnet man auch als empirischen Quartilsdispersionskoeffizienten.

Zusatzinformationen

Wertebereich

Die empirische Varianz (und damit die empirische Standardabweichung ) ist stets größer oder gleich Null.

Nimmt sie den Wert an, so weist das beobachtete Merkmal keine Streuung auf und alle Beobachtungswerte haben den gleichen numerischen Wert.

Beziehung zwischen mittlerer quadratischer Abweichung und Varianz

Die auf das arithmetische Mittel bezogene mittlere quadratische Abweichung (d.h. die empirische Varianz) ist kleiner als jede auf einen verschiedenen Wert bezogene mittlere quadratische Abweichung.

Dies lässt sich anhand des Verschiebungssatzes zeigen, der eine Beziehung zwischen der mittleren quadratischen Abweichung in bezug auf und der empirischen Varianz beinhaltet:

Nunmehr ist sofort ersichtlich, dass nur im Falle die mittlere quadratische Abweichung mit der empirischen Varianz identisch und in allen anderen Fällen größer als die empirische Varianz ist.

Lineare Transformation

Standardisierung

, mit und

Gepoolter Datensatz

Sind die Beobachtungswerte in Gruppen unterteilt und sind für jede Gruppe das arithmetische Mittel und die empirische Varianz bekannt, dann kann die empirische Varianz für alle Beobachtungswerte mit der folgenden Formel berechnet werden:

arithmetische Mittel der einzelnen Gruppen
empirische Varianzen der einzelnen Gruppen
Anzahl der Beobachtungen in den einzelnen Gruppen und,

Streuungszerlegung

Wie die obige Formel zeigt, wird die empirische Varianz in zwei Komponenten zerlegt.

gesamte empirische Varianz = empirische Varianz innerhalb der Teilmassen + empirische Varianz zwischen den Teilmassen

Beispiele

Mittlere quadratische Abweichung und Varianz

Beobachtungswerte:

Anwendung des Variationskoeffizienten

Die Berechnung der Mittelwerte und empirischen Standardabweichungen zweier Beobachtungsreihen habe folgende Werte ergeben:

Ein Vergleich auf Grundlage der beiden empirischen Standardabweichungen führt zu der Feststellung, dass die Streuung in der zweiten Beobachtungsreihe dreimal höher ist, als die der Beobachtungsreihe eins.

Da jedoch beide Beobachtungsreihen unterschiedliche Mittelwerte besitzen, muss der Variationskoeffizient zum Vergleich herangezogen werden:

Die relative Streuung beider Beobachtungsreihen ist gleich groß.

Pizzapreis

In 20 Supermärkten Berlins wurden die Verkaufspreise (in Euro) für Pizzen der Marke Dr. O. ermittelt:



  • Der Durchschnittspreis für eine Pizza in den 20 Supermärkten beträgt Euro (= arithmetisches Mittel)
  • Der mittlere Preis der der Größe nach geordneten Reihe von Preisen beträgt Euro (= Median)
  • Zwischen teuerstem und preiswertestem Anbieter liegen Euro (= Spannweite)
  • Im Mittel streuen die einzelnen Verkaufspreise Euro (= Mittlere quadratische Abweichung (MAD) um den Durchschnittspreis und Euro (= MAD) um den Median-Preis.
  • 50% aller Pizzapreise liegen im Bereich zwischen Euro (Quartil ) und Euro (Quartil ), was einem Bereich von Euro (= Quartilsabstand) entspricht.
<R output="display">

pdf(rpdf, width=8, height=8) pizzapreis = c(3.99, 4.50, 4.99, 4.79, 5.29, 5.00, 4.19, 4.90, 4.99, 4.79, 4.90, 4.69, 4.89, 4.49, 5.09, 4.89, 4.99, 4.29, 4.49, 4.19)

par(mfrow=c(2,1))

plot(pizzapreis, rep(c(1:10), 2), xlab = "Preis", ylab = "", pch = 8, col = "blue", yaxt = "n")

  1. Arithm. Mittel

lines(x = c(ave(pizzapreis)[20], ave(pizzapreis)[20]), y = c(1, 10), lty=1, xaxs = "r") text(x = ave(pizzapreis)[20]-0.1, y = 7, labels= "arithm. Mittel", xpd = TRUE)

  1. Spannweite

rect(min(pizzapreis), 1, max(pizzapreis), 10, border = "green") text(x = min(pizzapreis)+0.15, y = 2, labels= "Spannweite", xpd = TRUE, col = "green")

  1. Standardabweichung

rect(ave(pizzapreis)-sqrt(var(pizzapreis)), 1, ave(pizzapreis)+sqrt(var(pizzapreis)), 10, border = "red") text(x = ave(pizzapreis)[20]-0.18, y = 11.5, labels= "Standardabweichung", xpd = TRUE, col = "red")

lines(x = c(0, 10), y = c(-10, -10), xpd = TRUE, lwd = 2)


plot(pizzapreis, rep(c(1:10), 2), xlab = "Preis", ylab = "", pch = 8, col = "blue", yaxt = "n")

  1. Median

lines(x = c(median(pizzapreis), median(pizzapreis)), y = c(1, 10), lty=1, xaxs = "r", col = "darkcyan") text(x = median(pizzapreis)-0.07, y = 7, labels= "Median", xpd = TRUE, col = "darkcyan")

  1. Spannweite

rect(min(pizzapreis), 1, max(pizzapreis), 10, border = "green") text(x = min(pizzapreis)+0.15, y = 2, labels= "Spannweite", xpd = TRUE, col = "green")

  1. Quantilsabstand

rect(quantile(pizzapreis, 0.25), 1, quantile(pizzapreis, 0.75), 10, border = "purple") text(quantile(pizzapreis, 0.25)+0.15, y = 11.5, labels= "Quartilsabstand", xpd = TRUE, col = "purple")

</R>

Automobilverkaufspreis

Von 74 verschiedenen Autotypen wurde der Verkaufspreis in US$ ermittelt.

Das Ergebnis ist als Plot der Merkmalsausprägungen (Dotplot) dargestellt. Die Merkmalsausprägungen sind bei diesem Plot auf einer Merkmalsachse abgetragen.

Zur besseren Veranschaulichung der Verteilung sind die Ausprägungen auf der vertikalen Achse zufällig gegeneinander verschoben.

Im oberen Dotplot sind Spannweite (grün), arithmetisches Mittel (schwarz) und empirische Standardabweichung (rot) eingezeichnet.

Im unteren Dotplot sind Spannweite (grün), Median (schwarz) und Quartilsabstand (magenta) eingezeichnet.

<R output="display">

pdf(rpdf, width=8, height=8) par(mfrow=c(2,1))

cars = readdataSK("CarData.csv", format="csv2")

cars8000 = subset(cars, Preis<8000)

index = sample(1:length(cars8000$Preis), length(cars8000$Preis), replace = FALSE)


      1. Erster Plot ###

plot(cars8000$Preis, index, xlab = "Preis", ylab = "",

    pch = 18, col = "blue", yaxt = "n", xlim = c(3000, 16000))
  1. Arithm. Mittel

lines(x = c(ave(cars8000$Preis)[length(cars8000$Preis)], ave(cars8000$Preis)[length(cars8000$Preis)]), y = c(1, length(cars8000$Preis)), lty=1, xaxs = "r", lwd = 3)

  1. Spannweite

rect(min(cars8000$Preis), 1, max(cars8000$Preis), length(cars8000$Preis), border = "green")

  1. Standardabweichung

rect(ave(cars8000$Preis)-sqrt(var(cars8000$Preis)), 1, ave(cars8000$Preis)+sqrt(var(cars8000$Preis)), length(cars8000$Preis), border = "red", lwd = 1)


lines(x = c(0, 20000), y = c(-75, -75), xpd = TRUE, lwd = 2)


      1. Zweiter Plot ###

plot(cars8000$Preis, index, xlab = "Preis", ylab = "",

    pch = 18, col = "blue", yaxt = "n", xlim = c(3000, 16000))
  1. Median

lines(x = c(median(cars8000$Preis), median(cars8000$Preis)), y = c(1, length(cars8000$Preis)), lty=1, xaxs = "r", col = "darkcyan", lwd = 3)

  1. Spannweite

rect(min(cars8000$Preis), 1, max(cars8000$Preis), length(cars8000$Preis), border = "green")

  1. Quantilsabstand

rect(quantile(cars8000$Preis, 0.25), 1, quantile(cars8000$Preis, 0.75), length(cars8000$Preis), border = "purple", lwd = 2)

</R>

arithmetisches Mittel: 4896,42
Median: 4672
Spannweite: 4536
Quartilsabstand: 1554,75
Standardabweichung: 991,24

Bei nochmaliger Durchsicht der Notierungen der Verkaufspreise ergab sich ein Übertragungsfehler in die Datei derart, dass für den maximalen Verkaufspreis fälschlicherweise 5799 US$ statt des richtigen Wertes von 15799 US$ eingetragen wurde.

Die folgenden Dotplots und statistischen Parameter berücksichtigen den korrigierten maximalen Verkaufspreis.

<R output="display">

pdf(rpdf,width=8, height=8) par(mfrow=c(2,1))

cars = readdataSK("CarData.csv", format="csv2")

cars8000 = subset(cars, Preis<8000)

  1. Ersetze Honda Accord Preis 5799 mit 15799

cars8001 = rbind(cars8000[c(1:26), c(1:2)], data.frame(Automarke="Honda Accord", Preis=15799), cars8000[c(28:60), c(1:2)])

index = sample(1:length(cars8001$Preis), length(cars8001$Preis), replace = FALSE)


      1. Erster Plot ###

plot(cars8001$Preis, index, xlab = "Preis", ylab = "",

    pch = 18, col = "blue", yaxt = "n", xlim = c(3000, 16000))
  1. Arithm. Mittel

lines(x = c(ave(cars8001$Preis)[length(cars8001$Preis)], ave(cars8001$Preis)[length(cars8001$Preis)]), y = c(1, length(cars8001$Preis)), lty=1, xaxs = "r", lwd = 3)

  1. Spannweite

rect(min(cars8001$Preis), 1, max(cars8001$Preis), length(cars8001$Preis), border = "green")

  1. Standardabweichung

rect(ave(cars8001$Preis)-sqrt(var(cars8001$Preis)), 1, ave(cars8001$Preis)+sqrt(var(cars8001$Preis)), length(cars8001$Preis), border = "red", lwd = 1)

lines(x = c(0, 20000), y = c(-75, -75), xpd = TRUE, lwd = 2)


      1. Zweiter Plot ###

plot(cars8001$Preis, index, xlab = "Preis", ylab = "",

    pch = 18, col = "blue", yaxt = "n", xlim = c(3000, 16000))
  1. Median

lines(x = c(median(cars8001$Preis), median(cars8001$Preis)), y = c(1, length(cars8001$Preis)), lty=1, xaxs = "r", col = "darkcyan", lwd = 3)

  1. Spannweite

rect(min(cars8001$Preis), 1, max(cars8001$Preis), length(cars8001$Preis), border = "green")

  1. Quantilsabstand

rect(quantile(cars8001$Preis, 0.25), 1, quantile(cars8001$Preis, 0.75), length(cars8001$Preis), border = "purple", lwd = 2)


</R>

arithmetisches Mittel: 5063,08
Median: 4672
Spannweite: 12508
Quartilsabstand: 1554,75
Standardabweichung: 1719,06

Es bedarf keines Kommentars, dass die Spannweite erheblich größer wird, denn sie beruht auf den beiden Extremwerten.

Der Quartilsabstand als robuster Streuungsparameter bleibt unberührt, da sich nicht die Anzahl der Verkaufspreise, sondern nur der maximale Verkaufspreis verändert hat.

Die empirische Standardabweichung hingegen ist deutlich größer geworden.

Die Ursache liegt darin, dass in ihre Berechnung alle Verkaufspreise eingehen und sie damit anfällig gegenüber extremen Merkmalswerten ist.

Nach einiger Zeit wurden die Verkaufspreise für die 74 Autotypen erneut erfasst. Das Ergebnis zeigen die nachstehende Grafik und Parameter.

<R output="display">

pdf(rpdf,width=8, height=8) par(mfrow=c(2,1))

cars = readdataSK("CarData.csv", format="csv2")

index = sample(1:length(cars$Preis), length(cars$Preis), replace = FALSE)


      1. Erster Plot ###

plot(cars$Preis, index, xlab = "Preis", ylab = "", pch = 18, col = "blue", yaxt = "n")

  1. Arithm. Mittel

lines(x = c(ave(cars$Preis)[length(cars$Preis)], ave(cars$Preis)[length(cars$Preis)]), y = c(1, length(cars$Preis)), lty=1, xaxs = "r", lwd = 3)

  1. Spannweite

rect(min(cars$Preis), 1, max(cars$Preis), length(cars$Preis), border = "green")

  1. Standardabweichung

rect(ave(cars$Preis)-sqrt(var(cars$Preis)), 1, ave(cars$Preis)+sqrt(var(cars$Preis)), length(cars$Preis), border = "red", lwd = 1)

lines(x = c(0, 20000), y = c(-75, -75), xpd = TRUE, lwd = 2)


      1. Erster Plot ###

plot(cars$Preis, index, xlab = "Preis", ylab = "", pch = 18, col = "blue", yaxt = "n")

  1. Median

lines(x = c(median(cars$Preis), median(cars$Preis)), y = c(1, length(cars$Preis)), lty=1, xaxs = "r", col = "darkcyan", lwd = 3)

  1. Spannweite

rect(min(cars$Preis), 1, max(cars$Preis), length(cars$Preis), border = "green")

  1. Quantilsabstand

rect(quantile(cars$Preis, 0.25), 1, quantile(cars$Preis, 0.75), length(cars$Preis), border = "purple", lwd = 2)

</R>

arithmetisches Mittel: 6165,26
Median: 5006,5
Spannweite: 12615
Quartilsabstand: 2112
Standardabweichung: 2949,5

Nunmehr gibt es nicht nur einen extrem großen Verkaufspreis, sondern einige größere Beobachtungswerte, die sich deutlich von der Masse der Beobachtungswerte abheben.

Die Verkaufspreise weisen eine schiefe Verteilung auf, und zwar wegen der extrem großen Werte eine rechtsschiefe Verteilung.

Kennzeichnend für eine schiefe Verteilung ist, dass im allgemeinen die empirische Standardabweichung größer ist als der Quartilsabstand, was in diesem Beispiel gegeben ist.