Varianz und Standardabweichung (empirisch)
Aus MM*Stat
Grundbegriffe
Mittlere quadratische Abweichung
Die quadratischen Abweichungen der Beobachtungswerte von einem bestimmten Bezugspunkt heißt mittlere quadratische Abweichung (MQ).
Der Bezugspunkt kann einem beliebigen Wert auf der Merkmalsachse entsprechen.
Empirische Varianz
Bei Verwendung des arithmetischen Mittels als Bezugspunkt hat die mittlere quadratische Abweichung einen speziellen Namen erhalten: empirische Varianz.
Die empirische Varianz für die beobachteten Werte eines Merkmals wird im weiteren mit bezeichnet.
Empirische Standardabweichung
Die empirische Standardabweichung entspricht der positiven Quadratwurzel aus der empirische Varianz.
Empirischer Variationskoeffizient
Sollen die empirischen Standardabweichungen verschiedener Verteilungsfunktionen miteinander verglichen werden, wird ein (auf das arithmetische Mittel bezogenes) relatives Streuungsmaß, der empirische Variationskoeffizient verwendet.
Der empirische Variationskoeffizient weist keine Maßeinheit auf.
Empirischer Quartilsdispersionskoeffizient
Dividiert man den Interquartilsabstand durch den Median, so erhält man eine robuste Version des empirischen Variationskoeffizienten
Diesen bezeichnet man auch als empirischen Quartilsdispersionskoeffizienten.
Zusatzinformationen
Wertebereich
Die empirische Varianz (und damit die empirische Standardabweichung ) ist stets größer oder gleich Null.
Nimmt sie den Wert an, so weist das beobachtete Merkmal keine Streuung auf und alle Beobachtungswerte haben den gleichen numerischen Wert.
Beziehung zwischen mittlerer quadratischer Abweichung und Varianz
Die auf das arithmetische Mittel bezogene mittlere quadratische Abweichung (d.h. die empirische Varianz) ist kleiner als jede auf einen verschiedenen Wert bezogene mittlere quadratische Abweichung.
Dies lässt sich anhand des Verschiebungssatzes zeigen, der eine Beziehung zwischen der mittleren quadratischen Abweichung in bezug auf und der empirischen Varianz beinhaltet:
Nunmehr ist sofort ersichtlich, dass nur im Falle die mittlere quadratische Abweichung mit der empirischen Varianz identisch und in allen anderen Fällen größer als die empirische Varianz ist.
Lineare Transformation
Standardisierung
, mit und
Gepoolter Datensatz
Sind die Beobachtungswerte in Gruppen unterteilt und sind für jede Gruppe das arithmetische Mittel und die empirische Varianz bekannt, dann kann die empirische Varianz für alle Beobachtungswerte mit der folgenden Formel berechnet werden:
arithmetische Mittel der einzelnen Gruppen | |
empirische Varianzen der einzelnen Gruppen | |
Anzahl der Beobachtungen in den einzelnen Gruppen und, | |
Streuungszerlegung
Wie die obige Formel zeigt, wird die empirische Varianz in zwei Komponenten zerlegt.
gesamte empirische Varianz = empirische Varianz innerhalb der Teilmassen + empirische Varianz zwischen den Teilmassen
Beispiele
Mittlere quadratische Abweichung und Varianz
Beobachtungswerte:
Anwendung des Variationskoeffizienten
Die Berechnung der Mittelwerte und empirischen Standardabweichungen zweier Beobachtungsreihen habe folgende Werte ergeben:
Ein Vergleich auf Grundlage der beiden empirischen Standardabweichungen führt zu der Feststellung, dass die Streuung in der zweiten Beobachtungsreihe dreimal höher ist, als die der Beobachtungsreihe eins.
Da jedoch beide Beobachtungsreihen unterschiedliche Mittelwerte besitzen, muss der Variationskoeffizient zum Vergleich herangezogen werden:
Die relative Streuung beider Beobachtungsreihen ist gleich groß.
Pizzapreis
In 20 Supermärkten Berlins wurden die Verkaufspreise (in Euro) für Pizzen der Marke Dr. O. ermittelt:
- Der Durchschnittspreis für eine Pizza in den 20 Supermärkten beträgt Euro (= arithmetisches Mittel)
- Der mittlere Preis der der Größe nach geordneten Reihe von Preisen beträgt Euro (= Median)
- Zwischen teuerstem und preiswertestem Anbieter liegen Euro (= Spannweite)
- Im Mittel streuen die einzelnen Verkaufspreise Euro (= Mittlere quadratische Abweichung (MAD) um den Durchschnittspreis und Euro (= MAD) um den Median-Preis.
- 50% aller Pizzapreise liegen im Bereich zwischen Euro (Quartil ) und Euro (Quartil ), was einem Bereich von Euro (= Quartilsabstand) entspricht.
- Die mittlere quadratische Abweichung der Preise vom Durchschnittspreis beträgt (= empirische Varianz), und die Wurzel aus dieser beträgt Euro (= empirische Standardabweichung).
Automobilverkaufspreis
Von 74 verschiedenen Autotypen wurde der Verkaufspreis in US$ ermittelt.
Das Ergebnis ist als Plot der Merkmalsausprägungen (Dotplot) dargestellt. Die Merkmalsausprägungen sind bei diesem Plot auf einer Merkmalsachse abgetragen.
Zur besseren Veranschaulichung der Verteilung sind die Ausprägungen auf der vertikalen Achse zufällig gegeneinander verschoben.
Im oberen Dotplot sind Spannweite (grün), arithmetisches Mittel (schwarz) und empirische Standardabweichung (rot) eingezeichnet.
Im unteren Dotplot sind Spannweite (grün), Median (schwarz) und Quartilsabstand (magenta) eingezeichnet.
Arithmetisches Mittel: | 4896,42 |
Median: | 4672,00 |
Spannweite: | 4536,00 |
Quartilsabstand: | 1554,75 |
Standardabweichung: | 991,24 |
Bei nochmaliger Durchsicht der Notierungen der Verkaufspreise ergab sich ein Übertragungsfehler in die Datei derart, dass für den maximalen Verkaufspreis fälschlicherweise 5799 US$ statt des richtigen Wertes von 15799 US$ eingetragen wurde.
Die folgenden Dotplots und statistischen Parameter berücksichtigen den korrigierten maximalen Verkaufspreis.
Arithmetisches Mittel: | 5063,08 |
Median: | 4672,00 |
Spannweite: | 12508,00 |
Quartilsabstand: | 1554,75 |
Standardabweichung: | 1719,06 |
Es bedarf keines Kommentars, dass die Spannweite erheblich größer wird, denn sie beruht auf den beiden Extremwerten.
Der Quartilsabstand als robuster Streuungsparameter bleibt unberührt, da sich nicht die Anzahl der Verkaufspreise, sondern nur der maximale Verkaufspreis verändert hat.
Die empirische Standardabweichung hingegen ist deutlich größer geworden.
Die Ursache liegt darin, dass in ihre Berechnung alle Verkaufspreise eingehen und sie damit anfällig gegenüber extremen Merkmalswerten ist.
Nach einiger Zeit wurden die Verkaufspreise für die 74 Autotypen erneut erfasst. Das Ergebnis zeigen die nachstehende Grafik und Parameter.
Arithmetisches Mittel: | 6165,26 |
Median: | 5006,50 |
Spannweite: | 12615,00 |
Quartilsabstand: | 2112,00 |
Standardabweichung: | 2949,50 |
Nunmehr gibt es nicht nur einen extrem großen Verkaufspreis, sondern einige größere Beobachtungswerte, die sich deutlich von der Masse der Beobachtungswerte abheben.
Die Verkaufspreise weisen eine schiefe Verteilung auf, und zwar wegen der extrem großen Werte eine rechtsschiefe Verteilung.
Kennzeichnend für eine schiefe Verteilung ist, dass im allgemeinen die empirische Standardabweichung größer ist als der Quartilsabstand, was in diesem Beispiel gegeben ist.