Bravais–Pearson–Korrelationskoeffizient
Aus MM*Stat
Grundbegriffe
Variation (Streuung)
Unter Variation im Sinne der Streuungsbetrachtung wird die Abweichnung der Merkmalsausprägungen von ihrem arithmetischen Mittel betrachtet.
Gemeinsame Variation
Die Merkmalswerte werden in einem ersten Schritt zentriert:
Die gemeinsame Variation beider Merkmale ergibt sich als Produkt der Abweichungen der Beobachtungen vom arithmetischen Mittel (vgl. auch Berechnung der empirischen Kovarianz):
Bravais-Pearson-Korrelationskoeffizient oder empirischer Korrelationskoeffizient
Die Stärke des Zusammenhanges zwischen zwei metrisch skalierten Merkmalen und wird durch die gemeinsame Variation der beiden Merkmale bestimmt.
Das Ausmaß der gemeinsamen Variation wird stark von der Maßeinheit der Merkmale und der Anzahl der Beobachtungen beeinflusst
So beträgt beispielsweise das arithmetische Mittel des einen Merkmals und der Beobachtungswert , das arithmetische Mittel des anderen Merkmals und der Beobachtungswert .
Obwohl die Abweichung des ersten Wertes 2 und des zweiten Wertes dagegen 252 beträgt, ist die relative Abweichung vom arithmetischen Mittel bei beiden gleich 25%.
Um vergleichbare Abweichungen der Merkmale zu erreichen, wird eine Standardisierung der gemeinsamen Variation vorgenommen:
, wobei und die empirischen Standardabweichungen von und bezeichnen.
Die Gleichung der gemeinsamen Variation verändert sich dadurch zu:
Diese Produktsumme wird abschließend durch die Anzahl der Beobachtungen dividiert, um deren Einfluss zu eliminieren.
Damit ergibt sich der Bravais-Pearson-Korrelationskoeffizient, der es erlaubt, die Stärke des linearen Zusammenhanges zwischen zwei metrisch skalierten Merkmalen und zu messen:
Wie die Vereinfachung der obigen Gleichung zeigt, entspricht der Bravais-Pearson-Korrelationskoeffizient der gemeinsamen Streuung der beiden Merkmale und (= empirische Kovarianz) normiert auf das Produkt der Einzelstreuung (= empirische Standardabweichung) der Merkmale.
Der Bravais-Pearson-Korrelationskoeffizient lässt sich auch in der folgenden Form darstellen
Korrelation oder linearer Zusammenhang
Man unterscheidet grob folgenden Typen von Korrelationen:
- Perfekte Korrelation
- Starke Korrelation
- Schwache Korrelation
- Keine Korrelation (die entspricht "im Allgemeinen" einer kreisähnlichen Form der Punktwolke).
Zusatzinformationen
Interpretation der Werte
- Der Korrelationskoeffizient nimmt nur Werte zwischen und an:
- Das Vorzeichen des Korrelationskoeffizient gibt Auskunft über die Richtung des Zusammenhanges
- "" entspricht einer positiven Korrelation (Proportionalität in der Streuung)
- "" entspricht einer negativen Korrelation (umgekehrte Proportionalität in der Streuung)
- Liegen alle Beobachtungswerte auf einer Geraden, so ist der Betrag des Korrelationskoeffizient 1 (also ). Je mehr sich der Betrag des Korrelationskoeffizient dem Wert nähert, desto ausgeprägter ist ein linearer Zusammenhang zwischen den Merkmalen und (analog umgekehrt).
- Ein Korrelationskoeffizient von bedeutet demgegenüber nur, dass kein linearer Zusammenhang zwischen den Merkmalen und existiert. Es ist aber durchaus möglich, das zwischen beiden Merkmalen ein ausgeprägter nichtlinearer Zusammenhang besteht.
- Die Richtung der Beeinflussung hat keinen Einfluss auf den Wert des Korrelationskoeffizienten:
Unabhängigkeit
Sind die Merkmale und voneinander unabhängig, nimmt der Korrelationskoeffizient den Wert an.
Beispiele
Jahresgewinn und Jahresmiete
An Unternehmen wurden die Merkmale - Jahresgewinn (in Mio. €) und - Jahresmiete für die EDV-Anlage (in 1000 €) beobachtet, deren Merkmalswerte in der folgenden Tabelle enthalten sind und in dem nachstehenden Scatterplot grafisch veranschaulicht werden.
Unternehmen | Jahresgewinn in Mio. € | Jahresmiete in 1000 € |
1 | 10 | 30 |
2 | 15 | 30 |
3 | 15 | 100 |
4 | 20 | 50 |
5 | 20 | 100 |
6 | 25 | 80 |
7 | 30 | 50 |
8 | 30 | 100 |
9 | 30 | 250 |
10 | 35 | 180 |
11 | 35 | 330 |
12 | 40 | 200 |
13 | 45 | 400 |
14 | 50 | 500 |
15 | 50 | 600 |
Aus den Beobachtungswerten ergeben sich folgende Ergebnisse:
Der Korrelationskoeffizient beträgt für dieses Beispiel 0,8763. Er weist damit auf einen starken linearen Zusammenhang hin.
Mordrate und Bevölkerungsgröße
In den U.S.A. wurden 1985 verschiedene Kriminalitätsraten für 50 Bundesstaaten ermittelt, darunter auch die "Mordrate" und die jeweilige "Bevölkerungsgröße".
Der Zusammenhang zwischen der Mordrate und der Größe der Bevölkerung kann grafisch in einem Scatterplot sichtbar gemacht werden:
Summe der Abweichungsprodukte zwischen "Bevölkerungsgröße" und "Mordrate":
Summe der quadratischen Abweichungen bei "Bevölkerungsgröße":
Summe der quadratischen Abweichungen bei "Mordrate":
Der Korrelationskoeffizient ergibt sich damit als:
Der Korrelationskoeffizient von 0,27 weist auf einen nur geringen positiven linearen Zusammenhang hin.