Bravais–Pearson–Korrelationskoeffizient: Unterschied zwischen den Versionen

Aus MM*Stat

Wechseln zu: Navigation, Suche
(Korrelation oder linearer Zusammenhang)
(Korrelation oder linearer Zusammenhang)
 
Zeile 61: Zeile 61:
  
 
<hr><p>
 
<hr><p>
Variieren Sie den Bravais-Pearson-Korrelationskoeffizient <math>r_xy<math> und den Beobachtungsumfang <math>n</math> um sich verschiedene Punktwolken für verschieden starke Korrelationen anschauen.</p>
+
Variieren Sie den Bravais-Pearson-Korrelationskoeffizient <math>r_xy</math> und den Beobachtungsumfang <math>n</math> um sich verschiedene Punktwolken für verschieden starke Korrelationen anschauen.</p>
 
<iframe k="wiwi" p="app/correlation" />
 
<iframe k="wiwi" p="app/correlation" />
  

Aktuelle Version vom 11. April 2019, 10:52 Uhr

Bivariate Statistik

Zweidimensionale Häufigkeitsverteilung • Graphische Darstellung zweidimensionaler Verteilungen • Randverteilungen, Bedingte Verteilungen • Parameter zweidimensionaler Verteilungen (empirisch) • Kontingenz • Spearman'scher Rangkorrelationskoeffizient • Kendall'scher Rangkorrelationskoeffizient • Kovarianz (empirisch) • Bravais–Pearson–Korrelationskoeffizient • Multiple Choice • Video • Aufgaben • Lösungen
3D-Balkendiagramm • 3D-Scatterplot • Absolute Häufigkeit (zweidimensional) • Ausprägungskombination • Bedingte Verteilung (empirisch) • Bindung • Chi-Quadrat-Koeffizient • Diskordante Merkmalspaare • Gegensinnige Merkmalspaare • Gemeinsame Variation • Gleichsinnige Merkmalspaare • Gruppiertes Balkendiagramm • Häufigkeitstabelle (zweidimensional) • Konditionale Verteilung • Konkordante Merkmalspaare • Kontingenzkoeffizient • Kontingenztabelle • Korrelation • Korrelationskoeffizient (empirisch) • Korrelationskoeffizient (nach Bravais-Pearson) • Korrigierter Kontingenzkoeffizient • Kreuztabelle • linearer Zusammenhang • Marginale Verteilung (empirisch) • Parameter (emp. Randverteilung) • Parameter (emp. bedingte Verteilung) • Quadratische Kontingenz • Randverteilung (empirisch) • Relative Häufigkeit (zweidimensional) • Scatterplot • Scatterplot-Matrix • Streuungsdiagramm • Unabhängigkeit (empirisch) • Unabhängigkeit (statistisch) • Variation (Streuung)

Grundbegriffe

Variation (Streuung)

Unter Variation im Sinne der Streuungsbetrachtung wird die Abweichnung der Merkmalsausprägungen von ihrem arithmetischen Mittel betrachtet.

Gemeinsame Variation

Die Merkmalswerte werden in einem ersten Schritt zentriert:

{x_{i}^*}=x_{i}-\bar{x}

{y_{i}^*}=y_{i}-\bar{y}

Die gemeinsame Variation beider Merkmale ergibt sich als Produkt der Abweichungen der Beobachtungen vom arithmetischen Mittel (vgl. auch Berechnung der empirischen Kovarianz):

\sum_{i=1}^{n} {x_{i}^*}{y_{i}^*}=\sum_{k=1}^{n}(x_{i}-\bar{x})(y_{i}- \bar{y})

Bravais-Pearson-Korrelationskoeffizient oder empirischer Korrelationskoeffizient

Die Stärke des Zusammenhanges zwischen zwei metrisch skalierten Merkmalen X\; und Y\; wird durch die gemeinsame Variation der beiden Merkmale bestimmt.

Das Ausmaß der gemeinsamen Variation wird stark von der Maßeinheit der Merkmale und der Anzahl der Beobachtungen beeinflusst

So beträgt beispielsweise das arithmetische Mittel des einen Merkmals 8 und der Beobachtungswert 10, das arithmetische Mittel des anderen Merkmals 1008 und der Beobachtungswert 1260.

Obwohl die Abweichung des ersten Wertes 2 und des zweiten Wertes dagegen 252 beträgt, ist die relative Abweichung vom arithmetischen Mittel bei beiden gleich 25%.

Um vergleichbare Abweichungen der Merkmale zu erreichen, wird eine Standardisierung der gemeinsamen Variation vorgenommen:

\frac{x_{i}-\bar{x}}{s_{x}}, \quad \frac{y_{i}-\bar{y}}{s_{y}}, wobei s_x und s_y die empirischen Standardabweichungen von X\; und Y\; bezeichnen.

Die Gleichung der gemeinsamen Variation verändert sich dadurch zu:

\sum_{i=1}^{n}\frac{(x_{i}-\bar{x})}{s_{x}}\cdot\frac{(y_{i}-\bar{y})}{s_{y}}

Diese Produktsumme wird abschließend durch die Anzahl der Beobachtungen dividiert, um deren Einfluss zu eliminieren.

Damit ergibt sich der Bravais-Pearson-Korrelationskoeffizient, der es erlaubt, die Stärke des linearen Zusammenhanges zwischen zwei metrisch skalierten Merkmalen X\; und Y\; zu messen:

r_{xy}=r_{yx}=\frac{\sum_{i=1}^{n}\limits(x_{i}-\bar{x})\cdot(y_{i}-\bar{y})}{n\cdot s_{x}\cdot s_{y}}=\frac{s_{xy}}{s_{x}\cdot s_{y}}

Wie die Vereinfachung der obigen Gleichung zeigt, entspricht der Bravais-Pearson-Korrelationskoeffizient der gemeinsamen Streuung der beiden Merkmale X\; und Y\; (= empirische Kovarianz) normiert auf das Produkt der Einzelstreuung (= empirische Standardabweichung) der Merkmale.

Der Bravais-Pearson-Korrelationskoeffizient lässt sich auch in der folgenden Form darstellen

r_{xy}=\frac{\sum_{i=1}^{n}\limits(x_{i}-\bar{x})\cdot(y_{i}-\bar{y})}{\sqrt{\sum_{i=1}^{n}\limits(x_{i}-\bar{x})^{2}\cdot\sum_{i=1}^{n}\limits(y_{i}-\bar{y})^{2}}}

r_{xy}=\frac{n\cdot\sum_{i=1}^{n}\limits x_{i}\cdot y_{i}-\sum_{i=1}^{n}\limits x_{i}\cdot\sum_{i=1}^{n}\limits y_{i}}{\sqrt{\left[ n\cdot\sum_{i=1}^{n}\limits{x_{i}}^{2}-{\left( \sum_{i=1}^{n}\limits x_{i}\right) }^{2}\right]\cdot\left[ n\cdot\sum_{i=1}^{n}\limits{y_{i}}^{2}-{\left(\sum_{i=1}^{n}\limits y_{i}\right) }^{2}\right] }}

Korrelation oder linearer Zusammenhang

Man unterscheidet grob folgenden Typen von Korrelationen:

  • Perfekte Korrelation (|r_{xy}| = 1)
  • Starke Korrelation (|r_{xy}| > 0,5)
  • Schwache Korrelation (|r_{xy}| < 0,5)
  • Keine Korrelation (r_{xy} = 0) (die entspricht "im Allgemeinen" einer kreisähnlichen Form der Punktwolke).

Variieren Sie den Bravais-Pearson-Korrelationskoeffizient r_xy und den Beobachtungsumfang n um sich verschiedene Punktwolken für verschieden starke Korrelationen anschauen.

Zusatzinformationen

Interpretation der Werte

Unabhängigkeit

Sind die Merkmale X\; und Y\; voneinander unabhängig, nimmt der Korrelationskoeffizient den Wert 0 an.

Beispiele

Jahresgewinn und Jahresmiete

An n = 15 Unternehmen wurden die Merkmale Y\; - Jahresgewinn (in Mio. €) und X\; - Jahresmiete für die EDV-Anlage (in 1000 €) beobachtet, deren Merkmalswerte in der folgenden Tabelle enthalten sind und in dem nachstehenden Scatterplot grafisch veranschaulicht werden.

Unternehmen Jahresgewinn in Mio. € Jahresmiete in 1000 €
i y_{i} x_{i}
1 10 30
2 15 30
3 15 100
4 20 50
5 20 100
6 25 80
7 30 50
8 30 100
9 30 250
10 35 180
11 35 330
12 40 200
13 45 400
14 50 500
15 50 600


Aus den Beobachtungswerten ergeben sich folgende Ergebnisse:

\overline{y}=30, \sum_{i=1}^{15}\limits(y_{i}-\overline{y})^{2}=2250
\overline{x}=200, \sum_{i=1}^{15}\limits(x_{i}-\overline{x})^{2}=457000

\sum_{i=1}^{15}\limits(x_{i}-\overline{x})\cdot(y_{i}-\overline{y})=28100

r_{xy}=\frac{28100}{\sqrt{457000\cdot 2250}}=0,8763

Der Korrelationskoeffizient beträgt für dieses Beispiel 0,8763. Er weist damit auf einen starken linearen Zusammenhang hin.

Mordrate und Bevölkerungsgröße

In den U.S.A. wurden 1985 verschiedene Kriminalitätsraten für 50 Bundesstaaten ermittelt, darunter auch die "Mordrate" und die jeweilige "Bevölkerungsgröße".

Der Zusammenhang zwischen der Mordrate und der Größe der Bevölkerung kann grafisch in einem Scatterplot sichtbar gemacht werden:


Summe der Abweichungsprodukte zwischen "Bevölkerungsgröße" und "Mordrate":

\sum (x_{i}-\bar{x})\cdot(y_{i}-\bar{y})=260121,05

Summe der quadratischen Abweichungen bei "Bevölkerungsgröße":

\sum(x_{i}-\bar{x})^{2}=1259033421,62

Summe der quadratischen Abweichungen bei "Mordrate":

\sum(y_{i}-\bar{y})^{2}=725,54

Der Korrelationskoeffizient ergibt sich damit als:

r=\frac{260121,05}{\sqrt{1259033421,62\cdot725,54}}=0,27

Der Korrelationskoeffizient von 0,27 weist auf einen nur geringen positiven linearen Zusammenhang hin.