Kovarianz (empirisch): Unterschied zwischen den Versionen

Aus MM*Stat

Wechseln zu: Navigation, Suche
(Die Seite wurde neu angelegt: „{{Bivariate Statistik}} =={{Vorlage:Überschrift}}== ===(Empirische) Kovarianz=== Die ''empirische Kovarianz'' oder auch kurz ''Kovarianz'' ist ein speziel…“)
(kein Unterschied)

Version vom 14. Mai 2018, 22:46 Uhr

Bivariate Statistik

Zweidimensionale Häufigkeitsverteilung • Graphische Darstellung zweidimensionaler Verteilungen • Randverteilungen, Bedingte Verteilungen • Parameter zweidimensionaler Verteilungen (empirisch) • Kontingenz • Spearman'scher Rangkorrelationskoeffizient • Kendall'scher Rangkorrelationskoeffizient • Kovarianz (empirisch) • Bravais–Pearson–Korrelationskoeffizient • Multiple Choice • Video • Aufgaben • Lösungen
3D-Balkendiagramm • 3D-Scatterplot • Absolute Häufigkeit (zweidimensional) • Ausprägungskombination • Bedingte Verteilung (empirisch) • Bindung • Chi-Quadrat-Koeffizient • Diskordante Merkmalspaare • Gegensinnige Merkmalspaare • Gemeinsame Variation • Gleichsinnige Merkmalspaare • Gruppiertes Balkendiagramm • Häufigkeitstabelle (zweidimensional) • Konditionale Verteilung • Konkordante Merkmalspaare • Kontingenzkoeffizient • Kontingenztabelle • Korrelation • Korrelationskoeffizient (empirisch) • Korrelationskoeffizient (nach Bravais-Pearson) • Korrigierter Kontingenzkoeffizient • Kreuztabelle • linearer Zusammenhang • Marginale Verteilung (empirisch) • Parameter (emp. Randverteilung) • Parameter (emp. bedingte Verteilung) • Quadratische Kontingenz • Randverteilung (empirisch) • Relative Häufigkeit (zweidimensional) • Scatterplot • Scatterplot-Matrix • Streuungsdiagramm • Unabhängigkeit (empirisch) • Unabhängigkeit (statistisch) • Variation (Streuung)


Grundbegriffe

(Empirische) Kovarianz

Die empirische Kovarianz oder auch kurz Kovarianz ist ein spezieller Parameter für zweidimensionale Häufigkeitsverteilungen, der die gemeinsame Variabilität zweier metrisch skalierter Merkmale X und Y misst.

Die Kovarianz wird kaum als eigenständiger Parameter verwendet. Sie dient vielmehr als Hilfsgröße, die zur Berechnung anderer Parameter gebraucht wird (vgl. Bravais–Pearson–Korrelationskoeffizient).

Für eine zweidimensionale Häufigkeitsverteilung mit den absoluten Häufigkeiten h(x_{i};y_{j}) bzw. den relativen Häufigkeiten f(x_{i};y_{j}) \ \mbox{mit} \ i=1,\ldots , m, j=1,\ldots ,r berechnet sich die Kovarianz wie folgt:

Cov(X,Y) = s_{xy} \; ={\frac{1}{n\cdot(n-1)}}\cdot\sum_{i=1}^{m}\sum_{j=1}^{r}(x_{i}-\bar{x})\cdot(y_{j}-\bar{y})\cdot h_{ij}
={\frac{1}{n-1}}\sum_{i=1}^{m}\cdot\sum_{j=1}^{r}(x_{i}-\bar{x})\cdot(y_{j}-\bar{y})\cdot f_{ij}

Im Gegensatz zur empirischen Varianz kann die Kovarianz auch negative Werte annehmen.

Zusatzinformationen

Kovarianz bei Unabhängigkeit

Sind die Merkmale X\; und Y\; voneinander unabhängig, besteht also zwischen den Merkmalen X\; und Y\; kein Zusammenhang, nimmt die Kovarianz den Wert Null an.

Es gilt: Cov(X,Y)=s_{xy}=0

Beweis:

\,s_{xy} =\sum_{i=1}^{m}\sum_{j=1}^{r}(x_{i}-E(x))\cdot(y_{j}-E(y))\cdot p_{ij}
=\sum_{i=1}^{m}\sum_{j=1}^{r}(x_{i}-E(x))(y_{j}-E(y))\cdot p_{i}\cdot p_{j}
=\left( \sum_{i=1}^{m}(x_{i}-E(x))\cdot p_{i}\right)\cdot \left( \sum_{j=1}^{r}(y_{j}-E(y))\cdot p_{j}\right)
=\left( \sum_{i=1}^{m}x_{i}p_{i}-E(x)\cdot\sum_{i=1}^{m}p_{i}\right)\cdot \left(\sum_{j=1}^{r}y_{j}p_{j}-E(y)\cdot\sum_{j=1}^{r}p_{j}\right)
\,=\left(E(x)-E(x)\right)\cdot\left(E(y)-E(y)\right)=0

Die Umkehrung dieses Satzes gilt nicht zwangsläufig. Das heißt, wenn die Kovarianz zwischen den Merkmalen X\; und Y\; Null ist, kann nicht unbedingt daraus geschlossen werden, dass sie unabhängig sind.

Kovarianz und Varianz

Die empirische Kovarianz eines Merkmals mit sich selbst entspricht der empirischen Varianz dieses Merkmals s_{x}^{2}=s_{xx}=Cov(X,X)

Lineare Transformation

S=a+bX,\quad T= c+dY

Cov(S,T)=Cov(a+bX,c+dY)=b\cdot d\cdot Cov(X,Y)

Beispiele

Gewinn und Miete

An n = 15 Unternehmen wurden die Merkmale Y\; - Jahresgewinn (in Mio. €) und X\; - Jahresmiete für die EDV-Anlage (in 1000 €) beobachtet, deren Merkmalswerte in den Spalten 2 und 3 der folgenden Tabelle enthalten sind.

Unternehmen Jahresgewinn in Mio. € Jahresmiete in 1000 €
\,i \,y_{i} \,x_{i} (y_{i}-\bar{y}) (x_{i}-\bar{x}) (y_{i}-\bar{y})\cdot(x_{i}-\bar{x})
1 10 30 -20 -170 3400
2 15 30 -15 -170 2550
3 15 100 -15 -100 1500
4 20 50 -10 -150 1500
5 20 100 -10 -100 1000
6 25 80 -5 -120 600
7 30 50 0 -150 0
8 30 100 0 -100 0
9 30 250 0 50 0
10 35 180 5 -20 -100
11 35 330 5 130 650
12 40 200 10 0 0
13 45 400 15 200 3000
14 50 500 20 300 6000
15 50 600 20 400 8000

Wie groß ist die gemeinsame Variabilität der Merkmale X\; und Y\; bei diesen 15 Unternehmen?

Die arithmetischen Mittel der Merkmale sind:

\bar{y}=30 (Mio. €)

\bar{x}=200 (1000 €)

Die Abweichungen der Merkmalswerte des Merkmals Y\; vom arithmetischen Mittel \bar{Y} enthält die Spalte 4 der Tabelle.

Die Abweichungen der Merkmalswerte von X\; vom arithmetischen Mittel \bar{X} sind in Spalte 5 angegeben.

Die Kovarianz errechnet sich nach der Formel

\,Cov(X,Y)  =  s_{XY} \,={\frac{1}{n-1}}\cdot\sum_{i=1}^{m}\sum_{j=1}^{r}(x_{i}-\bar{x})\cdot(y_{j}-\bar{y})\cdot h_{ij}
={\sum_{i=1}^{m}}\sum_{j=1}^{r}(x_{i}-\bar{x})\cdot(y_{i}-\bar{y})\cdot f_{ij}

Die Abweichungsprodukte für jedes Unternehmen enthält die Spalte 6 der Tabelle.

Die Summe der Werte in dieser Spalte, dividiert durch n = 15, ist die gesuchte Kovarianz:

\,Cov(X,Y)=s_{XY} = \frac{28100}{15}=1873,33.