Stochastische Unabhängigkeit

Anhand des Multiplikationssatzes für unabhängige Ereignisse lässt sich die stochastische Unabhängigkeit von zwei Zufallsvariablen $X$ und $Y$ definieren.

Sind zwei Ereignisse $A$ und $B$ unabhängig, dann ergibt sich die Wahrscheinlichkeit für das gemeinsame Eintreten der Ereignisse $A$ und $B$ als Produkt der beiden Einzelwahrscheinlichkeiten:

$P(A\cap B)=P(A)\cdot P(B)$

Mit $A=\{X=x_{i}\}$ und $B=\{Y=y_{j}\}$ lässt sich unmittelbar die Unabhängigkeit zweier diskreter Zufallsvariablen $X$ und $Y$ definieren.

Gilt für die gemeinsame Verteilung von $X$ und $Y$ die Beziehung

$P(X=x_{i},Y=y_{j})=P(X=x_{i})\cdot P(Y=y_{j})$

bzw.

$f(x_{i},y_{j})=f(x_{i})\cdot f(y_{j})$

für alle Paare $(x_{i},y_{j})$ von Ausprägungen der Zufallsvariablen $X$ und $Y$ , dann sind $X$ und $Y$ stochastisch unabhängig.

Gilt für mindestens ein Paar $(x_{i},y_{j})$ diese Beziehung nicht, so sind die beiden Zufallsvariablen voneinander abhängig.

Analog folgt für zwei stetige Zufallsvariablen $X$ und $Y$ :

Sind $f(x)$ und $f(y)$ die Dichtefunktionen der Zufallsvariablen $X$ und $Y$ und gilt für alle Paare $(x,\;y)$ von reellen Zahlen die Beziehung

$f(x,y)=f(x)\cdot f(y)$ ,

dann sind $X$ und $Y$ stochastisch unabhängig.

Beispiele

Wirtschaftliche Lage

1991 wurde 3000 Bürgern der Bundesrepublik Deutschland mit einem Alter von mindestens 18 Jahren zum Befragungszeitpunkt die folgende Frage gestellt:

"Wie beurteilen Sie die heutige wirtschaftliche Lage in Deutschland ?"

Die Einschätzungen konnten die Befragten auf einer fünfteiligen Skala vornehmen:

1 - sehr gut, 2 - gut, 3 - teils gut/teils schlecht, 4 - schlecht, 5 - sehr schlecht.

Der Inhalt dieser Frage wird als Zufallsvariable $X$ : "Gegenwärtige Wirtschaftslage" definiert, die die genannten 5 möglichen Realisationen annehmen kann.

Darüber hinaus wurde erfasst, ob die befragte Person aus den alten Bundesländern (einschließlich West - Berlin) oder aus den neuen Bundesländern (einschließlich Ost - Berlin) stammt.

Dies sei die Zufallsvariable $Y$ : "Erhebungsgebiet" mit den möglichen Realisationen $y_{1}$ = "West" und $y_{2}$ = "Ost".

Die beobachtete gemeinsame Wahrscheinlichkeitsverteilung der beiden Zufallsvariablen enthält die Tabelle 1.

Von besonderem Interesse bei dieser Befragung ist, ob die Einschätzungen bezüglich der gegenwärtigen Wirtschaftslage unabhängig vom Erhebungsgebiet erfolgte.

Deshalb sind in der Tabelle 1 außerdem die Wahrscheinlichkeiten enthalten, die sich bei Unabhängigkeit der beiden Zufallsvariablen ergeben würden, d.h. $f(x_{i},y_{j})=f(x_{i})\cdot f(y_{j})$ , die mit "erwartet" bezeichnet sind.

Tabelle 1: Gegenwärtige Wirtschaftslage $(X)$ und Erhebungsgebiet $(Y)$ , Befragung 1991

Gegenwärtige Wirtschaftslage $X$		Erhebungsgebiet $Y$		RV $X$
Gegenwärtige Wirtschaftslage $X$		West	Ost	RV $X$
sehr gut	beobachtet	0,072	0,056	0,128
sehr gut	erwartet	0,063	0,065
gut	beobachtet	0,257	0,204	0,461
gut	erwartet	0,228	0,233
teils/teils	beobachtet	0,151	0,227	0,378
teils/teils	erwartet	0,187	0,191
schlecht	beobachtet	0,012	0,014	0,026
schlecht	erwartet	0,013	0,013
sehr schlecht	beobachtet	0,002	0,005	0,007
sehr schlecht	erwartet	0,003	0,004
RV $Y$		0,494	0,506	1,000

Die folgende Abbildung zeigt die grafische Darstellung der zweidimensionalen Wahrscheinlichkeitsfunktion der beiden Zufallsvariablen (beobachtete Werte).

pdf(rpdf, width=7, height=7) library(RColorBrewer) library(lattice) library(latticeExtra)

data <- read.table(text='Wirtschaftslage P Erhebungsgebiet

                  "(x1) sehr gut"  0.072  "West"
                  "(x2) gut"  0.257  "West"
                  "(x3) teils/teils"  0.151  "West"
                  "(x4) schlecht"  0.012  "West"
                  "(x5) sehr schlecht"  0.002  "West"
                  "(x1) sehr gut"  0.056  "Ost"
                  "(x2) gut"  0.204  "Ost"
                  "(x3) teils/teils"  0.227  "Ost"
                  "(x4) schlecht"  0.014  "Ost"
                  "(x5) sehr schlecht"  0.005  "Ost"
                   ',header=TRUE)

colors <- c("cornflowerblue","deeppink4") cloud(P~Erhebungsgebiet+Wirtschaftslage, data, panel.3d.cloud=panel.3dbars, main="Beobachtete Werte", col.facet=colors,

     xbase=0.4, ybase=0.4, scales=list(arrows=FALSE, col=1), 
     par.settings = list(axis.line = list(col = "transparent")))

</R>

Zur Beurteilung der Unabhängigkeit zweier Zufallsvariablen können auch die bedingten Verteilungen herangezogen werden.

Tabelle 2: Bedingte Verteilungen $f(y_{j}|x_{i})$ , gerundete Werte (1991)

Gegenwärtige Wirtschaftslage $X$	Erhebungsgebiet $Y$		RV $X$
Gegenwärtige Wirtschaftslage $X$	West	Ost	RV $X$
sehr gut	0,563	0,437	1,000
gut	0,558	0,442	1,000
teils/teils	0,399	0,601	1,000
schlecht	0,462	0,538	1,000
sehr schlecht	0,286	0,714	1,000

Aus Tabelle 1 ergibt sich z.B.:

Für einen zufällig ausgewählten Befragten ist die Wahrscheinlichkeit 0,257, dass er die gegenwärtige Wirtschaftslage mit "gut" bewertet und aus den alten Bundesländern stammt.

Bei Unabhängigkeit der beiden Zufallsvariablen würde diese Wahrscheinlichkeit jedoch 0,228 betragen.

Aus Tabelle 2 folgt z.B.:

Für einen zufällig ausgewählten Befragten, der die gegenwärtige Wirtschaftslage $(X)$ mit "gut" bewertet, beträgt die Wahrscheinlichkeit 0,558, dass er aus den alten Bundesländern stammt, und 0,442, dass er aus den neuen Bundesländern stammt.

Diese beiden Wahrscheinlichkeiten unterscheiden sich von den Werten der Randverteilung von Y (letzte Zeile der Tabelle 1).

Daraus folgt, dass die beiden Zufallsvariablen $X$ und $Y$ nicht unabhängig sind, d.h. die Einschätzung der gegenwärtigen Wirtschaftslage erfolgte nicht unabhängig vom Erhebungsgebiet, in dem der Befragte lebt.

1996 wurde die Befragung mit 3000 anderen Bürgern der Bundesrepublik Deutschland mit einem Alter von mindestens 18 Jahren zum Befragungszeitpunkt wiederholt.

Die beobachtete gemeinsame Wahrscheinlichkeitsverteilung der beiden Zufallsvariablen enthält die Tabelle 3, in der wieder die bei Unabhängigkeit "erwarteten" Wahrscheinlichkeiten enthalten sind. Tabelle 4 enthält die bedingten Verteilungen $f(y_{j}|x_{i})$ .

Tabelle 3: Gegenwärtige Wirtschaftslage $(X)$ und Erhebungsgebiet $(Y)$ , Befragung 1996

Gegenwärtige Wirtschaftslage $X$		Erhebungsgebiet $Y$		RV $X$
Gegenwärtige Wirtschaftslage $X$		West	Ost	RV $X$
sehr gut	beobachtet	0,006	0,002	0,008
sehr gut	erwartet	0,005	0,003
gut	beobachtet	0,082	0,036	0,118
gut	erwartet	0,078	0,040
teils/teils	beobachtet	0,314	0,175	0,489
teils/teils	erwartet	0,323	0,166
schlecht	beobachtet	0,215	0,104	0,319
schlecht	erwartet	0,211	0,108
sehr schlecht	beobachtet	0,044	0,022	0,066
sehr schlecht	erwartet	0,044	0,022
RV $Y$		0,661	0,339	1,000

Tabelle 4: Bedingte Verteilungen $f(y_{j}|x_{i})$ , gerundete Werte (1996)

Gegenwärtige Wirtschaftslage $X$	Erhebungsgebiet $Y$		RV $X$
Gegenwärtige Wirtschaftslage $X$	West	Ost	RV $X$
sehr gut	0,750	0,250	1,000
gut	0,695	0,305	1,000
teils/teils	0,642	0,358	1,000
schlecht	0,674	0,326	1,000
sehr schlecht	0,667	0,333	1,000

Die folgende Abbildung zeigt die grafische Darstellung der zweidimensionalen Wahrscheinlichkeitsfunktion der beiden Zufallsvariablen.

 pdf(rpdf, width=7, height=7)

library(RColorBrewer) library(lattice) library(latticeExtra)

data <- read.table(text='Wirtschaftslage P Erhebungsgebiet

                   "(x1) sehr gut"  0.006  "West"
                   "(x2) gut"  0.082  "West"
                   "(x3) teils/teils"  0.314  "West"
                   "(x4) schlecht"  0.215  "West"
                   "(x5) sehr schlecht"  0.044  "West"
                   "(x1) sehr gut"  0.002  "Ost"
                   "(x2) gut"  0.036  "Ost"
                   "(x3) teils/teils"  0.175  "Ost"
                   "(x4) schlecht"  0.104  "Ost"
                   "(x5) sehr schlecht"  0.022  "Ost"
                   ',header=TRUE)

colors <- c("cornflowerblue","deeppink4") cloud(P~Erhebungsgebiet+Wirtschaftslage, data, panel.3d.cloud=panel.3dbars, main="Beobachtete Werte", col.facet=colors,

     xbase=0.4, ybase=0.4, scales=list(arrows=FALSE, col=1),
     par.settings = list(axis.line = list(col = "transparent")))

</R>

Auch im Jahre 1996 bestehen Differenzen zwischen beobachteten Zellwahrscheinlichkeiten und den zugehörigen Wahrscheinlichkeiten, die bei Unabhängigkeit zu "erwarten" sind.

Auch die bedingten Verteilungen $f(y_{j}|x_{i})$ unterscheiden sich von der Randverteilung von $Y$ .

Somit wurde auch 1996 die Einschätzung der gegenwärtigen Wirtschaftslage nicht unabhängig vom Erhebungsgebiet, in dem der Befragte lebt, vorgenommen.

Die Aussagen über die Unabhängigkeit der beiden Zufallsvariablen "Gegenwärtige Wirtschaftslage" und "Erhebungsgebiet" beziehen sich auf die Gesamtheit der in dem jeweiligen Jahr befragten 3000 Personen! Dieses Beispiel wird im Abschnitt "Chi-Quadrat-Unabhängigkeitstest" unter weiterführenden Aspekten wieder aufgegriffen.

Stochastische Unabhängigkeit

Aus MM*Stat

Inhaltsverzeichnis

Grundbegriffe