Stochastische Unabhängigkeit
Aus MM*Stat
Grundbegriffe
Stochastische Unabhängigkeit
Anhand des Multiplikationssatzes für unabhängige Ereignisse lässt sich die stochastische Unabhängigkeit von zwei Zufallsvariablen und definieren.
Sind zwei Ereignisse und unabhängig, dann ergibt sich die Wahrscheinlichkeit für das gemeinsame Eintreten der Ereignisse und als Produkt der beiden Einzelwahrscheinlichkeiten:
Mit und lässt sich unmittelbar die Unabhängigkeit zweier diskreter Zufallsvariablen und definieren.
Gilt für die gemeinsame Verteilung von und die Beziehung
bzw.
für alle Paare von Ausprägungen der Zufallsvariablen und , dann sind und stochastisch unabhängig.
Gilt für mindestens ein Paar diese Beziehung nicht, so sind die beiden Zufallsvariablen voneinander abhängig.
Analog folgt für zwei stetige Zufallsvariablen und :
Sind und die Dichtefunktionen der Zufallsvariablen und und gilt für alle Paare von reellen Zahlen die Beziehung
,
dann sind und stochastisch unabhängig.
Beispiele
Wirtschaftliche Lage
1991 wurde 3000 Bürgern der Bundesrepublik Deutschland mit einem Alter von mindestens 18 Jahren zum Befragungszeitpunkt die folgende Frage gestellt:
"Wie beurteilen Sie die heutige wirtschaftliche Lage in Deutschland ?"
Die Einschätzungen konnten die Befragten auf einer fünfteiligen Skala vornehmen:
1 - sehr gut, 2 - gut, 3 - teils gut/teils schlecht, 4 - schlecht, 5 - sehr schlecht.
Der Inhalt dieser Frage wird als Zufallsvariable : "Gegenwärtige Wirtschaftslage" definiert, die die genannten 5 möglichen Realisationen annehmen kann.
Darüber hinaus wurde erfasst, ob die befragte Person aus den alten Bundesländern (einschließlich West - Berlin) oder aus den neuen Bundesländern (einschließlich Ost - Berlin) stammt.
Dies sei die Zufallsvariable : "Erhebungsgebiet" mit den möglichen Realisationen = "West" und = "Ost".
Die beobachtete gemeinsame Wahrscheinlichkeitsverteilung der beiden Zufallsvariablen enthält die Tabelle 1.
Von besonderem Interesse bei dieser Befragung ist, ob die Einschätzungen bezüglich der gegenwärtigen Wirtschaftslage unabhängig vom Erhebungsgebiet erfolgte.
Deshalb sind in der Tabelle 1 außerdem die Wahrscheinlichkeiten enthalten, die sich bei Unabhängigkeit der beiden Zufallsvariablen ergeben würden, d.h. , die mit "erwartet" bezeichnet sind.
Tabelle 1: Gegenwärtige Wirtschaftslage und Erhebungsgebiet , Befragung 1991
Gegenwärtige Wirtschaftslage | Erhebungsgebiet | RV | ||
West | Ost | |||
sehr gut | beobachtet | 0,072 | 0,056 | 0,128 |
erwartet | 0,063 | 0,065 | ||
gut | beobachtet | 0,257 | 0,204 | 0,461 |
erwartet | 0,228 | 0,233 | ||
teils/teils | beobachtet | 0,151 | 0,227 | 0,378 |
erwartet | 0,187 | 0,191 | ||
schlecht | beobachtet | 0,012 | 0,014 | 0,026 |
erwartet | 0,013 | 0,013 | ||
sehr schlecht | beobachtet | 0,002 | 0,005 | 0,007 |
erwartet | 0,003 | 0,004 | ||
RV | 0,494 | 0,506 | 1,000 |
Die folgende Abbildung zeigt die grafische Darstellung der zweidimensionalen Wahrscheinlichkeitsfunktion der beiden Zufallsvariablen (beobachtete Werte).
<R output="display">
pdf(rpdf, width=7, height=7) library(RColorBrewer) library(lattice) library(latticeExtra) data <- read.table(text='Wirtschaftslage P Erhebungsgebiet "(x1) sehr gut" 0.072 "West" "(x2) gut" 0.257 "West" "(x3) teils/teils" 0.151 "West" "(x4) schlecht" 0.012 "West" "(x5) sehr schlecht" 0.002 "West" "(x1) sehr gut" 0.056 "Ost" "(x2) gut" 0.204 "Ost" "(x3) teils/teils" 0.227 "Ost" "(x4) schlecht" 0.014 "Ost" "(x5) sehr schlecht" 0.005 "Ost" ',header=TRUE) colors <- c("cornflowerblue","deeppink4") cloud(P~Erhebungsgebiet+Wirtschaftslage, data, panel.3d.cloud=panel.3dbars, main="Beobachtete Werte", col.facet=colors, xbase=0.4, ybase=0.4, scales=list(arrows=FALSE, col=1), par.settings = list(axis.line = list(col = "transparent"))) </R> |
Zur Beurteilung der Unabhängigkeit zweier Zufallsvariablen können auch die bedingten Verteilungen herangezogen werden.
Tabelle 2: Bedingte Verteilungen , gerundete Werte (1991)
Gegenwärtige Wirtschaftslage | Erhebungsgebiet | RV | |
West | Ost | ||
sehr gut | 0,563 | 0,437 | 1,000 |
gut | 0,558 | 0,442 | 1,000 |
teils/teils | 0,399 | 0,601 | 1,000 |
schlecht | 0,462 | 0,538 | 1,000 |
sehr schlecht | 0,286 | 0,714 | 1,000 |
Aus Tabelle 1 ergibt sich z.B.:
Für einen zufällig ausgewählten Befragten ist die Wahrscheinlichkeit 0,257, dass er die gegenwärtige Wirtschaftslage mit "gut" bewertet und aus den alten Bundesländern stammt.
Bei Unabhängigkeit der beiden Zufallsvariablen würde diese Wahrscheinlichkeit jedoch 0,228 betragen.
Aus Tabelle 2 folgt z.B.:
Für einen zufällig ausgewählten Befragten, der die gegenwärtige Wirtschaftslage mit "gut" bewertet, beträgt die Wahrscheinlichkeit 0,558, dass er aus den alten Bundesländern stammt, und 0,442, dass er aus den neuen Bundesländern stammt.
Diese beiden Wahrscheinlichkeiten unterscheiden sich von den Werten der Randverteilung von Y (letzte Zeile der Tabelle 1).
Daraus folgt, dass die beiden Zufallsvariablen und nicht unabhängig sind, d.h. die Einschätzung der gegenwärtigen Wirtschaftslage erfolgte nicht unabhängig vom Erhebungsgebiet, in dem der Befragte lebt.
1996 wurde die Befragung mit 3000 anderen Bürgern der Bundesrepublik Deutschland mit einem Alter von mindestens 18 Jahren zum Befragungszeitpunkt wiederholt.
Die beobachtete gemeinsame Wahrscheinlichkeitsverteilung der beiden Zufallsvariablen enthält die Tabelle 3, in der wieder die bei Unabhängigkeit "erwarteten" Wahrscheinlichkeiten enthalten sind. Tabelle 4 enthält die bedingten Verteilungen .
Tabelle 3: Gegenwärtige Wirtschaftslage und Erhebungsgebiet , Befragung 1996
Gegenwärtige Wirtschaftslage | Erhebungsgebiet | RV | ||
West | Ost | |||
sehr gut | beobachtet | 0,006 | 0,002 | 0,008 |
erwartet | 0,005 | 0,003 | ||
gut | beobachtet | 0,082 | 0,036 | 0,118 |
erwartet | 0,078 | 0,040 | ||
teils/teils | beobachtet | 0,314 | 0,175 | 0,489 |
erwartet | 0,323 | 0,166 | ||
schlecht | beobachtet | 0,215 | 0,104 | 0,319 |
erwartet | 0,211 | 0,108 | ||
sehr schlecht | beobachtet | 0,044 | 0,022 | 0,066 |
erwartet | 0,044 | 0,022 | ||
RV | 0,661 | 0,339 | 1,000 |
Tabelle 4: Bedingte Verteilungen , gerundete Werte (1996)
Gegenwärtige Wirtschaftslage | Erhebungsgebiet | RV | |
West | Ost | ||
sehr gut | 0,750 | 0,250 | 1,000 |
gut | 0,695 | 0,305 | 1,000 |
teils/teils | 0,642 | 0,358 | 1,000 |
schlecht | 0,674 | 0,326 | 1,000 |
sehr schlecht | 0,667 | 0,333 | 1,000 |
Die folgende Abbildung zeigt die grafische Darstellung der zweidimensionalen Wahrscheinlichkeitsfunktion der beiden Zufallsvariablen.
<R output="display">
pdf(rpdf, width=7, height=7) library(RColorBrewer) library(lattice) library(latticeExtra) data <- read.table(text='Wirtschaftslage P Erhebungsgebiet "(x1) sehr gut" 0.006 "West" "(x2) gut" 0.082 "West" "(x3) teils/teils" 0.314 "West" "(x4) schlecht" 0.215 "West" "(x5) sehr schlecht" 0.044 "West" "(x1) sehr gut" 0.002 "Ost" "(x2) gut" 0.036 "Ost" "(x3) teils/teils" 0.175 "Ost" "(x4) schlecht" 0.104 "Ost" "(x5) sehr schlecht" 0.022 "Ost" ',header=TRUE) colors <- c("cornflowerblue","deeppink4") cloud(P~Erhebungsgebiet+Wirtschaftslage, data, panel.3d.cloud=panel.3dbars, main="Beobachtete Werte", col.facet=colors, xbase=0.4, ybase=0.4, scales=list(arrows=FALSE, col=1), par.settings = list(axis.line = list(col = "transparent"))) </R> |
Auch im Jahre 1996 bestehen Differenzen zwischen beobachteten Zellwahrscheinlichkeiten und den zugehörigen Wahrscheinlichkeiten, die bei Unabhängigkeit zu "erwarten" sind.
Auch die bedingten Verteilungen unterscheiden sich von der Randverteilung von .
Somit wurde auch 1996 die Einschätzung der gegenwärtigen Wirtschaftslage nicht unabhängig vom Erhebungsgebiet, in dem der Befragte lebt, vorgenommen.
Die Aussagen über die Unabhängigkeit der beiden Zufallsvariablen "Gegenwärtige Wirtschaftslage" und "Erhebungsgebiet" beziehen sich auf die Gesamtheit der in dem jeweiligen Jahr befragten 3000 Personen! Dieses Beispiel wird im Abschnitt "Chi-Quadrat-Unabhängigkeitstest" unter weiterführenden Aspekten wieder aufgegriffen.