Stochastische Unabhängigkeit

Aus MM*Stat

Version vom 16. Mai 2018, 13:27 Uhr von Haberema (Diskussion | Beiträge) (Die Seite wurde neu angelegt: „=={{Vorlage:Überschrift}}== ===Stochastische Unabhängigkeit=== Anhand des Multiplikationssatz bei Unabhängigkeit|Multiplikationssatzes für unabhängige…“)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Wechseln zu: Navigation, Suche

Grundbegriffe

Stochastische Unabhängigkeit

Anhand des Multiplikationssatzes für unabhängige Ereignisse lässt sich die stochastische Unabhängigkeit von zwei Zufallsvariablen und definieren.

Sind zwei Ereignisse und unabhängig, dann ergibt sich die Wahrscheinlichkeit für das gemeinsame Eintreten der Ereignisse und als Produkt der beiden Einzelwahrscheinlichkeiten:

Mit und lässt sich unmittelbar die Unabhängigkeit zweier diskreter Zufallsvariablen und definieren.

Gilt für die gemeinsame Verteilung von und die Beziehung

bzw.

für alle Paare von Ausprägungen der Zufallsvariablen und , dann sind und stochastisch unabhängig.

Gilt für mindestens ein Paar diese Beziehung nicht, so sind die beiden Zufallsvariablen voneinander abhängig.

Analog folgt für zwei stetige Zufallsvariablen und :

Sind und die Dichtefunktionen der Zufallsvariablen und und gilt für alle Paare von reellen Zahlen die Beziehung

,

dann sind und stochastisch unabhängig.

Beispiele

Wirtschaftliche Lage

1991 wurde 3000 Bürgern der Bundesrepublik Deutschland mit einem Alter von mindestens 18 Jahren zum Befragungszeitpunkt die folgende Frage gestellt:

"Wie beurteilen Sie die heutige wirtschaftliche Lage in Deutschland ?"

Die Einschätzungen konnten die Befragten auf einer fünfteiligen Skala vornehmen:

1 - sehr gut, 2 - gut, 3 - teils gut/teils schlecht, 4 - schlecht, 5 - sehr schlecht.

Der Inhalt dieser Frage wird als Zufallsvariable : "Gegenwärtige Wirtschaftslage" definiert, die die genannten 5 möglichen Realisationen annehmen kann.

Darüber hinaus wurde erfasst, ob die befragte Person aus den alten Bundesländern (einschließlich West - Berlin) oder aus den neuen Bundesländern (einschließlich Ost - Berlin) stammt.

Dies sei die Zufallsvariable : "Erhebungsgebiet" mit den möglichen Realisationen = "West" und = "Ost".

Die beobachtete gemeinsame Wahrscheinlichkeitsverteilung der beiden Zufallsvariablen enthält die Tabelle 1.

Von besonderem Interesse bei dieser Befragung ist, ob die Einschätzungen bezüglich der gegenwärtigen Wirtschaftslage unabhängig vom Erhebungsgebiet erfolgte.

Deshalb sind in der Tabelle 1 außerdem die Wahrscheinlichkeiten enthalten, die sich bei Unabhängigkeit der beiden Zufallsvariablen ergeben würden, d.h. , die mit "erwartet" bezeichnet sind.

Tabelle 1: Gegenwärtige Wirtschaftslage und Erhebungsgebiet , Befragung 1991

Gegenwärtige Wirtschaftslage Erhebungsgebiet RV
West Ost
sehr gut beobachtet 0,072 0,056 0,128
erwartet 0,063 0,065
gut beobachtet 0,257 0,204 0,461
erwartet 0,228 0,233
teils/teils beobachtet 0,151 0,227 0,378
erwartet 0,187 0,191
schlecht beobachtet 0,012 0,014 0,026
erwartet 0,013 0,013
sehr schlecht beobachtet 0,002 0,005 0,007
erwartet 0,003 0,004
RV 0,494 0,506 1,000

Die folgende Abbildung zeigt die grafische Darstellung der zweidimensionalen Wahrscheinlichkeitsfunktion der beiden Zufallsvariablen (beobachtete Werte).

<R output="display">

pdf(rpdf, width=7, height=7) library(RColorBrewer) library(lattice) library(latticeExtra)

data <- read.table(text='Wirtschaftslage P Erhebungsgebiet

                  "(x1) sehr gut"  0.072  "West"
                  "(x2) gut"  0.257  "West"
                  "(x3) teils/teils"  0.151  "West"
                  "(x4) schlecht"  0.012  "West"
                  "(x5) sehr schlecht"  0.002  "West"
                  "(x1) sehr gut"  0.056  "Ost"
                  "(x2) gut"  0.204  "Ost"
                  "(x3) teils/teils"  0.227  "Ost"
                  "(x4) schlecht"  0.014  "Ost"
                  "(x5) sehr schlecht"  0.005  "Ost"
                   ',header=TRUE)

colors <- c("cornflowerblue","deeppink4") cloud(P~Erhebungsgebiet+Wirtschaftslage, data, panel.3d.cloud=panel.3dbars, main="Beobachtete Werte", col.facet=colors,

     xbase=0.4, ybase=0.4, scales=list(arrows=FALSE, col=1), 
     par.settings = list(axis.line = list(col = "transparent")))

</R>

Zur Beurteilung der Unabhängigkeit zweier Zufallsvariablen können auch die bedingten Verteilungen herangezogen werden.

Tabelle 2: Bedingte Verteilungen , gerundete Werte (1991)

Gegenwärtige Wirtschaftslage Erhebungsgebiet RV
West Ost
sehr gut 0,563 0,437 1,000
gut 0,558 0,442 1,000
teils/teils 0,399 0,601 1,000
schlecht 0,462 0,538 1,000
sehr schlecht 0,286 0,714 1,000

Aus Tabelle 1 ergibt sich z.B.:

Für einen zufällig ausgewählten Befragten ist die Wahrscheinlichkeit 0,257, dass er die gegenwärtige Wirtschaftslage mit "gut" bewertet und aus den alten Bundesländern stammt.

Bei Unabhängigkeit der beiden Zufallsvariablen würde diese Wahrscheinlichkeit jedoch 0,228 betragen.

Aus Tabelle 2 folgt z.B.:

Für einen zufällig ausgewählten Befragten, der die gegenwärtige Wirtschaftslage mit "gut" bewertet, beträgt die Wahrscheinlichkeit 0,558, dass er aus den alten Bundesländern stammt, und 0,442, dass er aus den neuen Bundesländern stammt.

Diese beiden Wahrscheinlichkeiten unterscheiden sich von den Werten der Randverteilung von Y (letzte Zeile der Tabelle 1).

Daraus folgt, dass die beiden Zufallsvariablen und nicht unabhängig sind, d.h. die Einschätzung der gegenwärtigen Wirtschaftslage erfolgte nicht unabhängig vom Erhebungsgebiet, in dem der Befragte lebt.

1996 wurde die Befragung mit 3000 anderen Bürgern der Bundesrepublik Deutschland mit einem Alter von mindestens 18 Jahren zum Befragungszeitpunkt wiederholt.

Die beobachtete gemeinsame Wahrscheinlichkeitsverteilung der beiden Zufallsvariablen enthält die Tabelle 3, in der wieder die bei Unabhängigkeit "erwarteten" Wahrscheinlichkeiten enthalten sind. Tabelle 4 enthält die bedingten Verteilungen .

Tabelle 3: Gegenwärtige Wirtschaftslage und Erhebungsgebiet , Befragung 1996

Gegenwärtige Wirtschaftslage Erhebungsgebiet RV
West Ost
sehr gut beobachtet 0,006 0,002 0,008
erwartet 0,005 0,003
gut beobachtet 0,082 0,036 0,118
erwartet 0,078 0,040
teils/teils beobachtet 0,314 0,175 0,489
erwartet 0,323 0,166
schlecht beobachtet 0,215 0,104 0,319
erwartet 0,211 0,108
sehr schlecht beobachtet 0,044 0,022 0,066
erwartet 0,044 0,022
RV 0,661 0,339 1,000

Tabelle 4: Bedingte Verteilungen , gerundete Werte (1996)

Gegenwärtige Wirtschaftslage Erhebungsgebiet RV
West Ost
sehr gut 0,750 0,250 1,000
gut 0,695 0,305 1,000
teils/teils 0,642 0,358 1,000
schlecht 0,674 0,326 1,000
sehr schlecht 0,667 0,333 1,000

Die folgende Abbildung zeigt die grafische Darstellung der zweidimensionalen Wahrscheinlichkeitsfunktion der beiden Zufallsvariablen.

<R output="display">
 pdf(rpdf, width=7, height=7)

library(RColorBrewer) library(lattice) library(latticeExtra)

data <- read.table(text='Wirtschaftslage P Erhebungsgebiet

                   "(x1) sehr gut"  0.006  "West"
                   "(x2) gut"  0.082  "West"
                   "(x3) teils/teils"  0.314  "West"
                   "(x4) schlecht"  0.215  "West"
                   "(x5) sehr schlecht"  0.044  "West"
                   "(x1) sehr gut"  0.002  "Ost"
                   "(x2) gut"  0.036  "Ost"
                   "(x3) teils/teils"  0.175  "Ost"
                   "(x4) schlecht"  0.104  "Ost"
                   "(x5) sehr schlecht"  0.022  "Ost"
                   ',header=TRUE)

colors <- c("cornflowerblue","deeppink4") cloud(P~Erhebungsgebiet+Wirtschaftslage, data, panel.3d.cloud=panel.3dbars, main="Beobachtete Werte", col.facet=colors,

     xbase=0.4, ybase=0.4, scales=list(arrows=FALSE, col=1),
     par.settings = list(axis.line = list(col = "transparent")))

</R>

Auch im Jahre 1996 bestehen Differenzen zwischen beobachteten Zellwahrscheinlichkeiten und den zugehörigen Wahrscheinlichkeiten, die bei Unabhängigkeit zu "erwarten" sind.

Auch die bedingten Verteilungen unterscheiden sich von der Randverteilung von .

Somit wurde auch 1996 die Einschätzung der gegenwärtigen Wirtschaftslage nicht unabhängig vom Erhebungsgebiet, in dem der Befragte lebt, vorgenommen.

Die Aussagen über die Unabhängigkeit der beiden Zufallsvariablen "Gegenwärtige Wirtschaftslage" und "Erhebungsgebiet" beziehen sich auf die Gesamtheit der in dem jeweiligen Jahr befragten 3000 Personen! Dieses Beispiel wird im Abschnitt "Chi-Quadrat-Unabhängigkeitstest" unter weiterführenden Aspekten wieder aufgegriffen.