Approximation von Verteilungen

Aus MM*Stat

Wechseln zu: Navigation, Suche

Verteilungsmodelle

Diskrete Gleichverteilung • Binomialverteilung • Hypergeometrische Verteilung • Poisson-Verteilung • Stetige Gleichverteilung • Exponentialverteilung • Normalverteilung • Standardnormalverteilung • Schwankungsintervall • Zentraler Grenzwertsatz • Chi-Quadrat-Verteilung • t-Verteilung • F-Verteilung • Approximation von Verteilungen • Multiple Choice • Video • Aufgaben • Lösungen
Approximation • Approximation der Binomialverteilung • Approximation der hypergeometrischen Verteilung • Approximation der Poisson-Verteilung • Bernoulli-Experiment • Endlichkeitskorrektur • Freiheitsgrad • Gauß-Verteilung • Gauß'sche Glockenkurve • Gedächtnislosigkeit der Exponentialverteilung • Gleichverteilung (diskret) • Gleichverteilung (stetig) • Poisson-Prozess • Sicherheitswahrscheinlichkeit • Standardnormalverteilung • Stetigkeitskorrektur • Student'sche t-Verteilung • Überschreitungswahrscheinlichkeit • Zentrales Schwankungsintervall


Grundbegriffe

Approximation

Approximation bedeutet, dass unter bestimmten Bedingungen statt der Ausgangsverteilung eine einfacher handhabbare Verteilung verwendet wird.

Entsprechende Grenzwertsätze (z.B der zentrale Grenzwertsatz) liefern die theoretischen Grundlagen für derartige Approximationen.

Wird eine Ausgangsverteilung durch eine Grenzverteilung approximiert, so begeht man natürlich einen Fehler in dem Sinne, dass die Wahrscheinlichkeiten der Grenzverteilung nicht exakt den Wahrscheinlichkeiten der Ausgangsverteilung entsprechen.

Man kann jedoch erwarten, dass der Fehler vernachlässigbar klein ist. Um dies zu erreichen, müssen entsprechende Kriterien für die Zulässigkeit der Approximation eingehalten werden.

Im folgenden werden für ausgewählte Verteilungen Approximationsmöglichkeiten angegeben, wobei die Kriterien als Faustregeln für eine hinreichend gute Approximation zu verstehen sind.

In Abhängigkeit von der angestrebten "hinreichend guten" Approximation gibt es in der Literatur unterschiedliche Faustregeln.

Stetigkeitskorrektur

Eine Stetigkeitskorrektur wird bei der Approximation einer diskreten Verteilung durch eine stetige Verteilung angewandt. Grund hierfür ist eine genauere Approximation.

Eine Stetigkeitskorrektur ist notwendig, wenn

und

Eine Stetigkeitskorrektur wird durchgeführt, indem

  • von der unteren Grenze 0,5 abgezogen wird
  • zu der oberen Grenze 0,5 hinzuaddiert wird

Approximation der Binomialverteilung

Approximation durch die Normalverteilung

Dieser Approximation liegt der Grenzwertsatz von Laplace und De Moivre zugrunde.

Es seien X_{1},\ldots,X_{n} unabhängige, Bernoulli-verteilte Zufallsvariablen mit E[X_{i}]=p\, und Var(X_{i})=p\cdot(1-p) für alle i.

Dann ist X=X_{1}+\ldots +X_{n} eine B(n,p)-verteilte Zufallsvariable mit dem Erwartungswert E[X] = n\cdot p und der Varianz Var(X) = n\cdot p\cdot(1-p).

Für n\rightarrow \infty , konvergiert die Verteilung der standardisierten Zufallsvariablen

Z = \frac{X - n\cdot p}{\sqrt{n\cdot p\cdot (1-p)}}

gegen die Standardnormalverteilung N(0;1).

Für großes n gilt: X_n \approx N(n\cdot p;\sqrt{n\cdot p\cdot (1-p)})

mit dem Erwartungswert \mu = n\cdot p und der Varianz \sigma^2 =n\cdot p\cdot (1-p).

Da die Binomialverteilung eine diskrete, die Normalverteilung eine stetige Verteilung ist, sollte eine Stetigkeitskorrektur vorgenommen werden, um eine bessere Approximation zu erreichen:

P(X \leq x) = F_B(x;n,p) \approx \Phi \left(\frac{x + 0.5 - n\cdot p}{\sqrt{n\cdot p\cdot (1-p)}} \right)

P(X = x) = f_B(x;n,p) \approx \Phi \left( \frac{x + 0.5 - n\cdot p}{\sqrt{n\cdot p\cdot (1-p)}} \right) - \Phi \left( \frac{x - 0.5 - n\cdot p}{\sqrt{n\cdot p\cdot (1-p)}} \right)

Faustregel für eine hinreichend gute Approximation der Binomialverteilung:

n\cdot p \geq 5 und n\cdot (1-p)\geq 5.

Approximation durch die Poisson-Verteilung

Da sich die Poisson-Verteilung aus der Binomialverteilung herleiten lässt, kann die Binomialverteilung durch die Poisson-Verteilung PO(\lambda =n\cdot p) approximiert werden, wenn n sehr groß und die Wahrscheinlichkeit p des Eintretens des Ereignisses klein ist.

Faustregel für die Approximation: n > 30 und p \leq 0.05.

Approximation der hypergeometrischen Verteilung

Approximation durch die Normalverteilung

Ist \frac{n\cdot M}{N}\geq 5,\; n\cdot (1-\frac{M}{N})\geq 5 und \frac{n}{M}\leq 0.05 so kann eine hypergeometrisch verteilte Zufallsvariable durch die Normalverteilung mit den Parametern

E[X] = \mu = n \cdot \frac{M}{N} \quad Var(X) = \sigma^2 = n \cdot \frac{M}{N}\cdot\left(1-\frac{M}{N} \right)

approximiert werden.

Auch hierbei ist die Stetigkeitskorrektur zu berücksichtigen.

Approximation durch die Binomialverteilung

Die Binomialverteilung und die hypergeometrische Verteilung unterscheiden sich vor allem durch das Zufallsauswahlmodell:

Modell mit Zurücklegen bei der ersteren und Modell ohne Zurücklegen bei der letzteren.

Je größer der Umfang N der Gesamtheit bei der hypergeometrischen Verteilung und die Anzahl M der Objekte mit einer interessierenden Eigenschaft wird, womit \frac{M}{N} gegen ein konstantes p strebt, umso weniger bedeutsam wird es, dass ohne Zurücklegen gezogen wird.

Für N\rightarrow\infty (und M \rightarrow\infty ) konvergiert die hypergeometrische Verteilung gegen die Binomialverteilung.

Daraus folgt: Für große N und M sowie einen kleinen Auswahlsatz \frac{n}{N} kann die hypergeometrische Verteilung durch eine Binomialverteilung mit p = \frac{M}{N} relativ gut approximiert werden.

Als Faustregel gilt: \frac{n}{N}\leq 0,05.

Approximation der Poisson-Verteilung durch die Normalverteilung

Da sich die Poisson-Verteilung mit \lambda= n\cdot p aus der Binomialverteilung herleiten lässt und die Binomialverteilung durch die Normalverteilung approximiert werden kann, kann für großes \lambda die Poisson-Verteilung ebenfalls durch die Normalverteilung approximiert werden.

Ist X\, eine PO(\lambda)-verteilte Zufallsvariable, dann gilt für großes \lambda die Approximation durch die Normalverteilung mit Erwartungswert \mu =\lambda und Varianz \sigma^{2}=\lambda (mit Stetigkeitskorrektur):

P(X \leq x) = F_{PO}(x;\lambda) \approx \Phi \left( \frac{x + 0.5 - \lambda}{\sqrt{\lambda}}\right)

Faustregel zur Anwendung der Approximation: \lambda \geq 10

Beispiele

Steuerbescheide

Es sei aus jahrelanger Erfahrung bekannt, dass 10% der Steuerbescheide des Finanzamtes einer größeren Stadt fehlerhaft sind.

Es werden zufällig 100 Steuerbescheide ausgewählt.

Wie groß ist die Wahrscheinlichkeit, dass 12 Steuerbescheide fehlerhaft sind?

Im Ergebnis einer Ziehung können nur zwei mögliche Ereignisse auftreten: "fehlerhafter Steuerbescheid" und "korrekter Steuerbescheid".

Aufgrund der postulierten Ausgangsbedingungen sind die Wahrscheinlichkeiten beider Ereignisse mit p = 0,1 und 1- p = 0,9 konstant.

Die Zufallsvariable X = "Anzahl der fehlerhaften Steuerbescheide unter 100 zufällig ausgewählten Steuerbescheiden" ist B(n,p)=B(100;\;0,1))-verteilt.

Gesucht ist die Wahrscheinlichkeit P(X=12)=f(12). Dafür ergibt sich:

f_{B}(12;\;100;\;0,1)={100\choose 12}\cdot 0,1^{12}\cdot 0,9^{88}=0,0988

f_{B}(12;\;100;\;0,1) kann nicht mehr aus einer Tabelle der Binomialverteilung entnommen werden, sondern muss berechnet werden, was sehr umständlich ist.

Da die Bedingungen einer Approximation durch die Normalverteilung mit n\cdot p=10\geq 5 und n\cdot(1-p)=90\geq 5 erfüllt sind, wird die gesuchte Wahrscheinlichkeit mittels einer N(\mu ;\; \sigma) approximativ bestimmt.

Erwartungswert und Varianz der binomialverteilten Zufallsvariable X\, sind:

\mu =n\cdot p=100\cdot 0,1=10 und \sigma^{2}=n\cdot p\cdot(1-p)=100\cdot 0,1\cdot 0,9=9 so dass die Normalverteilung N(10;\; 3) zur Approximation verwendet wird, die in der folgenden Grafik gezeigt ist.

Zur Erinnerung: Für eine stetige Zufallsvariable sind Wahrscheinlichkeiten als Flächen unter der Dichtefunktion gegeben, so dass die Wahrscheinlichkeit für irgendeinen exakten Wert, wie z.B. x = 12, gleich Null ist.

Es wird deshalb 0,5 von 12 substrahiert und zu 12 addiert, was der Stetigkeitskorrektur entspricht.

Statt x = 12 für die diskrete Zufallsvariable wird das Intervall 11,5\leq x\leq 12,5 für die normalverteilte Zufallsvariable verwendet, und f_{B}(12;\;100;\;0,1) wird durch P(11,5\leq x\leq 12,5), die Fläche unter der Dichtefunktion der N(10;\; 3) zwischen 11,5 und 12,5, approximiert.

Da jedoch nur die Verteilungsfunktion der Standardnormalverteilung N(0; 1) tabelliert vorliegt, wird X\, standardisiert:

z_{1}=\frac{12,5-10}{3}=0,83\ \mbox{und}\ z_{2}=\frac{11,2-10}{3}=0,5

Aus der Tabelle findet man für \Phi(0,83)=0,7967 und \Phi(0,5)=0,6915, so dass sich ergibt:

P(11,5\leq x\leq 12,5)=\Phi (0,83)-\Phi(0,5)=0,7967-0,6915=0,1052

Dies ist eine recht gute Annäherung an die exakte Wahrscheinlichkeit der Binomialverteilung, denn der Fehler beträgt nur 0,1052 - 0,0988 = 0,0064.

Gleichzeitig ist aus den errechneten Wahrscheinlichkeiten zu entnehmen, dass

P(X\leq 12)=\Phi (\frac{12+0,5-10}{3})=\Phi (0,83)=0,7967 ist.
P(X>12)=1-\Phi (\frac{12+0,5-10}{3})=1-\Phi(0,83)=1-0,7967=0,2033 ist.
P(X\geq 12)=1-\Phi (\frac{12-0,5-10}{3})=1-\Phi(0,5)=1-0,6915=0,3085 ist.

Unwetterschaden

In einer Gemeinde habe im Durchschnitt 1 Haus von 100 Häusern jährlich einen Unwetterschaden.

Wenn 100 Häuser in dieser Gemeinde sind, wie groß ist die Wahrscheinlichkeit, dass genau 4 Häuser im Verlauf eines Jahres einen Unwetterschaden haben?

Es gibt nur zwei mögliche Ereignisse "Haus mit Unwetterschaden" und "Haus ohne Unwetterschaden".

Die Wahrscheinlichkeit für das Eintreten der Ereignisse ist konstant mit p = 0,01 bzw. 1 - p = 0,99.

Die Zufallsvariable X\, =\{\mbox{Anzahl der Häuser mit Unwetterschaden}\} ist B(n, p) = B(100; 0,01)-verteilt.

Gesucht ist die Wahrscheinlichkeit P(X = 4), für die sich (sehr umständlich zu berechnen)

P(X=4)=f_{B}(4;\,100;\,0,01)={100 \choose4}\cdot 0,01^{4}\cdot 0,99^{96}=0,01494

ergibt.

Da die Faustregeln einer Approximation durch die Poisson-Verteilung erfüllt sind, wird die gesuchte Wahrscheinlichkeit mittels der Poisson-Verteilung mit \lambda = n\cdot p = 1 berechnet:

F_{PO}(4;\,1)=\frac{1^{4}}{4\,!}e^{-1}=0,01533

Wie ersichtlich, besteht eine gute Übereinstimmung zwischen den Wahrscheinlichkeiten f_{B}(4) und F_{PO}(4). Dies trifft für die gesamte Verteilungen zu.

\,x B(100;\;0,01) \,PO(1)
0 0,36603 0,36788
1 0,36973 0,36788
2 0,18486 0,18394
3 0,06100 0,06131
4 0,01494 0,01533
5 0,00290 0,00307
6 0,00046 0,00051
7 0,00006 0,00007
8 0,00000 0,00000

Nach einem starken Unwetter sind von den 2000 Häusern der gesamten Region 300 Häuser beschädigt.

Wie groß ist die Wahrscheinlichkeit, dass sich unter 10 zufällig ausgewählten Häusern 2 beschädigte Häuser befinden?

Es gibt wiederum nur zwei mögliche Ereignisse: "Haus mit Unwetterschaden" und "Haus ohne Unwetterschaden". Es sind N=2000, M=300 und N-M=1700.

Die Zufallsvariable X = \{\mbox{Anzahl der Häuser mit Unwetterschaden}\} ist H(N, M, n) = H(2000;\; 300;\; 10)-verteilt.

Gesucht ist die Wahrscheinlichkeit P(X = 2), für die sich P(X=2)=f_{H}(2)=\cfrac{{300 \choose2}\cdot{1700 \choose 8}}{{2000 \choose 10}}=0,2766 ergibt.

Wie ersichtlich, ist die Berechnung sehr aufwendig.

Da die Faustregeln einer Approximation durch die Binomialverteilung erfüllt sind, wird deshalb die gesuchte Wahrscheinlichkeit mittels der Binomialverteilung mit p = \frac{M}{N} = 0,15 berechnet:

P(X=2)=f_{B}(2)={10 \choose 2}\cdot 0,15^{2}\cdot 0,85^{8}=0,2759

Auch bei dieser Approximation entsteht ein vernachlässigbarer Fehler bei der Berechnung der Wahrscheinlichkeit mittels B(10;\; 0,15) statt mit der H(2000;\; 300;\; 10).