Approximation von Verteilungen

Verteilungsmodelle

Diskrete Gleichverteilung • Binomialverteilung • Hypergeometrische Verteilung • Poisson-Verteilung • Stetige Gleichverteilung • Exponentialverteilung • Normalverteilung • Standardnormalverteilung • Schwankungsintervall • Zentraler Grenzwertsatz • Chi-Quadrat-Verteilung • t-Verteilung • F-Verteilung • Approximation von Verteilungen • Multiple Choice • Video • Aufgaben • Lösungen

Approximation • Approximation der Binomialverteilung • Approximation der hypergeometrischen Verteilung • Approximation der Poisson-Verteilung • Bernoulli-Experiment • Endlichkeitskorrektur • Freiheitsgrad • Gauß-Verteilung • Gauß'sche Glockenkurve • Gedächtnislosigkeit der Exponentialverteilung • Gleichverteilung (diskret) • Gleichverteilung (stetig) • Poisson-Prozess • Sicherheitswahrscheinlichkeit • Standardnormalverteilung • Stetigkeitskorrektur • Student'sche t-Verteilung • Überschreitungswahrscheinlichkeit • Zentrales Schwankungsintervall

Grundbegriffe

Approximation

Approximation bedeutet, dass unter bestimmten Bedingungen statt der Ausgangsverteilung eine einfacher handhabbare Verteilung verwendet wird.

Entsprechende Grenzwertsätze (z.B der zentrale Grenzwertsatz) liefern die theoretischen Grundlagen für derartige Approximationen.

Wird eine Ausgangsverteilung durch eine Grenzverteilung approximiert, so begeht man natürlich einen Fehler in dem Sinne, dass die Wahrscheinlichkeiten der Grenzverteilung nicht exakt den Wahrscheinlichkeiten der Ausgangsverteilung entsprechen.

Man kann jedoch erwarten, dass der Fehler vernachlässigbar klein ist. Um dies zu erreichen, müssen entsprechende Kriterien für die Zulässigkeit der Approximation eingehalten werden.

Im folgenden werden für ausgewählte Verteilungen Approximationsmöglichkeiten angegeben, wobei die Kriterien als Faustregeln für eine hinreichend gute Approximation zu verstehen sind.

In Abhängigkeit von der angestrebten "hinreichend guten" Approximation gibt es in der Literatur unterschiedliche Faustregeln.

Stetigkeitskorrektur

Eine Stetigkeitskorrektur wird bei der Approximation einer diskreten Verteilung durch eine stetige Verteilung angewandt. Grund hierfür ist eine genauere Approximation.

Eine Stetigkeitskorrektur ist notwendig, wenn

eine Binomialverteilung,
eine Hypergeometrische Verteilung oder
eine Poisson-Verteilung durch eine Normalverteilung approximiert wird

und

die Varianz der Normalverteilung $\sigma ^{2}\leq 9$ ist.

Eine Stetigkeitskorrektur wird durchgeführt, indem

von der unteren Grenze 0,5 abgezogen wird
zu der oberen Grenze 0,5 hinzuaddiert wird

Approximation der Binomialverteilung

Approximation durch die Normalverteilung

Dieser Approximation liegt der Grenzwertsatz von Laplace und De Moivre zugrunde.

Es seien $X_{1},\ldots ,X_{n}$ unabhängige, Bernoulli-verteilte Zufallsvariablen mit $E[X_{i}]=p\,$ und $Var(X_{i})=p\cdot (1-p)$ für alle $i$ .

Dann ist $X=X_{1}+\ldots +X_{n}$ eine $B(n,p)$ -verteilte Zufallsvariable mit dem Erwartungswert $E[X]=n\cdot p$ und der Varianz $Var(X)=n\cdot p\cdot (1-p)$ .

Für $n\rightarrow \infty$ , konvergiert die Verteilung der standardisierten Zufallsvariablen

$Z={\frac {X-n\cdot p}{\sqrt {n\cdot p\cdot (1-p)}}}$

gegen die Standardnormalverteilung $N(0;1)$ .

Für großes $n$ gilt: $X_{n}\approx N(n\cdot p;{\sqrt {n\cdot p\cdot (1-p)}})$

mit dem Erwartungswert $\mu =n\cdot p$ und der Varianz $\sigma ^{2}=n\cdot p\cdot (1-p)$ .

Da die Binomialverteilung eine diskrete, die Normalverteilung eine stetige Verteilung ist, sollte eine Stetigkeitskorrektur vorgenommen werden, um eine bessere Approximation zu erreichen:

$P(X\leq x)=F_{B}(x;n,p)\approx \Phi \left({\frac {x+0.5-n\cdot p}{\sqrt {n\cdot p\cdot (1-p)}}}\right)$

$P(X=x)=f_{B}(x;n,p)\approx \Phi \left({\frac {x+0.5-n\cdot p}{\sqrt {n\cdot p\cdot (1-p)}}}\right)-\Phi \left({\frac {x-0.5-n\cdot p}{\sqrt {n\cdot p\cdot (1-p)}}}\right)$

Faustregel für eine hinreichend gute Approximation der Binomialverteilung:

$n\cdot p\geq 5$ und $n\cdot (1-p)\geq 5$ .

Approximation durch die Poisson-Verteilung

Da sich die Poisson-Verteilung aus der Binomialverteilung herleiten lässt, kann die Binomialverteilung durch die Poisson-Verteilung $PO(\lambda =n\cdot p)$ approximiert werden, wenn $n$ sehr groß und die Wahrscheinlichkeit $p$ des Eintretens des Ereignisses klein ist.

Faustregel für die Approximation: $n>30$ und $p\leq 0.05$ .

Approximation der hypergeometrischen Verteilung

Approximation durch die Normalverteilung

Ist ${\frac {n\cdot M}{N}}\geq 5,\;n\cdot (1-{\frac {M}{N}})\geq 5$ und ${\frac {n}{M}}\leq 0.05$ so kann eine hypergeometrisch verteilte Zufallsvariable durch die Normalverteilung mit den Parametern

$E[X]=\mu =n\cdot {\frac {M}{N}}\quad Var(X)=\sigma ^{2}=n\cdot {\frac {M}{N}}\cdot \left(1-{\frac {M}{N}}\right)$

approximiert werden.

Auch hierbei ist die Stetigkeitskorrektur zu berücksichtigen.

Approximation durch die Binomialverteilung

Die Binomialverteilung und die hypergeometrische Verteilung unterscheiden sich vor allem durch das Zufallsauswahlmodell:

Modell mit Zurücklegen bei der ersteren und Modell ohne Zurücklegen bei der letzteren.

Je größer der Umfang $N$ der Gesamtheit bei der hypergeometrischen Verteilung und die Anzahl $M$ der Objekte mit einer interessierenden Eigenschaft wird, womit ${\frac {M}{N}}$ gegen ein konstantes $p$ strebt, umso weniger bedeutsam wird es, dass ohne Zurücklegen gezogen wird.

Für $N\rightarrow \infty$ (und $M\rightarrow \infty$ ) konvergiert die hypergeometrische Verteilung gegen die Binomialverteilung.

Daraus folgt: Für große $N$ und $M$ sowie einen kleinen Auswahlsatz ${\frac {n}{N}}$ kann die hypergeometrische Verteilung durch eine Binomialverteilung mit $p={\frac {M}{N}}$ relativ gut approximiert werden.

Als Faustregel gilt: ${\frac {n}{N}}\leq 0,05$ .

Approximation der Poisson-Verteilung durch die Normalverteilung

Da sich die Poisson-Verteilung mit $\lambda =n\cdot p$ aus der Binomialverteilung herleiten lässt und die Binomialverteilung durch die Normalverteilung approximiert werden kann, kann für großes $\lambda$ die Poisson-Verteilung ebenfalls durch die Normalverteilung approximiert werden.

Ist $X\,$ eine $PO(\lambda )$ -verteilte Zufallsvariable, dann gilt für großes $\lambda$ die Approximation durch die Normalverteilung mit Erwartungswert $\mu =\lambda$ und Varianz $\sigma ^{2}=\lambda$ (mit Stetigkeitskorrektur):

$P(X\leq x)=F_{PO}(x;\lambda )\approx \Phi \left({\frac {x+0.5-\lambda }{\sqrt {\lambda }}}\right)$

Faustregel zur Anwendung der Approximation: $\lambda \geq 10$

Beispiele

Steuerbescheide

Es sei aus jahrelanger Erfahrung bekannt, dass 10% der Steuerbescheide des Finanzamtes einer größeren Stadt fehlerhaft sind.

Es werden zufällig 100 Steuerbescheide ausgewählt.

Wie groß ist die Wahrscheinlichkeit, dass 12 Steuerbescheide fehlerhaft sind?

Im Ergebnis einer Ziehung können nur zwei mögliche Ereignisse auftreten: "fehlerhafter Steuerbescheid" und "korrekter Steuerbescheid".

Aufgrund der postulierten Ausgangsbedingungen sind die Wahrscheinlichkeiten beider Ereignisse mit $p=0,1$ und $1-p=0,9$ konstant.

Die Zufallsvariable $X=$ "Anzahl der fehlerhaften Steuerbescheide unter 100 zufällig ausgewählten Steuerbescheiden" ist $B(n,p)=B(100;\;0,1))$ -verteilt.

Gesucht ist die Wahrscheinlichkeit $P(X=12)=f(12)$ . Dafür ergibt sich:

$f_{B}(12;\;100;\;0,1)={100 \choose 12}\cdot 0,1^{12}\cdot 0,9^{88}=0,0988$

$f_{B}(12;\;100;\;0,1)$ kann nicht mehr aus einer Tabelle der Binomialverteilung entnommen werden, sondern muss berechnet werden, was sehr umständlich ist.

Da die Bedingungen einer Approximation durch die Normalverteilung mit $n\cdot p=10\geq 5$ und $n\cdot (1-p)=90\geq 5$ erfüllt sind, wird die gesuchte Wahrscheinlichkeit mittels einer $N(\mu ;\;\sigma )$ approximativ bestimmt.

Erwartungswert und Varianz der binomialverteilten Zufallsvariable $X\,$ sind:

$\mu =n\cdot p=100\cdot 0,1=10$ und $\sigma ^{2}=n\cdot p\cdot (1-p)=100\cdot 0,1\cdot 0,9=9$ so dass die Normalverteilung $N(10;\;3)$ zur Approximation verwendet wird, die in der folgenden Grafik gezeigt ist.

Zur Erinnerung: Für eine stetige Zufallsvariable sind Wahrscheinlichkeiten als Flächen unter der Dichtefunktion gegeben, so dass die Wahrscheinlichkeit für irgendeinen exakten Wert, wie z.B. $x=12$ , gleich Null ist.

Es wird deshalb 0,5 von 12 substrahiert und zu 12 addiert, was der Stetigkeitskorrektur entspricht.

Statt $x=12$ für die diskrete Zufallsvariable wird das Intervall $11,5\leq x\leq 12,5$ für die normalverteilte Zufallsvariable verwendet, und $f_{B}(12;\;100;\;0,1)$ wird durch $P(11,5\leq x\leq 12,5)$ , die Fläche unter der Dichtefunktion der $N(10;\;3)$ zwischen 11,5 und 12,5, approximiert.

pdf(rpdf,width=7,height=7)

par(las=1) curve(from=0, to=20, dnorm(x, mean=10, sd=3), xaxt="n", ylab="f(x)", xlab="x", col="blue", ylim=c(0.0,0.14), lty=1, lwd=4, font.lab=2, "xaxs"="i" ,"yaxs"="i", bty="l") axis( side=1, at=c(10, 12.5), labels=c("10", "12,5"), tick=TRUE, padj=0) axis( side=1, at=c(11.5), labels=c("11,5"), tick=TRUE, padj=2)

par(new=TRUE)

xx <-c(11.5:12.5, 12.5:11.5) yy <-c(c(dnorm(c(11.5:12.5), mean=10, sd=3)),c(rep(0,2)))

polygon(xx, yy, col="grey", border=NA)

par(new=TRUE)

curve(from=0, to=20, dnorm(x, mean=10, sd=3), xaxt="n", ylab="f(x)", xlab="x", col="blue", ylim=c(0.0,0.14), lty=1, lwd=4, font.lab=2, "xaxs"="i" ,"yaxs"="i", bty="l")

abline(v=11.5, col="black", lwd=1, lty=2) abline(v=12.5, col="black", lwd=1, lty=2) </R>

Da jedoch nur die Verteilungsfunktion der Standardnormalverteilung $N(0;1)$ tabelliert vorliegt, wird $X\,$ standardisiert:

$z_{1}={\frac {12,5-10}{3}}=0,83\ {\mbox{und}}\ z_{2}={\frac {11,2-10}{3}}=0,5$

Aus der Tabelle findet man für $\Phi (0,83)=0,7967$ und $\Phi (0,5)=0,6915$ , so dass sich ergibt:

$P(11,5\leq x\leq 12,5)=\Phi (0,83)-\Phi (0,5)=0,7967-0,6915=0,1052$

Dies ist eine recht gute Annäherung an die exakte Wahrscheinlichkeit der Binomialverteilung, denn der Fehler beträgt nur $0,1052-0,0988=0,0064$ .

Gleichzeitig ist aus den errechneten Wahrscheinlichkeiten zu entnehmen, dass

die approximierte Wahrscheinlichkeit, höchstens 12 fehlerhafte Steuerbescheide bei $n=100$ zufälligen Ziehungen zu erhalten, gleich

P(X\leq 12)=\Phi ({\frac {12+0,5-10}{3}})=\Phi (0,83)=0,7967

ist.

die approximierte Wahrscheinlichkeit, mehr als 12 fehlerhafte Steuerbescheide bei $n=100$ zufälligen Ziehungen zu erhalten, gleich

P(X>12)=1-\Phi ({\frac {12+0,5-10}{3}})=1-\Phi (0,83)=1-0,7967=0,2033

ist.

die approximierte Wahrscheinlichkeit, wenigstens 12 fehlerhafte Steuerbescheide bei $n=100$ zufälligen Ziehungen zu erhalten, gleich

P(X\geq 12)=1-\Phi ({\frac {12-0,5-10}{3}})=1-\Phi (0,5)=1-0,6915=0,3085

ist.

Unwetterschaden

In einer Gemeinde habe im Durchschnitt 1 Haus von 100 Häusern jährlich einen Unwetterschaden.

Wenn 100 Häuser in dieser Gemeinde sind, wie groß ist die Wahrscheinlichkeit, dass genau 4 Häuser im Verlauf eines Jahres einen Unwetterschaden haben?

Es gibt nur zwei mögliche Ereignisse "Haus mit Unwetterschaden" und "Haus ohne Unwetterschaden".

Die Wahrscheinlichkeit für das Eintreten der Ereignisse ist konstant mit $p=0,01$ bzw. $1-p=0,99$ .

Die Zufallsvariable $X\,=\{{\mbox{Anzahl der Häuser mit Unwetterschaden}}\}$ ist $B(n,p)=B(100;0,01)$ -verteilt.

Gesucht ist die Wahrscheinlichkeit $P(X=4)$ , für die sich (sehr umständlich zu berechnen)

$P(X=4)=f_{B}(4;\,100;\,0,01)={100 \choose 4}\cdot 0,01^{4}\cdot 0,99^{96}=0,01494$

ergibt.

Da die Faustregeln einer Approximation durch die Poisson-Verteilung erfüllt sind, wird die gesuchte Wahrscheinlichkeit mittels der Poisson-Verteilung mit $\lambda =n\cdot p=1$ berechnet:

$F_{PO}(4;\,1)={\frac {1^{4}}{4\,!}}e^{-1}=0,01533$

Wie ersichtlich, besteht eine gute Übereinstimmung zwischen den Wahrscheinlichkeiten $f_{B}(4)$ und $F_{PO}(4)$ . Dies trifft für die gesamte Verteilungen zu.

<R>

pdf(rpdf, width=7, height=7)

a=dbinom(c(0:8), 100, 0.01) b=dpois(c(0:8),1) ab <- cbind(a,b) barplot(t(ab), beside=TRUE, col=c("red","darkblue"), ylim=c(0, 0.4), xlab="X", ylab="f(X)", font.lab=2) axis( side=1, at=3*c(1:9)-1, labels=c("0", "1", "2", "3", "4", "5", "6", "7", "8"), tick=FALSE) legend("topright",fill=c("red","darkblue"),c("B(100; 0,01)","PO(1)"), bty="n")

</R>

$\,x$	$B(100;\;0,01)$	$\,PO(1)$
0	0,36603	0,36788
1	0,36973	0,36788
2	0,18486	0,18394
3	0,06100	0,06131
4	0,01494	0,01533
5	0,00290	0,00307
6	0,00046	0,00051
7	0,00006	0,00007
8	0,00000	0,00000

Nach einem starken Unwetter sind von den 2000 Häusern der gesamten Region 300 Häuser beschädigt.

Wie groß ist die Wahrscheinlichkeit, dass sich unter 10 zufällig ausgewählten Häusern 2 beschädigte Häuser befinden?

Es gibt wiederum nur zwei mögliche Ereignisse: "Haus mit Unwetterschaden" und "Haus ohne Unwetterschaden". Es sind $N=2000$ , $M=300$ und $N-M=1700$ .

Die Zufallsvariable $X=\{{\mbox{Anzahl der Häuser mit Unwetterschaden}}\}$ ist $H(N,M,n)=H(2000;\;300;\;10)$ -verteilt.

Gesucht ist die Wahrscheinlichkeit $P(X=2)$ , für die sich $P(X=2)=f_{H}(2)={\cfrac {{300 \choose 2}\cdot {1700 \choose 8}}{2000 \choose 10}}=0,2766$ ergibt.

Wie ersichtlich, ist die Berechnung sehr aufwendig.

Da die Faustregeln einer Approximation durch die Binomialverteilung erfüllt sind, wird deshalb die gesuchte Wahrscheinlichkeit mittels der Binomialverteilung mit $p={\frac {M}{N}}=0,15$ berechnet:

$P(X=2)=f_{B}(2)={10 \choose 2}\cdot 0,15^{2}\cdot 0,85^{8}=0,2759$

Auch bei dieser Approximation entsteht ein vernachlässigbarer Fehler bei der Berechnung der Wahrscheinlichkeit mittels $B(10;\;0,15)$ statt mit der $H(2000;\;300;\;10)$ .

Approximation von Verteilungen

Aus MM*Stat

Inhaltsverzeichnis

Grundbegriffe

Approximation

Stetigkeitskorrektur

Approximation der Binomialverteilung

Approximation durch die Normalverteilung

Approximation durch die Poisson-Verteilung

Approximation der hypergeometrischen Verteilung

Approximation durch die Normalverteilung

Approximation durch die Binomialverteilung

Approximation der Poisson-Verteilung durch die Normalverteilung

Beispiele

Steuerbescheide

Unwetterschaden