Zentraler Grenzwertsatz

Im Zusammenhang mit der Normalverteilung wurde bereits die Aussage getroffen, dass die Summe von $n$ unabhängigen und identisch normalverteilten Zufallsvariablen $X_{1},X_{2},\ldots ,X_{n}$ ebenfalls normalverteilt ist.

Für diese Aussage spielt es keine Rolle, wie groß $n$ ist.

Wenn die Zufallsvariablen $X_{1},X_{2},\ldots ,X_{n}$ nicht normalverteilt sind, dann gilt diese Aussage nicht mehr exakt, jedoch für ein großes $n$ näherungsweise.

Es seien $X_{1},X_{2},\ldots ,X_{n}$ unabhängige und identisch verteilte Zufallsvariablen mit $E[X_{i}]=\mu$ und $Var(X_{i})=\sigma ^{2}>0$ , für $i=1,\ldots ,\,n$ .

Dann gilt allgemein, dass die Summe dieser Zufallsvariablen für ein großes $n$ approximativ normalverteilt ist mit

$E[X_{1}+X_{2}+\ldots +X_{n}]=n\cdot \mu$ und $Var(X_{1}+X_{2}+\ldots +X_{n})=n\cdot \sigma ^{2}$

$X_{1}+X_{2}+\ldots +X_{n}\approx N(n\cdot \mu ,\;n\cdot \sigma ^{2})$ , wobei $\approx$ approximativ für ein großes $n$ bedeutet.

Eine entscheidende Bedingung dafür ist, dass keine Zufallsvariable einen derart hohen Beitrag zur Gesamtvarianz leistet, dass sie die anderen Zufallsvariablen dominiert.

Die Verteilung $N(n\cdot \mu ,\;n\cdot \sigma ^{2})$ hängt jedoch von der Anzahl $n$ der Summanden ab und hätte für $n$ gegen unendlich einen unendlichen Erwartungswert und eine unendliche Varianz.

Exakter wird der Sachverhalt durch eine Limesaussage beschrieben, wofür von der standardisierten Summe der Zufallsvariable ausgegangen wird.

Es seien erneut $X_{1},\ldots ,X_{n}$ unabhängige und identisch verteilte Zufallsvariablen mit

$E[X_{i}]=\mu$ und $Var(X_{i})=\sigma ^{2}>0$ .

Dann konvergiert die Verteilungsfunktion $F_{n}(z)=P(Z_{n}\leq z)$ der standardisierten Summe dieser Zufallsvariablen

$Z_{n}={\frac {\sum \limits _{i=1}^{n}X_{i}-n\cdot \mu }{\sqrt {\sigma ^{2}\cdot n}}}={\frac {1}{\sqrt {n}}}\cdot \sum \limits _{i=1}^{n}{\frac {X_{i}-\mu }{\sigma }}$

für $n\rightarrow \infty$ gegen die Verteilungsfunktion der standardisierten Normalverteilung:

$\lim _{n\rightarrow \infty }F_{n}(z)=\Phi (z)$

Die standardisierte Summenvariable $Z_{n}\,$ ist somit für ein großes $n$ approximativ standardnormalverteilt:

$Z_{n}\approx N(0;1)$ .

Zusatzinformationen

Bedeutung des zentralen Grenzwertsatzes

Der zentrale Grenzwertsatz (von Lindeberg und Lévy) ist einer der Hauptgründe für die große Bedeutung der Normalverteilung für die Statistik.

Die praktische Relevanz des zentralen Grenzwertsatzes liegt vor allem darin, dass die Summe einer endlichen, hinreichend großen Anzahl von identisch verteilten, unabhängigen Zufallsvariablen in guter Näherung als normalverteilt angesehen werden kann.

Davon wird in der induktiven Statistik häufig Gebrauch gemacht. Was als hinreichend groß anzusehen ist, hängt von der Ausgangsverteilung ab.

In vielen praktischen Fällen ergibt sich bereits für $n\geq 30$ eine gute Annäherung an die Normalverteilung.

Für endliches $n$ erfolgt die Konvergenz gegen die Normalverteilung besonders schnell, wenn die Ausgangsverteilung der Zufallsvariablen $X_{i}$ symmetrisch ist.

Ist die Ausgangsverteilung jedoch deutlich asymmetrisch, so ist ein wesentlich größeres $n$ erforderlich, um eine etwa gleiche Approximationsgüte zu erreichen.

Der zentrale Grenzwertsatz wurde durch weitere Grenzwertsätze verallgemeinert, so z.B. durch den Grenzwertsatz von Ljapunoff für den Fall unabhängiger, aber nicht notwendig identisch verteilter Zufallsvariablen.

Darüber hinaus gibt es weitere Grenzwertsätze, die die Konvergenz von Verteilungen gegen andere als die Normalverteilung beinhalten.

Beispiele

Stetige Zufallsvariable

In sehr vereinfachter Weise soll der zentrale Grenzwertsatz verdeutlicht werden.

$X_{1},\;X_{2},\ldots$ seien stetige Zufallsvariablen, die unabhängig und identisch gleichverteilt im Intervall $[-0,5;0,5]$ sind:

$f(x)={\begin{cases}1\quad &{\mbox{, wenn }}-0,5\leq x\leq 0,5\\0\quad &{\mbox{, sonst}}\end{cases}}$

Für Erwartungswert und Varianz folgt:

$E[X]={\frac {b+a}{2}}={\frac {0,5-0,5}{2}}=0$

$Var(X)={\frac {(b-a)^{2}}{12}}={\frac {[0,5-(-0,5)]^{2}}{12}}={\frac {1}{12}}$

Es wird nun eine Folge von Summenvariablen gebildet, wobei der Index bei der Summenvariablen $Y$ die Anzahl der Summanden signalisiert:

$Y_{n}=\sum _{i=1}^{n}X_{i}\qquad n=1,2,3,\dots$

Zum Beispiel haben für $n=1,n=2,n=3$ die Zufallsvariablen:

$Y_{1}=X_{1}$

$Y_{2}=X_{1}+X_{2}$

$Y_{3}=X_{1}+X_{2}+X_{3}$

die nachstehenden Dichtefunktionen:

$f(y_{1})={\begin{cases}1\quad &{\mbox{, wenn }}-0,5\leq y_{1}\leq 0,5\\0\quad &{\mbox{, sonst}}\end{cases}}$

$f(y_{2})={\begin{cases}1+y_{2}\quad &{\mbox{, wenn }}-1\leq y_{2}\leq 0\\1-y_{2}\quad &{\mbox{, wenn }}0\leq y_{2}\leq 1\\0\quad &{\mbox{, sonst}}\end{cases}}$

$f(y_{3})={\begin{cases}0,5(1,5+y_{3})^{2}\quad &{\mbox{, wenn }}-1,5\leq y_{3}\leq -0,5\\0,5+(0,5+y_{3})(0,5-y_{3})\quad &{\mbox{, wenn }}\ -0,5<y_{3}\leq 1,5\\0,5(1,5-y_{3})^{3}\quad &{\mbox{, wenn }}\ 0,5<y_{3}\leq 1,5\\0\quad &{\mbox{, sonst}}\end{cases}}$

Diese Dichtefunktionen enthält die folgende Graphik, wobei zum Vergleich die $N(0;1)$ ebenfalls eingezeichnet wurde.

pdf(rpdf,width=7,height=7)

curve(from=-1.6, to=+1.6, dnorm(x, mean=0, sd=1),

     ylab="f(y)", xlab="y", col="red", ylim=c(0.00, 1.1),xlim=c(-1.6, 1.6), 
     lty=1, lwd=4, font.lab=2,"xaxs"="i" ,"yaxs"="i", bty="l" )

par(new=T) curve(from=-1.4, to=+1.4, dnorm(x, mean=0, sd=0.5),

     ylab="f(y)", xlab="y", col="blue", ylim=c(0.00, 1.1),xlim=c(-1.6, 1.6), 
     lty=1, lwd=4, font.lab=2,"xaxs"="i" ,"yaxs"="i", bty="l" )

par(new=T) plot(x=c(-0.5, 0.5), y=c(1, 1), type="l", ylab="f(y)",

    xlab="y", col="brown",ylim=c(0.00, 1.1),xlim=c(-1.6, 1.6), 
    lty=1, lwd=4, font.lab=2,"xaxs"="i" ,"yaxs"="i", bty="l" )

par(new=T) plot(x=c(-1, 0), y=c(0, 1), type="l", ylab="f(y)",

    xlab="y", col="darkgreen",ylim=c(0.00, 1.1),xlim=c(-1.6, 1.6), 
    lty=1, lwd=4, font.lab=2,"xaxs"="i" ,"yaxs"="i", bty="l" )

par(new=T) plot(x=c(1, 0), y=c(0, 1), type="l", ylab="f(y)",

    xlab="y", col="darkgreen",ylim=c(0.00, 1.1),xlim=c(-1.6, 1.6), 
    lty=1, lwd=4, font.lab=2,"xaxs"="i" ,"yaxs"="i", bty="l" )

legend("topright", cex=1.2, lwd=4, col=c("brown","darkgreen","blue","red"), c("f(y1)","f(y2)","f(y3)","N(0;1)"), bty="n")

</R>

Eine Annäherung an die Normalverteilung ist unverkennbar.

Setzt man die Folge der Summenvariablen fort, so setzt sich auch die Konvergenz gegen die Normalverteilung fort, die bereits bei $n=30$ zu einer relativ guten Näherung führt.

Zentraler Grenzwertsatz

Aus MM*Stat

Inhaltsverzeichnis

Grundbegriffe