Zentraler Grenzwertsatz

Aus MM*Stat

Wechseln zu: Navigation, Suche

Verteilungsmodelle

Diskrete Gleichverteilung • Binomialverteilung • Hypergeometrische Verteilung • Poisson-Verteilung • Stetige Gleichverteilung • Exponentialverteilung • Normalverteilung • Standardnormalverteilung • Schwankungsintervall • Zentraler Grenzwertsatz • Chi-Quadrat-Verteilung • t-Verteilung • F-Verteilung • Approximation von Verteilungen • Multiple Choice • Video • Aufgaben • Lösungen
Approximation • Approximation der Binomialverteilung • Approximation der hypergeometrischen Verteilung • Approximation der Poisson-Verteilung • Bernoulli-Experiment • Endlichkeitskorrektur • Freiheitsgrad • Gauß-Verteilung • Gauß'sche Glockenkurve • Gedächtnislosigkeit der Exponentialverteilung • Gleichverteilung (diskret) • Gleichverteilung (stetig) • Poisson-Prozess • Sicherheitswahrscheinlichkeit • Standardnormalverteilung • Stetigkeitskorrektur • Student'sche t-Verteilung • Überschreitungswahrscheinlichkeit • Zentrales Schwankungsintervall

Grundbegriffe

Zentraler Grenzwertsatz

Im Zusammenhang mit der Normalverteilung wurde bereits die Aussage getroffen, dass die Summe von n unabhängigen und identisch normalverteilten Zufallsvariablen X_{1},X_{2},\ldots,X_{n} ebenfalls normalverteilt ist.

Für diese Aussage spielt es keine Rolle, wie groß n ist.

Wenn die Zufallsvariablen X_{1},X_{2},\ldots ,X_{n} nicht normalverteilt sind, dann gilt diese Aussage nicht mehr exakt, jedoch für ein großes n näherungsweise.

Es seien X_{1},X_{2},\ldots,X_{n} unabhängige und identisch verteilte Zufallsvariablen mit E[X_{i}] = \mu und Var(X_{i}) = \sigma^{2}>0, für i = 1,\ldots,\,n.

Dann gilt allgemein, dass die Summe dieser Zufallsvariablen für ein großes n approximativ normalverteilt ist mit

E[X_{1}+X_{2}+\ldots +X_{n}] = n\cdot \mu und Var(X_{1}+X_{2}+\ldots +X_{n}) = n\cdot \sigma^{2}

X_{1}+X_{2}+\ldots +X_{n}\approx N(n\cdot \mu,\;n\cdot \sigma ^{2}), wobei \approx approximativ für ein großes n bedeutet.

Eine entscheidende Bedingung dafür ist, dass keine Zufallsvariable einen derart hohen Beitrag zur Gesamtvarianz leistet, dass sie die anderen Zufallsvariablen dominiert.

Die Verteilung N(n\cdot \mu,\; n\cdot \sigma^{2}) hängt jedoch von der Anzahl n der Summanden ab und hätte für n gegen unendlich einen unendlichen Erwartungswert und eine unendliche Varianz.

Exakter wird der Sachverhalt durch eine Limesaussage beschrieben, wofür von der standardisierten Summe der Zufallsvariable ausgegangen wird.

Es seien erneut X_{1},\ldots ,X_{n} unabhängige und identisch verteilte Zufallsvariablen mit

E[X_i] = \mu und Var(X_i) = \sigma^2 > 0.

Dann konvergiert die Verteilungsfunktion F_{n}(z)=P(Z_{n}\leq z) der standardisierten Summe dieser Zufallsvariablen

Z_{n}=\frac{\sum\limits_{i=1}^{n}X_{i}-n\cdot \mu}{\sqrt{\sigma^{2}\cdot n}}=\frac{1}{\sqrt{n}}\cdot \sum\limits_{i=1}^{n}\frac{X_{i}-\mu }{\sigma }

für n\rightarrow \infty gegen die Verteilungsfunktion der standardisierten Normalverteilung:

\lim_{n \rightarrow \infty} F_n(z) = \Phi(z)

Die standardisierte Summenvariable Z_{n}\, ist somit für ein großes n approximativ standardnormalverteilt:

Z_n \approx N(0;1).

Zusatzinformationen

Bedeutung des zentralen Grenzwertsatzes

Der zentrale Grenzwertsatz (von Lindeberg und Lévy) ist einer der Hauptgründe für die große Bedeutung der Normalverteilung für die Statistik.

Die praktische Relevanz des zentralen Grenzwertsatzes liegt vor allem darin, dass die Summe einer endlichen, hinreichend großen Anzahl von identisch verteilten, unabhängigen Zufallsvariablen in guter Näherung als normalverteilt angesehen werden kann.

Davon wird in der induktiven Statistik häufig Gebrauch gemacht. Was als hinreichend groß anzusehen ist, hängt von der Ausgangsverteilung ab.

In vielen praktischen Fällen ergibt sich bereits für n \geq 30 eine gute Annäherung an die Normalverteilung.

Für endliches n erfolgt die Konvergenz gegen die Normalverteilung besonders schnell, wenn die Ausgangsverteilung der Zufallsvariablen X_{i} symmetrisch ist.

Ist die Ausgangsverteilung jedoch deutlich asymmetrisch, so ist ein wesentlich größeres n erforderlich, um eine etwa gleiche Approximationsgüte zu erreichen.

Der zentrale Grenzwertsatz wurde durch weitere Grenzwertsätze verallgemeinert, so z.B. durch den Grenzwertsatz von Ljapunoff für den Fall unabhängiger, aber nicht notwendig identisch verteilter Zufallsvariablen.

Darüber hinaus gibt es weitere Grenzwertsätze, die die Konvergenz von Verteilungen gegen andere als die Normalverteilung beinhalten.

Beispiele

Stetige Zufallsvariable

In sehr vereinfachter Weise soll der zentrale Grenzwertsatz verdeutlicht werden.

X_{1},\;X_{2},\ldots seien stetige Zufallsvariablen, die unabhängig und identisch gleichverteilt im Intervall [-0,5;0,5] sind:

f(x)=\begin{cases}1 \quad  & \mbox{, wenn } -0,5\leq x\leq 0,5 \\
0\quad  & \mbox{, sonst}
\end{cases}

Für Erwartungswert und Varianz folgt:

E[X]=\frac{b+a}{2}=\frac{0,5-0,5}{2}=0

Var(X)=\frac{(b-a)^{2}}{12}=\frac{[0,5-(-0,5)]^{2}}{12}=\frac{1}{12}

Es wird nun eine Folge von Summenvariablen gebildet, wobei der Index bei der Summenvariablen Y die Anzahl der Summanden signalisiert:

Y_{n}=\sum_{i=1}^{n}X_{i}\qquad n=1,2,3,\dots

Zum Beispiel haben für n=1, n=2, n=3 die Zufallsvariablen:

Y_1 = X_1

Y_2 = X_1 + X_2

Y_3 = X_1 + X_2 + X_3

die nachstehenden Dichtefunktionen:

f(y_{1})=\begin{cases}1\quad  & \mbox{, wenn } -0,5\leq y_{1}\leq 0,5 \\
0\quad  & \mbox{, sonst}\end{cases}

f(y_2) =\begin{cases}1 + y_2 \quad & \mbox{, wenn  } -1 \leq y_2 \leq 0 \\
1 - y_2 \quad & \mbox{, wenn  } 0 \leq y_2 \leq 1 \\
0 \quad & \mbox{, sonst}
\end{cases}

f(y_{3})=\begin{cases}0,5(1,5+y_{3})^{2}\quad  & \mbox{, wenn  } -1,5\leq y_{3}\leq -0,5\\
0,5+(0,5+y_{3})(0,5-y_{3})\quad  & \mbox{, wenn  }\ -0,5<y_{3}\leq 1,5 \\
0,5(1,5-y_{3})^{3}\quad  & \mbox{, wenn  }\ 0,5<y_{3}\leq 1,5 \\
0\quad  & \mbox{, sonst}\end{cases}

Diese Dichtefunktionen enthält die folgende Graphik, wobei zum Vergleich die N(0;1) ebenfalls eingezeichnet wurde.

<R output="display">

pdf(rpdf,width=7,height=7)

curve(from=-1.6, to=+1.6, dnorm(x, mean=0, sd=1),

     ylab="f(y)", xlab="y", col="red", ylim=c(0.00, 1.1),xlim=c(-1.6, 1.6), 
     lty=1, lwd=4, font.lab=2,"xaxs"="i" ,"yaxs"="i", bty="l" )

par(new=T) curve(from=-1.4, to=+1.4, dnorm(x, mean=0, sd=0.5),

     ylab="f(y)", xlab="y", col="blue", ylim=c(0.00, 1.1),xlim=c(-1.6, 1.6), 
     lty=1, lwd=4, font.lab=2,"xaxs"="i" ,"yaxs"="i", bty="l" )

par(new=T) plot(x=c(-0.5, 0.5), y=c(1, 1), type="l", ylab="f(y)",

    xlab="y", col="brown",ylim=c(0.00, 1.1),xlim=c(-1.6, 1.6), 
    lty=1, lwd=4, font.lab=2,"xaxs"="i" ,"yaxs"="i", bty="l" )

par(new=T) plot(x=c(-1, 0), y=c(0, 1), type="l", ylab="f(y)",

    xlab="y", col="darkgreen",ylim=c(0.00, 1.1),xlim=c(-1.6, 1.6), 
    lty=1, lwd=4, font.lab=2,"xaxs"="i" ,"yaxs"="i", bty="l" )

par(new=T) plot(x=c(1, 0), y=c(0, 1), type="l", ylab="f(y)",

    xlab="y", col="darkgreen",ylim=c(0.00, 1.1),xlim=c(-1.6, 1.6), 
    lty=1, lwd=4, font.lab=2,"xaxs"="i" ,"yaxs"="i", bty="l" )

legend("topright", cex=1.2, lwd=4, col=c("brown","darkgreen","blue","red"), c("f(y1)","f(y2)","f(y3)","N(0;1)"), bty="n")

</R>

Eine Annäherung an die Normalverteilung ist unverkennbar.

Setzt man die Folge der Summenvariablen fort, so setzt sich auch die Konvergenz gegen die Normalverteilung fort, die bereits bei n = 30 zu einer relativ guten Näherung führt.