Zentraler Grenzwertsatz
Aus MM*Stat
Grundbegriffe
Zentraler Grenzwertsatz
Im Zusammenhang mit der Normalverteilung wurde bereits die Aussage getroffen, dass die Summe von unabhängigen und identisch normalverteilten Zufallsvariablen ebenfalls normalverteilt ist.
Für diese Aussage spielt es keine Rolle, wie groß ist.
Wenn die Zufallsvariablen nicht normalverteilt sind, dann gilt diese Aussage nicht mehr exakt, jedoch für ein großes näherungsweise.
Es seien unabhängige und identisch verteilte Zufallsvariablen mit und , für .
Dann gilt allgemein, dass die Summe dieser Zufallsvariablen für ein großes approximativ normalverteilt ist mit
und
, wobei approximativ für ein großes bedeutet.
Eine entscheidende Bedingung dafür ist, dass keine Zufallsvariable einen derart hohen Beitrag zur Gesamtvarianz leistet, dass sie die anderen Zufallsvariablen dominiert.
Die Verteilung hängt jedoch von der Anzahl der Summanden ab und hätte für gegen unendlich einen unendlichen Erwartungswert und eine unendliche Varianz.
Exakter wird der Sachverhalt durch eine Limesaussage beschrieben, wofür von der standardisierten Summe der Zufallsvariable ausgegangen wird.
Es seien erneut unabhängige und identisch verteilte Zufallsvariablen mit
und .
Dann konvergiert die Verteilungsfunktion der standardisierten Summe dieser Zufallsvariablen
für gegen die Verteilungsfunktion der standardisierten Normalverteilung:
Die standardisierte Summenvariable ist somit für ein großes approximativ standardnormalverteilt:
.
Zusatzinformationen
Bedeutung des zentralen Grenzwertsatzes
Der zentrale Grenzwertsatz (von Lindeberg und Lévy) ist einer der Hauptgründe für die große Bedeutung der Normalverteilung für die Statistik.
Die praktische Relevanz des zentralen Grenzwertsatzes liegt vor allem darin, dass die Summe einer endlichen, hinreichend großen Anzahl von identisch verteilten, unabhängigen Zufallsvariablen in guter Näherung als normalverteilt angesehen werden kann.
Davon wird in der induktiven Statistik häufig Gebrauch gemacht. Was als hinreichend groß anzusehen ist, hängt von der Ausgangsverteilung ab.
In vielen praktischen Fällen ergibt sich bereits für eine gute Annäherung an die Normalverteilung.
Für endliches erfolgt die Konvergenz gegen die Normalverteilung besonders schnell, wenn die Ausgangsverteilung der Zufallsvariablen symmetrisch ist.
Ist die Ausgangsverteilung jedoch deutlich asymmetrisch, so ist ein wesentlich größeres erforderlich, um eine etwa gleiche Approximationsgüte zu erreichen.
Der zentrale Grenzwertsatz wurde durch weitere Grenzwertsätze verallgemeinert, so z.B. durch den Grenzwertsatz von Ljapunoff für den Fall unabhängiger, aber nicht notwendig identisch verteilter Zufallsvariablen.
Darüber hinaus gibt es weitere Grenzwertsätze, die die Konvergenz von Verteilungen gegen andere als die Normalverteilung beinhalten.
Beispiele
Stetige Zufallsvariable
In sehr vereinfachter Weise soll der zentrale Grenzwertsatz verdeutlicht werden.
seien stetige Zufallsvariablen, die unabhängig und identisch gleichverteilt im Intervall sind:
Für Erwartungswert und Varianz folgt:
Es wird nun eine Folge von Summenvariablen gebildet, wobei der Index bei der Summenvariablen die Anzahl der Summanden signalisiert:
Zum Beispiel haben für die Zufallsvariablen:
die nachstehenden Dichtefunktionen:
Diese Dichtefunktionen enthält die folgende Graphik, wobei zum Vergleich die ebenfalls eingezeichnet wurde.
<R output="display">
pdf(rpdf,width=7,height=7) curve(from=-1.6, to=+1.6, dnorm(x, mean=0, sd=1), ylab="f(y)", xlab="y", col="red", ylim=c(0.00, 1.1),xlim=c(-1.6, 1.6), lty=1, lwd=4, font.lab=2,"xaxs"="i" ,"yaxs"="i", bty="l" ) par(new=T) curve(from=-1.4, to=+1.4, dnorm(x, mean=0, sd=0.5), ylab="f(y)", xlab="y", col="blue", ylim=c(0.00, 1.1),xlim=c(-1.6, 1.6), lty=1, lwd=4, font.lab=2,"xaxs"="i" ,"yaxs"="i", bty="l" ) par(new=T) plot(x=c(-0.5, 0.5), y=c(1, 1), type="l", ylab="f(y)", xlab="y", col="brown",ylim=c(0.00, 1.1),xlim=c(-1.6, 1.6), lty=1, lwd=4, font.lab=2,"xaxs"="i" ,"yaxs"="i", bty="l" ) par(new=T) plot(x=c(-1, 0), y=c(0, 1), type="l", ylab="f(y)", xlab="y", col="darkgreen",ylim=c(0.00, 1.1),xlim=c(-1.6, 1.6), lty=1, lwd=4, font.lab=2,"xaxs"="i" ,"yaxs"="i", bty="l" ) par(new=T) plot(x=c(1, 0), y=c(0, 1), type="l", ylab="f(y)", xlab="y", col="darkgreen",ylim=c(0.00, 1.1),xlim=c(-1.6, 1.6), lty=1, lwd=4, font.lab=2,"xaxs"="i" ,"yaxs"="i", bty="l" ) legend("topright", cex=1.2, lwd=4, col=c("brown","darkgreen","blue","red"), c("f(y1)","f(y2)","f(y3)","N(0;1)"), bty="n") </R> |
Eine Annäherung an die Normalverteilung ist unverkennbar.
Setzt man die Folge der Summenvariablen fort, so setzt sich auch die Konvergenz gegen die Normalverteilung fort, die bereits bei zu einer relativ guten Näherung führt.