Maximum-Likelihood-Methode

Die Maximum-Likelihood-Methode ist eines der wichtigsten Verfahren zur Gewinnung von Schätzfunktionen für die Parameter einer Verteilung. Man nennt diese Methode auch Methode der maximalen Mutmaßlichkeit bzw. Größte-Dichte-Methode.

Die diskrete bzw. stetige Zufallsvariable $X\;$ in der Grundgesamtheit habe die Wahrscheinlichkeitsfunktion bzw. die Dichtefunktion $f(x|\vartheta )$ .

Die Verteilung muss vom Typ her bekannt sein, was eine wichtige Voraussetzung der Maximum-Likelihood-Methode ist.

Diese Verteilung hängt von einem unbekannten Parameter $\vartheta$ ab.

Beispiel für eine diskrete Verteilung:

So muss z.B. bekannt sein, dass die Grundgesamtheit binomialverteilt ist. Dann ist

f(x|\vartheta )

die Wahrscheinlichkeitsfunktion der Binomialverteilung

B(n;\pi )

, die von dem Parameter

\pi

abhängt, denn für verschiedene Werte von

\pi

ergeben sich unterschiedliche Wahrscheinlichkeiten für die Realisationen von

X\;

.

Beispiel für eine stetige Verteilung:

Es ist bekannt, dass die Zufallsvariable

X\;

in der Grundgesamtheit normalverteilt ist, d.h.

f(x|\vartheta )

ist die Dichtefunktion der Normalverteilung. Die Normalverteilung hängt von den Parametern

\mu

und

\sigma ^{2}

ab, von denen z.B. der Erwartungswert

E\left[X\right]=\mu

unbekannt ist.

Likelihood-Funktion

Aus der Grundgesamtheit wird eine einfache Zufallsstichprobe $(X_{i},\ldots ,X_{n})$ vom Umfang $n$ gezogen. Damit sind die Stichprobenvariablen unabhängig und identisch verteilt wie $X\;$ in der Grundgesamtheit:

$f(x_{i}|\vartheta )$ für alle $i=1,\ldots ,n$ .

Die gemeinsame Verteilung aller Stichprobenvariablen ergibt sich aufgrund der Unabhängigkeit als das Produkt der einzelnen Verteilungen:

$P(\{X_{1}=x_{1}\}\cap \ldots \cap \{X_{n}=x_{n}\}|\vartheta )=f(x_{1},\ldots ,x_{n}|\vartheta )=f(x_{1}|\vartheta )\cdot \ldots \cdot f(x_{n}|\vartheta )$

Vor der Ziehung der Stichprobe ist $f(x_{i},\ldots ,x_{n}|\vartheta )$ für diskrete Zufallsvariablen die Wahrscheinlichkeit dafür, eine Stichprobe $(x_{i},\ldots ,x_{n})$ bei festem (unbekanntem) Parameter $\vartheta$ zu erhalten.

Bei stetigen Zufallsvariablen tritt an die Stelle der Wahrscheinlichkeit eine Dichte .

$f(x_{i},\ldots ,x_{n}|\vartheta )$ hängt sowohl von den konkreten Realisierungen $x_{i},\ldots ,x_{n}$ der Stichprobenvariablen als auch vom unbekannten Parameter $\vartheta$ ab.

Nach der Ziehung der Stichprobe liegen die Stichprobenwerte fest vor. Dann hängt das Produkt $f(x_{i},\ldots ,x_{n}|\vartheta )$ nur noch von dem Parameter $\vartheta$ ab. Um dies zu verdeutlichen, schreibt man

$L(\vartheta |x_{1},\dots ,x_{n})=f(x_{1}|\vartheta )\cdot \ldots \cdot f(x_{n}|\vartheta )=\prod \limits _{i=1}^{n}f(x_{i}|\vartheta )$

Diese Funktion $L(\vartheta )$ heißt Likelihood-Funktion von $\vartheta$ und ist das Produkt von $n$ identischen Wahrscheinlichkeits- bzw. Dichtefunktionen der Stichprobenvariablen.

Für jeden möglichen Wert $\vartheta$ gibt $L(\vartheta )$ die Wahrscheinlichkeit für die konkret realisierte Stichprobe $(x_{i},\ldots ,x_{n})$ an.

Log-Likelihood-Funktion

Das Prinzip der Maximum-Likelihood-Methode zur Konstruktion von Schätzfunktionen besteht nun darin, denjenigen Wert ${\widehat {\vartheta }}$ zu finden, für den die Likelihood-Funktion ihr Maximum annimmt:

$L({\hat {\vartheta }})=\max _{\vartheta }L(\vartheta )$

Zur konkreten Stichprobe ( $x_{i},\dots ,x_{n}$ ) wird somit derjenige Parameterwert ${\widehat {\vartheta }}$ gesucht, der die plausibelste Erklärung für die Realisierung dieser Stichprobenwerte liefert.

Unter bestimmten Voraussetzungen hat $L(\vartheta )$ bei festen Werten $x_{i},\ldots ,x_{n}$ genau ein Maximum.

Notwendige Bedingung für das Erreichen eines Maximums ist, dass die erste Ableitung von $L({\widehat {\vartheta }})$ nach $\vartheta$ gleich Null ist:

${\frac {\partial L({\widehat {\vartheta }})}{\partial \vartheta }}=0$

Zur Vereinfachung der Ableitung wird oftmals die logarithmierte Likelihood-Funktion, bezeichnet als Log-Likelihood-Funktion $\ln L({\widehat {\vartheta }})$ verwendet.

Maximum-Likelihood-Schätzung (ML-Schätzung)

Da der Logarithmus einer Funktion eine streng monotone Transformation ist, besitzt $\ln L({\widehat {\vartheta }})$ sein Maximum genau an der Stelle, an der auch das Maximum der Likelihood-Funktion ist.

Die Bestimmungsgleichung ist dann

${\frac {\partial \ln L({\widehat {\vartheta }})}{\partial \vartheta }}=0$

Der so gefundene Wert ${\widehat {\vartheta }}$ wird als Schätzwert für den unbekannten Parameter $\vartheta$ gewählt und als Maximum-Likelihood-Schätzung oder kurz als ML-Schätzung bezeichnet.

Maximum-Likelihood-Schätzer (ML-Schätzer)

Die resultierende Schätzfunktion heißt Maximum-Likelihood-Schätzer (ML-Schätzer) für $\vartheta$ .

Über die zweite Ableitung von $\ln L$ nach $\vartheta$ muss geprüft werden, ob an der Stelle $\vartheta ={\widehat {\vartheta }}$ tatsächlich ein Maximum vorliegt.

Zusatzinformationen

ML-Schätzer bei normalverteilter Grundgesamtheit

Die Zufallsvariable $X\;$ in der Grundgesamtheit sei normalverteilt mit den unbekannten Parametern $\mu$ und $\sigma ^{2}$ und $X_{1},\ldots ,X_{n}$ eine einfache Zufallsstichprobe aus dieser Grundgesamtheit.

Dann gilt für jedes $X_{i}\;(i=1,\ldots ,n)$ :

$f\left(x_{i}|\mu ,\sigma \right)={\cfrac {1}{{\sqrt {2\pi }}\,\sigma }}\,\exp {\left(-{\cfrac {(x_{i}-\mu )^{2}}{2\sigma ^{2}}}\right)}$

Für die fest vorgegebene Stichprobe $(x_{1},\ldots ,x_{n})$ besitzt die Likelihood-Funktion die Form:

$L\left(\mu ,\sigma ^{2}\|x_{1},\ldots ,x_{n}\right)=\prod _{i=1}^{n}f\left(x_{i}\|\mu ,\sigma \right)$	$=\left({\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\right)^{n}\exp {\left(-{\frac {1}{2\sigma ^{2}}}\sum \limits _{i=1}^{n}(x_{i}-\mu )^{2}\right)}$
	$=\left(2\pi \sigma ^{2}\right)^{-{\frac {n}{2}}}\exp {\left(-{\frac {1}{2\sigma ^{2}}}\cdot \sum \limits _{i=1}^{n}(x_{i}-\mu )^{2}\right)}$

Logarithmieren ergibt die Log-Likelihood-Funktion:

$\ln L\left(\mu ,\sigma ^{2}|x_{1},\dots ,x_{n}\right)=-{\frac {n}{2}}\cdot \ln \left(2\pi \right)-{\frac {n}{2}}\cdot \ln \sigma ^{2}-{\frac {1}{2\sigma ^{2}}}\cdot \sum \limits _{i=1}^{n}(x_{i}-\mu )^{2}$

ML-Schätzer für den Erwartungswert

Damit $L\left(\mu ;\;\sigma ^{2}\right)$ bei gegebenen $\left(x_{1},\ldots ,x_{n}\right)$ maximal wird, ist der Schätzwert ${\widehat {\mu }}$ so zu wählen, dass die Log-Likelihood-Funktion maximal wird.

Durch partielle Differentiation nach $\mu$ und Nullsetzen der ersten Ableitung folgt:

${\frac {\partial \ln L}{\partial \mu }}=-{\frac {2\cdot \sum \limits _{i=1}^{n}(x_{i}-\mu )\cdot (-1)}{2\sigma ^{2}}}$

Das notwendige Kriterium für die Existenz eines Maximums bei ${\widehat {\mu }}$ lautet:

$-{\frac {2\cdot \sum \limits _{i=1}^{n}(x_{i}-{\widehat {\mu }})\cdot (-1)}{2\sigma ^{2}}}=0$

Daraus erhält man für $\mu$ die ML-Schätzung ${\widehat {\mu }}$ :

$\sum \limits _{i=1}^{n}(x_{i}-{\widehat {\mu }})=0$

${\widehat {\mu }}={\frac {\sum \limits _{i=1}^{n}x_{i}}{n}}={\bar {x}}$

Es ist noch die hinreichende Bedingung für ein Maximum zu prüfen. Ausgehend von der ersten Ableitung erhält man als zweite Ableitung:

${\frac {\partial ^{2}\ln L}{\partial \mu ^{2}}}=-{\frac {n}{\sigma ^{2}}}<0.$

Geht man von den Zufallsvariablen $(X_{1},\ldots ,X_{n})$ und nicht von ihren Realisationen $(x_{1},\ldots ,x_{n})$ aus, erhält man den bereits bekannten Stichprobenmittelwert

${\bar {X}}={\frac {1}{n}}\cdot \sum \limits _{i=1}^{n}X_{i}$

als eine erwartungstreue, absolut effiziente und konsistente Schätzfunktion für $\mu$ .

ML-Schätzer für die Varianz

Im Folgenden substituieren wir $\sigma ^{2}$ mit $\psi$ , also $\psi :=\sigma ^{2}$ .

Partielles Differenzieren der Log-Likelihood-Funktion nach $\psi$ und Nullsetzen der ersten Ableitung führt zu:

${\frac {\partial \ln L}{\partial \psi }}=-{\frac {n}{2}}\cdot {\frac {1}{\psi }}+{\frac {1}{2}}\cdot {\frac {1}{\psi ^{2}}}\cdot \sum \limits _{i=1}^{n}(x_{i}-\mu )^{2}$

Das notwendige Kriterium für die Existenz eines Maximums bei ${\widehat {\psi }}$ lautet:

$-{\frac {n}{2}}\cdot {\frac {1}{\widehat {\psi }}}+{\frac {1}{2}}\cdot {\frac {1}{{\widehat {\psi }}^{2}}}\cdot \sum \limits _{i=1}^{n}(x_{i}-\mu )^{2}=0$

Durch einfaches Umformen erhält man:

${\frac {n}{2{\widehat {\psi }}}}={\frac {1}{2{\widehat {\psi }}^{2}}}\cdot \sum \limits _{i=1}^{n}(x_{i}-\mu )^{2}$

${\widehat {\psi }}={\frac {1}{n}}\cdot \sum \limits _{i=1}^{n}(x_{i}-\mu )^{2}$

wobei ${\widehat {\psi }}$ die ML-Schätzung für den unbekannten Parameter $\psi =\sigma ^{2}$ ist.

Mit diesem Ergebnis lassen sich die ML-Schätzer angeben:

die erwartungstreue Schätzfunktion für $\sigma ^{2}$ , falls der Erwartungswert $\mu$ bekannt ist

S^{*2}={\frac {1}{n}}\sum \limits _{i=1}^{n}(X_{i}-\mu )^{2}

die asymptotisch erwartungstreue und konsistente Schätzfunktion für $\sigma ^{2}$ , falls der Erwartungswert $\mu$ unbekannt ist

S^{\prime 2}={\frac {1}{n}}\sum \limits _{i=1}^{n}(X_{i}-{\bar {X}})^{2}

ML-Schätzer bei binomialverteilter Grundgesamtheit

Es wird angenommen, dass die Zufallsvariable $X\;$ in der Grundgesamtheit dichotom mit dem Parameter $\pi$ ist. Der Parameter $\pi$ , der den Anteil der Elemente mit einer bestimmten Eigenschaft angibt, ist unbekannt.

Zu seiner Schätzung wird der Grundgesamtheit eine einfache Zufallsstichprobe $\left(X_{1},\ldots ,X_{n}\right)$ vom Umfang $n$ entnommen.

Dann ist die Zufallsvariable $X\;$ als Anzahl der Elemente mit der Eigenschaft in der Stichprobe binomialverteilt: $B\left(n,\pi \right)$ .

Für eine konkrete Stichprobe sind die Stichprobenwerte $x_{1},\ldots ,x_{n}$ beobachtet worden, deren Summe die realisierte Anzahl $x$ von Elementen der betreffenden Eigenschaft ist. Damit ist der beobachtete Anteil $p={\frac {x}{n}}$ .

Für die Likelihood-Funktion erhält man

$L\left(\pi |x\right)={n \choose x}\cdot \pi ^{x}\cdot (1-\pi )^{n-x}$

und für die Log-Likelihood-Funktion

$\ln L\left(\pi |x\right)=\ln {n \choose x}+x\cdot \ln \pi +(n-x)\cdot \ln(1-\pi )$

Differentiation nach $\pi$ und Nullsetzen der ersten Ableitung ergibt:

${\frac {\partial \ln L\left(\pi |x\right)}{\partial \pi }}={\frac {x}{\pi }}-{\frac {n-x}{1-\pi }}$

Das notwendige Kriterium für die Existenz eines Maximums bei ${\widehat {\pi }}$ lautet:

${\frac {x}{\widehat {\pi }}}-{\frac {n-x}{1-{\widehat {\pi }}}}=0$

und damit:

$x\cdot (1-{\widehat {\pi }})-(n-x)\cdot {\widehat {\pi }}=0$

${\widehat {\pi }}={\frac {x}{n}}$

Da die zweite Ableitung nach ${\frac {\partial ^{2}\ln L(\pi |x)}{\partial \pi ^{2}}}=-{\frac {x}{\pi ^{2}}}-{\frac {n-x}{(1-\pi )^{2}}}$

(stets) negativ ist, liegt an der Stelle ein Maximum der Log-Likelihood-Funktion vor.

Der Stichprobenanteil ${\widehat {\pi }}=p$ ist ein ML-Schätzwert für $\pi$ . Der ML-Schätzer ist der bereits bekannte Stichprobenanteilswert

${\widehat {\pi }}={\frac {X}{n}}$ .

ML-Schätzer bei Poisson-verteilter Grundgesamtheit

Es sei $X_{1},\ldots ,X_{n}$ eine einfache Zufallsstichprobe vom Umfang $n$ aus einer Poisson-verteilten Grundgesamtheit mit dem unbekannten Parameter $\lambda >0$ .

Dann gilt für jedes $X_{i}\,(i=1,\ldots ,n)$

$f_{PO}\left(x_{i},\lambda \right)={\frac {\lambda ^{x_{i}}}{x_{i}\,!}}\cdot e^{-\lambda }$

Die Likelihood-Funktion für die realisierte Stichprobe $x_{1},\dots ,x_{n}$ ist dann gegeben mit

$L\left(\lambda |x_{1},\dots ,x_{n}\right)=\prod \limits _{i=1}^{n}{\frac {\lambda ^{x_{i}}}{x_{i}\,!}}\cdot e^{-\lambda }={\frac {\lambda ^{x_{1}+\dots +x_{n}}}{x_{1}!\cdot \dots \cdot x_{n}\,!}}\cdot e^{-n\lambda }$

Für die Log-Likelihood-Funktion folgt:

$\ln L\left(\lambda |x_{1},\dots ,x_{n}\right)=\sum \limits _{i=1}^{n}\ln \left({\frac {\lambda ^{x_{i}}}{x_{i}!}}\cdot e^{-\lambda }\right)=\sum \limits _{i=1}^{n}\left(x_{i}\ln \lambda -\ln \left(x_{i}!\right)-\lambda \right)$

Differenzieren nach $\lambda$ und Nullsetzen führt zu

${\frac {\partial \ln L}{\partial \lambda }}=\sum \limits _{i=1}^{n}\left({\frac {x_{i}}{\lambda }}-1\right)$

Das notwendige Kriterium für die Existenz eines Maximums bei ${\widehat {\lambda }}$ lautet:

$\sum \limits _{i=1}^{n}\left({\frac {x_{i}}{\widehat {\lambda }}}-1\right)=0$

und damit

${\frac {1}{\widehat {\lambda }}}\cdot \sum \limits _{i=1}^{n}x_{i}-n=0,$

${\widehat {\lambda }}={\frac {1}{n}}\cdot \sum \limits _{i=1}^{n}x_{i}={\bar {x}}$

Die ML-Schätzung für $\lambda$ der Poisson-verteilten Grundgesamtheit ist somit das arithmetische Mittel der Stichprobenwerte.

Wie leicht zu prüfen, ist die hinreichende Bedingung für ein Maximum an der Stelle $\lambda ={\widehat {\lambda }}$ erfüllt:

${\frac {\partial ^{2}\ln L}{\partial \lambda ^{2}}}=-{\frac {1}{\lambda ^{2}}}\cdot \sum \limits _{i=1}^{n}x_{i}<0$ ,

da $\lambda >0$ ist und eine Poisson-verteilte Zufallsvariable keine negativen Realisationen $x_{i}$ annehmen kann.

ML-Schätzer bei exponentialverteilter Grundgesamtheit

Die Zufallsvariable $X\;$ in der Grundgesamtheit sei exponentialverteilt mit dem unbekannten Parameter $\lambda >0$ .

Die Dichtefunktion von $X\;$ lautet:

$f_{EX}(x|\lambda )={\begin{cases}\lambda \cdot \exp {\left(-\lambda x\right)}\quad &{\mbox{, wenn }}x\geq 0,\;\lambda >0\\0&{\mbox{, wenn }}\;x<0\end{cases}}$

Die Likelihood-Funktion für die realisierte Stichprobe $(x_{1},\ldots ,x_{n})$ aus dieser Grundgesamtheit ist dann gegeben mit

$L\left(\lambda |x_{1},\dots ,x_{n}\right)=\prod _{i=1}^{n}\lambda \cdot \exp {\left(\lambda x_{i}\right)}=\lambda ^{n}\cdot \prod _{i=1}^{n}\cdot \exp {\left(-\lambda x_{i}\right)}=\lambda ^{n}\cdot \exp {\left(-\lambda \sum \limits _{i=1}^{n}x_{i}\right)}$

und die Log-Likelihood-Funktion mit

$\ln L(\lambda |x_{1},\dots ,x_{n})=n\cdot \ln \lambda -\lambda \cdot \sum \limits _{i=1}^{n}x_{i}$

Ableiten nach $\lambda$ und Nullsetzen führt zu

${\frac {\partial \ln L(\lambda )}{\partial \lambda }}={\frac {n}{\lambda }}-\sum \limits _{i=1}^{n}x_{i}$

Das notwendige Kriterium für die Existenz eines Maximums bei ${\widehat {\lambda }}$ lautet:

${\frac {n}{\widehat {\lambda }}}-\sum \limits _{i=1}^{n}x_{i}=0$

Für die ML-Schätzung für ${\widehat {\lambda }}$ der exponentialverteilten Grundgesamtheit resultiert:

${\frac {n}{\widehat {\lambda }}}=\sum \limits _{i=1}^{n}x_{i}$

${\widehat {\lambda }}={\frac {n}{\sum \limits _{i=1}^{n}x_{i}}}={\frac {1}{\bar {x}}}$

Die zweite Ableitung nach $\lambda$ ergibt

${\frac {\partial ^{2}\ln L(\lambda )}{\partial \lambda ^{2}}}=-{\frac {n}{\lambda ^{2}}}$

womit die hinreichende Bedingung für ein Maximum erfüllt ist, da $n>0$ und $\lambda >0$ sind.

Maximum-Likelihood-Methode

Aus MM*Stat

Inhaltsverzeichnis

Grundbegriffe