Maximum-Likelihood-Methode

Aus MM*Stat

(Weitergeleitet von ML-Schätzer)
Wechseln zu: Navigation, Suche

Schätztheorie

Grundbegriffe der Schätztheorie • Gütekriterien einer Schätzfunktion • Mittlere quadratische Abweichung (stochastisch) • Erwartungstreue • Effizienz • Konsistenz • Maximum-Likelihood-Methode • Kleinste-Quadrate-Methode • Intervallschätzung • Konfidenzintervall für den Erwartungswert • Konfidenzintervall für den Erwartungswert bei bekannter Varianz • Konfidenzintervall für den Erwartungswert bei unbekannter Varianz • Konfidenzintervall für den Anteilswert • Konfidenzintervall für die Varianz • Konfidenzintervall für die Differenz zweier Erwartungswerte • Bestimmung des Stichprobenumfangs • Multiple Choice • Video • Aufgaben • Lösungen
Absolute Effizienz • Asymptotische Erwartungstreue • Bias • Breite des Konfidenzintervalls • Einseitiges Konfidenzintervall • Grenzen des Konfidenzintervalls • Grenzen des Schätzintervalls • Irrtumswahrscheinlichkeit • Kleinste-Quadrate-Schätzer • Konfidenzintervall • Konfidenzniveau • Konfidenzwahrscheinlichkeit • KQ-Methode • KQ-Schätzer • Länge des Konfidenzintervalls • Likelihood-Funktion • Log-Likelihood-Funktion • Maximum-Likelihood-Schätzer • Maximum-Likelihood-Schätzung • Mean Square Error • Methode der kleinsten Quadrate • ML-Schätzer • ML-Schätzung • Parameterschätzung • Punktschätzung • Realisiertes Konfidenzintervall • Relative Effizienz • Schätzer • Schätzfehler • Schätzfunktion • Schätzintervall • Schätzung • Schätzverfahren • Schätzwert • Symmetrisches Konfidenzintervall • Unbiasedness • Unverzerrtheit • Vertrauenswahrscheinlichkeit • Verzerrung • Zentrales Konfidenzintervall • Zufallsintervall • Zweiseitiges Konfidenzintervall

Grundbegriffe

Maximum-Likelihood-Methode

Die Maximum-Likelihood-Methode ist eines der wichtigsten Verfahren zur Gewinnung von Schätzfunktionen für die Parameter einer Verteilung. Man nennt diese Methode auch Methode der maximalen Mutmaßlichkeit bzw. Größte-Dichte-Methode.

Die diskrete bzw. stetige Zufallsvariable X\; in der Grundgesamtheit habe die Wahrscheinlichkeitsfunktion bzw. die Dichtefunktion f(x|\vartheta).

Die Verteilung muss vom Typ her bekannt sein, was eine wichtige Voraussetzung der Maximum-Likelihood-Methode ist.

Diese Verteilung hängt von einem unbekannten Parameter \vartheta ab.

So muss z.B. bekannt sein, dass die Grundgesamtheit binomialverteilt ist. Dann ist f(x|\vartheta) die Wahrscheinlichkeitsfunktion der Binomialverteilung B(n;\pi), die von dem Parameter \pi abhängt, denn für verschiedene Werte von \pi ergeben sich unterschiedliche Wahrscheinlichkeiten für die Realisationen von X\;.
Es ist bekannt, dass die Zufallsvariable X\; in der Grundgesamtheit normalverteilt ist, d.h. f(x|\vartheta) ist die Dichtefunktion der Normalverteilung. Die Normalverteilung hängt von den Parametern \mu und \sigma^{2} ab, von denen z.B. der Erwartungswert E\left[X\right] = \mu unbekannt ist.

Likelihood-Funktion

Aus der Grundgesamtheit wird eine einfache Zufallsstichprobe (X_{i},\ldots,X_{n}) vom Umfang n gezogen. Damit sind die Stichprobenvariablen unabhängig und identisch verteilt wie X\; in der Grundgesamtheit:

f(x_{i}|\vartheta) für alle i = 1, \ldots, n.

Die gemeinsame Verteilung aller Stichprobenvariablen ergibt sich aufgrund der Unabhängigkeit als das Produkt der einzelnen Verteilungen:

P(\{X_{1}=x_{1}\}\cap\ldots\cap\{X_{n}=x_{n}\}|\vartheta)=f(x_{1},\ldots,x_{n}|\vartheta)=f(x_{1}|\vartheta)\cdot\ldots\cdot f(x_{n}|\vartheta)

Vor der Ziehung der Stichprobe ist f(x_{i},\ldots,x_{n}|\vartheta) für diskrete Zufallsvariablen die Wahrscheinlichkeit dafür, eine Stichprobe (x_{i},\ldots,x_{n}) bei festem (unbekanntem) Parameter \vartheta zu erhalten.

Bei stetigen Zufallsvariablen tritt an die Stelle der Wahrscheinlichkeit eine Dichte .

f(x_{i},\ldots,x_{n}|\vartheta) hängt sowohl von den konkreten Realisierungen x_{i},\ldots,x_{n} der Stichprobenvariablen als auch vom unbekannten Parameter \vartheta ab.

Nach der Ziehung der Stichprobe liegen die Stichprobenwerte fest vor. Dann hängt das Produkt f(x_{i},\ldots,x_{n}|\vartheta) nur noch von dem Parameter \vartheta ab. Um dies zu verdeutlichen, schreibt man

L(\vartheta|x_{1},\dots,x_{n})=f(x_{1}|\vartheta)\cdot\ldots\cdot
f(x_{n}|\vartheta)=\prod\limits_{i=1}^{n}f(x_{i}|\vartheta)

Diese Funktion L(\vartheta) heißt Likelihood-Funktion von \vartheta und ist das Produkt von n identischen Wahrscheinlichkeits- bzw. Dichtefunktionen der Stichprobenvariablen.

Für jeden möglichen Wert \vartheta gibt L(\vartheta) die Wahrscheinlichkeit für die konkret realisierte Stichprobe (x_{i},\ldots,x_{n}) an.

Log-Likelihood-Funktion

Das Prinzip der Maximum-Likelihood-Methode zur Konstruktion von Schätzfunktionen besteht nun darin, denjenigen Wert \widehat{\vartheta} zu finden, für den die Likelihood-Funktion ihr Maximum annimmt:

L(\hat{\vartheta})=\max_{\vartheta}L(\vartheta)

Zur konkreten Stichprobe (x_{i},\dots,x_{n}) wird somit derjenige Parameterwert \widehat{\vartheta} gesucht, der die plausibelste Erklärung für die Realisierung dieser Stichprobenwerte liefert.

Unter bestimmten Voraussetzungen hat L(\vartheta) bei festen Werten x_{i},\ldots,x_{n} genau ein Maximum.

Notwendige Bedingung für das Erreichen eines Maximums ist, dass die erste Ableitung von L(\widehat{\vartheta}) nach \vartheta gleich Null ist:

\frac{\partial L(\widehat{\vartheta})}{\partial\vartheta}=0

Zur Vereinfachung der Ableitung wird oftmals die logarithmierte Likelihood-Funktion, bezeichnet als Log-Likelihood-Funktion \ln L(\widehat{\vartheta}) verwendet.

Maximum-Likelihood-Schätzung (ML-Schätzung)

Da der Logarithmus einer Funktion eine streng monotone Transformation ist, besitzt \ln L(\widehat{\vartheta}) sein Maximum genau an der Stelle, an der auch das Maximum der Likelihood-Funktion ist.

Die Bestimmungsgleichung ist dann

\frac{\partial\ln L(\widehat{\vartheta})}{\partial\vartheta}=0

Der so gefundene Wert \widehat{\vartheta} wird als Schätzwert für den unbekannten Parameter \vartheta gewählt und als Maximum-Likelihood-Schätzung oder kurz als ML-Schätzung bezeichnet.

Maximum-Likelihood-Schätzer (ML-Schätzer)

Die resultierende Schätzfunktion heißt Maximum-Likelihood-Schätzer (ML-Schätzer) für \vartheta.

Über die zweite Ableitung von \ln L nach \vartheta muss geprüft werden, ob an der Stelle \vartheta =\widehat{\vartheta} tatsächlich ein Maximum vorliegt.

Zusatzinformationen

ML-Schätzer bei normalverteilter Grundgesamtheit

Die Zufallsvariable X\; in der Grundgesamtheit sei normalverteilt mit den unbekannten Parametern \mu und \sigma^{2} und X_{1},\ldots,X_{n} eine einfache Zufallsstichprobe aus dieser Grundgesamtheit.

Dann gilt für jedes X_{i}\;(i=1,\ldots,n):

f\left(x_{i}|\mu,\sigma\right)=\cfrac{1}{\sqrt{2\pi}\,\sigma}\,\exp{\left(-\cfrac{(x_{i}-\mu)^{2}}{2\sigma^{2}}\right)}

Für die fest vorgegebene Stichprobe (x_{1},\ldots,x_{n}) besitzt die Likelihood-Funktion die Form:

L\left(\mu, \sigma^{2}|x_{1}, \ldots, x_{n}\right) = \prod_{i=1}^{n} f\left(x_{i}|\mu,\sigma\right) =  \left(  \frac{1}{\sqrt{2 \pi\sigma^{2}}} \right) ^{n} \exp{\left(-\frac{1}{2 \sigma^{2}}\sum\limits_{i=1}^{n} (x_{i} - \mu)^{2}\right)}
=\left(2 \pi\sigma^{2}\right)^{- \frac{n}{2}} \exp{ \left( - \frac{1}{2\sigma^{2}}\cdot \sum\limits_{i=1}^{n} (x_{i} - \mu)^{2} \right)}

Logarithmieren ergibt die Log-Likelihood-Funktion:

\ln L\left(\mu, \sigma^{2} | x_{1}, \dots, x_{n}\right) = - \frac{n}{2} \cdot\ln\left(2 \pi\right)- \frac{n}{2} \cdot\ln\sigma^{2} - \frac{1}{2 \sigma^{2}} \cdot\sum\limits_{i=1}^{n} (x_{i} - \mu)^{2}

ML-Schätzer für den Erwartungswert

Damit L\left(\mu;\;\sigma^{2}\right) bei gegebenen \left(x_{1},\ldots,x_{n}\right) maximal wird, ist der Schätzwert \widehat{\mu} so zu wählen, dass die Log-Likelihood-Funktion maximal wird.

Durch partielle Differentiation nach \mu und Nullsetzen der ersten Ableitung folgt:

\frac{\partial\ln L}{\partial\mu}=-\frac{2\cdot\sum\limits_{i=1}^{n}(x_{i}-\mu)\cdot(-1)}{2\sigma^{2}}

Das notwendige Kriterium für die Existenz eines Maximums bei \widehat{\mu} lautet:

-\frac{2\cdot\sum\limits_{i=1}^{n}(x_{i}-\widehat{\mu})\cdot(-1)}{2\sigma^{2}}=0

Daraus erhält man für \mu die ML-Schätzung \widehat{\mu}:

\sum\limits_{i=1}^{n}(x_{i}-\widehat{\mu})=0

\widehat{\mu}=\frac{\sum\limits_{i=1}^{n}x_{i}}{n}=\bar{x}

Es ist noch die hinreichende Bedingung für ein Maximum zu prüfen. Ausgehend von der ersten Ableitung erhält man als zweite Ableitung:

\frac{\partial^{2}\ln L}{\partial\mu^{2}}=-\frac{n}{\sigma^2} < 0.

Geht man von den Zufallsvariablen (X_{1},\ldots,X_{n}) und nicht von ihren Realisationen (x_{1},\ldots,x_{n}) aus, erhält man den bereits bekannten Stichprobenmittelwert

\bar{X}= \frac{1}{n}\cdot\sum\limits_{i=1}^{n}X_{i}

als eine erwartungstreue, absolut effiziente und konsistente Schätzfunktion für \mu.

ML-Schätzer für die Varianz

Im Folgenden substituieren wir \sigma^2 mit \psi, also \psi := \sigma^2.

Partielles Differenzieren der Log-Likelihood-Funktion nach \psi und Nullsetzen der ersten Ableitung führt zu:

\frac{\partial\ln L}{\partial\psi}=-\frac{n}{2} \cdot\frac{1}{\psi}+\frac {1}{2} \cdot \frac{1}{\psi^{2}} \cdot\sum\limits_{i=1}^{n}(x_{i}-\mu)^{2}

Das notwendige Kriterium für die Existenz eines Maximums bei \widehat{\psi} lautet:

 -\frac{n}{2} \cdot\frac{1}{\widehat{\psi}}+\frac {1}{2} \cdot \frac{1}{\widehat{\psi}^{2}} \cdot\sum\limits_{i=1}^{n}(x_{i}-\mu)^{2}= 0

Durch einfaches Umformen erhält man:

\frac{n}{2\widehat{\psi}}=\frac{1}{2\widehat{\psi}^{2}}\cdot\sum\limits_{i=1}^{n}(x_{i}-\mu)^{2}

\widehat{\psi}=\frac{1}{n}\cdot\sum\limits_{i=1}^{n}(x_{i}-\mu)^{2}

wobei \widehat{\psi} die ML-Schätzung für den unbekannten Parameter \psi = \sigma^2 ist.

Mit diesem Ergebnis lassen sich die ML-Schätzer angeben:

S^{*2}=\frac{1}{n}\sum\limits_{i=1}^{n}(X_{i}-\mu)^{2}
S^{\prime 2}=\frac{1}{n}\sum\limits_{i=1}^{n}(X_{i}-\bar{X})^{2}

ML-Schätzer bei binomialverteilter Grundgesamtheit

Es wird angenommen, dass die Zufallsvariable X\; in der Grundgesamtheit dichotom mit dem Parameter \pi ist. Der Parameter \pi, der den Anteil der Elemente mit einer bestimmten Eigenschaft angibt, ist unbekannt.

Zu seiner Schätzung wird der Grundgesamtheit eine einfache Zufallsstichprobe \left(X_{1}, \ldots, X_{n}\right) vom Umfang n entnommen.

Dann ist die Zufallsvariable X\; als Anzahl der Elemente mit der Eigenschaft in der Stichprobe binomialverteilt: B\left(n,\pi\right).

Für eine konkrete Stichprobe sind die Stichprobenwerte x_{1}, \ldots, x_{n} beobachtet worden, deren Summe die realisierte Anzahl x von Elementen der betreffenden Eigenschaft ist. Damit ist der beobachtete Anteil p = \frac{x}{n}.

Für die Likelihood-Funktion erhält man

L\left(\pi|x\right)={n\choose x} \cdot\pi^{x}\cdot(1-\pi)^{n-x}

und für die Log-Likelihood-Funktion

\ln L\left(\pi|x\right)=\ln{n\choose x}+x\cdot \ln\pi+(n-x)\cdot\ln(1-\pi)

Differentiation nach \pi und Nullsetzen der ersten Ableitung ergibt:

\frac{\partial\ln L\left(\pi|x\right)}{\partial\pi}=\frac{x}{\pi}-\frac{n-x}{1-\pi}

Das notwendige Kriterium für die Existenz eines Maximums bei \widehat{\pi} lautet:

\frac{x}{\widehat{\pi}}-\frac{n-x}{1-\widehat{\pi}}=0

und damit:

x\cdot (1-\widehat{\pi})-(n-x)\cdot \widehat{\pi}=0

\widehat{\pi}=\frac{x}{n}

Da die zweite Ableitung nach \frac{\partial^{2}\ln L(\pi|x)}{\partial\pi^{2}}=-\frac{x}{\pi^{2}}-\frac{n-x}{(1-\pi)^{2}}

(stets) negativ ist, liegt an der Stelle ein Maximum der Log-Likelihood-Funktion vor.

Der Stichprobenanteil \widehat{\pi}=p ist ein ML-Schätzwert für \pi. Der ML-Schätzer ist der bereits bekannte Stichprobenanteilswert

\widehat{\pi}=\frac{X}{n}.

ML-Schätzer bei Poisson-verteilter Grundgesamtheit

Es sei X_{1},\ldots,X_{n} eine einfache Zufallsstichprobe vom Umfang n aus einer Poisson-verteilten Grundgesamtheit mit dem unbekannten Parameter \lambda>0.

Dann gilt für jedes X_{i}\,(i=1,\ldots,n)

f_{PO}\left(x_{i},\lambda\right)=\frac{\lambda^{x_{i}}}{x_{i}\,!}\cdot e^{-\lambda}

Die Likelihood-Funktion für die realisierte Stichprobe x_{1},\dots,x_{n} ist dann gegeben mit

L\left(\lambda|x_{1},\dots,x_{n}\right)=\prod\limits_{i=1}^{n}\frac{\lambda^{x_{i}}}{x_{i}\,!}\cdot e^{-\lambda}=\frac{\lambda^{x_{1}+\dots+x_{n}}}{x_{1}!\cdot \dots\cdot x_{n}\,!}\cdot e^{-n\lambda}

Für die Log-Likelihood-Funktion folgt:

\ln L\left(\lambda|x_{1},\dots,x_{n}\right)=\sum\limits_{i=1}^{n}\ln\left(\frac{\lambda^{x_{i}}}{x_{i}!}\cdot e^{-\lambda}\right)  =\sum\limits_{i=1}^{n}\left(x_{i}\ln\lambda-\ln\left(x_{i}!\right)-\lambda\right)

Differenzieren nach \lambda und Nullsetzen führt zu

\frac{\partial\ln L}{\partial\lambda}=\sum\limits_{i=1}^{n}\left(\frac{x_{i}}{\lambda}-1\right)

Das notwendige Kriterium für die Existenz eines Maximums bei \widehat{\lambda} lautet:

\sum\limits_{i=1}^{n}\left(\frac{x_{i}}{\widehat{\lambda}}-1\right)  =0

und damit

\frac{1}{\widehat{\lambda}}\cdot\sum\limits_{i=1}^{n}x_{i}-n=0,

\widehat{\lambda}=\frac{1}{n}\cdot\sum\limits_{i=1}^{n}x_{i}=\bar{x}

Die ML-Schätzung für \lambda der Poisson-verteilten Grundgesamtheit ist somit das arithmetische Mittel der Stichprobenwerte.

Wie leicht zu prüfen, ist die hinreichende Bedingung für ein Maximum an der Stelle \lambda = \widehat{\lambda} erfüllt:

\frac{\partial^{2}\ln L}{\partial\lambda^{2}}=-\frac{1}{\lambda^{2}}\cdot\sum\limits_{i=1}^{n}x_{i}<0,

da \lambda>0 ist und eine Poisson-verteilte Zufallsvariable keine negativen Realisationen x_{i} annehmen kann.

ML-Schätzer bei exponentialverteilter Grundgesamtheit

Die Zufallsvariable X\; in der Grundgesamtheit sei exponentialverteilt mit dem unbekannten Parameter \lambda > 0.

Die Dichtefunktion von X\; lautet:

f_{EX}(x|\lambda)=\begin{cases}\lambda\cdot \exp{\left(-\lambda x\right)}\quad & \mbox{, wenn }x\geq0,\; \lambda > 0\\
0 & \mbox{, wenn }\; x<0
\end{cases}

Die Likelihood-Funktion für die realisierte Stichprobe (x_{1},\ldots,x_{n}) aus dieser Grundgesamtheit ist dann gegeben mit

L\left(\lambda|x_{1},\dots,x_{n}\right)=\prod_{i=1}^{n}\lambda\cdot \exp{\left(\lambda x_{i}\right)}=\lambda^{n}\cdot\prod_{i=1}^{n}\cdot \exp{\left(-\lambda x_{i}\right)}=\lambda^{n}\cdot \exp{\left(-\lambda\sum\limits_{i=1}^{n}x_{i}\right)}

und die Log-Likelihood-Funktion mit

\ln L(\lambda|x_{1},\dots,x_{n})=n\cdot\ln\lambda-\lambda\cdot\sum\limits_{i=1}^{n}x_{i}

Ableiten nach \lambda und Nullsetzen führt zu

\frac{\partial\ln L(\lambda)}{\partial\lambda}=\frac{n}{\lambda}-\sum\limits_{i=1}^{n}x_{i}

Das notwendige Kriterium für die Existenz eines Maximums bei \widehat{\lambda} lautet:

\frac{n}{\widehat{\lambda}}-\sum\limits_{i=1}^{n}x_{i}=0

Für die ML-Schätzung für \widehat{\lambda} der exponentialverteilten Grundgesamtheit resultiert:

\frac{n}{\widehat{\lambda}}=\sum\limits_{i=1}^{n}x_{i}

\widehat{\lambda}=\frac{n}{\sum\limits_{i=1}^{n}x_{i}}=\frac{1}{\bar{x}}

Die zweite Ableitung nach \lambda ergibt

\frac{\partial^{2}\ln L(\lambda)}{\partial\lambda^{2}}=-\frac{n}{\lambda^{2}}

womit die hinreichende Bedingung für ein Maximum erfüllt ist, da n > 0 und \lambda> 0 sind.