Hypergeometrische Verteilung

Aus MM*Stat

Version vom 18. Mai 2018, 14:16 Uhr von Jacobdan (Diskussion | Beiträge) (Die Seite wurde neu angelegt: „{{Verteilungsmodelle}} =={{Vorlage:Überschrift}}== ===Hypergeometrische Verteilung=== Der ''hypergeometrischen Verteilung'' liegt ein Zufallsexperiment…“)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Wechseln zu: Navigation, Suche

Verteilungsmodelle

Diskrete Gleichverteilung • Binomialverteilung • Hypergeometrische Verteilung • Poisson-Verteilung • Stetige Gleichverteilung • Exponentialverteilung • Normalverteilung • Standardnormalverteilung • Schwankungsintervall • Zentraler Grenzwertsatz • Chi-Quadrat-Verteilung • t-Verteilung • F-Verteilung • Approximation von Verteilungen • Multiple Choice • Video • Aufgaben • Lösungen
Approximation • Approximation der Binomialverteilung • Approximation der hypergeometrischen Verteilung • Approximation der Poisson-Verteilung • Bernoulli-Experiment • Endlichkeitskorrektur • Freiheitsgrad • Gauß-Verteilung • Gauß'sche Glockenkurve • Gedächtnislosigkeit der Exponentialverteilung • Gleichverteilung (diskret) • Gleichverteilung (stetig) • Poisson-Prozess • Sicherheitswahrscheinlichkeit • Standardnormalverteilung • Stetigkeitskorrektur • Student'sche t-Verteilung • Überschreitungswahrscheinlichkeit • Zentrales Schwankungsintervall

Grundbegriffe

Hypergeometrische Verteilung

Der hypergeometrischen Verteilung liegt ein Zufallsexperiment mit folgenden Charakteristika zugrunde:

Daraus resultiert, dass bei einem solchen Zufallsexperiment keine Unabhängigkeit der Ziehungen und damit keine Konstanz der Wahrscheinlichkeiten P(A) gegeben ist.

Die Zufallsvariable X, die die Anzahl des Auftretens von A bei n-maliger Durchführung dieses Zufallsexperimentes beinhaltet, heißt hypergeometrisch verteilt mit den Parametern N, M und n, wenn ihre Wahrscheinlichkeitsfunktion durch

f_{H}(x;N,M,n)=\begin{cases}\frac{{M \choose x}\cdot {N-M \choose n-x}}{{N \choose n}} & \mbox{, wenn }\ x=\max(0,n-(N-M)),\dots , \min(n,M) \\
0 & \mbox{, sonst}\end{cases}

gegeben ist. In Kurzform schreibt man: X \sim H(N,M,n)\,.

Erwartungswert und Varianz der hypergeometrischen Verteilung H(N, M, n) sind gegeben mit

E[X] = n \cdot \frac{M}{N}

Var(X) = n \cdot \frac{M}{N} \cdot \left( 1- \frac{M}{N} \right) \cdot \frac{N-n}{N-1}

Endlichkeitskorrektur

Setzt man \frac{M}{N} = p, dann folgt

E[X]=n\cdot \frac{M}{N}=n\cdot p

Var(X)=n\cdot \frac{M}{N}\cdot \left( 1-\frac{M}{N}\right) \cdot \frac{N-n}{N-1}=n\cdot p\cdot (p-1)\cdot \frac{N-n}{N-1}

Damit hat die H(N, M, n)-Verteilung den gleichen Erwartungswert wie die entsprechende Binomialverteilung B(n, \frac{M}{N}), jedoch eine um den Faktor \frac{N-n}{N-1} kleinere Varianz.

Die kleinere Varianz lässt sich damit erklären, dass beim Ziehen ohne Zurücklegen keine schon gewonnene Information verschenkt wird.

Der Faktor \frac{N-n}{N-1} wird als Endlichkeitskorrektur bezeichnet.

Zusatzinformationen

Hypergeometrische Verteilung und Binomialverteilung

Ebenso wie bei der Binomialverteilung können bei der hypergeometrischen Verteilung im Ergebnis des Zufallsexperimentes nur zwei mögliche Ereignisse \,A und \bar A auftreten.

Im Unterschied zur Binomialverteilung wird jedoch ohne Zurücklegen gezogen, wodurch die Ziehungen nicht unabhängig voneinander sind.

Durch das Ziehen ohne Zurücklegen verringert sich die Menge der Objekte von Ziehung zu Ziehung, woraus sofort ersichtlich wird, dass n\leq N gelten muss.

Es verändert sich außerdem von Ziehung zu Ziehung die Zusammensetzung der Objekte in der Gesamtheit hinsichtlich der Eigenschaft A und damit die Wahrscheinlichkeit, ein Objekt mit der Eigenschaft A zu ziehen.

Erläuterungen zur Wahrscheinlichkeitsfunktion

  • Da jede Ziehung nur einmal ausgeführt und ohne Zurücklegen gearbeitet wird, kann jedes einzelne Objekt nur einmal bei n Ziehungen auftreten (keine Wiederholung).
Bei n-maliger Durchführung der Ziehungen interessiert die Gesamtzahl des Eintretens von A, so dass die Zufallsvariable X = \{\mbox{Anzahl des Eintretens von A bei n Versuchen}\} betrachtet wird.
Die Anordnung der n gezogenen Objekte spielt hinsichtlich der Anzahl des Eintretens von A, d.h. für die Bestimmung von \{X =x\}, keine Rolle.
Mittels der Kombinatorik lässt sich die Anzahl der Möglichkeiten bestimmen, aus N Objekten n ohne Zurücklegen und ohne Berücksichtigung der Anordnung zu ziehen.
Sie entspricht der Anzahl der Kombinationen ohne Wiederholung:
{N \choose n}
  • Wieviele "günstige" Möglichkeiten gibt es, \{X = x\} zu erhalten?
Es gilt zunächst x\leq M, da nicht mehr Objekte mit A gezogen werden können, als in der Gesamtheit vorhanden sind, und analog n - x \leq N - M.
Da ohne Zurücklegen gezogen wird, kann ein Objekt mit A nicht nochmals eintreten (ohne Wiederholung).
Weiterhin spielt für \{X = x\} die Anordnung der Objekte mit A in der Ereignisfolge keine Rolle.
Daraus folgt für die Anzahl der Möglichkeiten, aus den M Objekten mit A genau x auszuwählen:
{M \choose x}
Analog folgt für die Anzahl der Möglichkeiten, aus den N - M Objekten ohne die Eigenschaft A genau n - x auszuwählen:
{N-M \choose n-x}
Jede mögliche Ereignisfolge, aus den M Objekten mit A genau x auszuwählen, kann mit jeder möglichen Ereignisfolge, aus den N- M Objekten ohne die Eigenschaft A genau n - x auszuwählen, verbunden werden, damit sich insgesamt n gezogene Objekte ergeben.
Anzahl der für \{X = x\} günstigen Möglichkeiten:
{M \choose x}\cdot{N-M \choose n-x}
P(X=x)=f(x)=\frac{{M \choose x}\cdot{N-M \choose n-x}}{{N \choose n}}

Bestimmung des Wertebereiches der Zufallsvariable

Der größtmögliche Wert von X ist n, wenn n\leq M ist, und M, wenn M<n, so dass gilt:

x_{\max }=\min (n;\,M).

Für den kleinstmöglichen Wert von X ergibt sich:

Es ist x\geq 0. Falls n jedoch größer ist als die Anzahl der Objekte ohne A, gilt x\geq n-(N-M).

Daraus folgt:

x_{\min }=\max [0;\,n-(N-M)].

Graphische Darstellung der hypergeometrischen Verteilung

Die grafische Darstellung der Wahrscheinlichkeitsfunktion der hypergeometrischen Verteilung erfolgt in Form eines Stabdiagramms, zum Beispiel für

N=100,\; M=20,\; n=10 \mbox{ und } N=16,\; M=8,\; n=8.

<R output="display">

pdf(rpdf,width=7,height=7)

x=c(0:8) H1<- dhyper(x, n=80, m=20, k=10) H2<- dhyper(x, n=8, m=8, k=8)

par(mfrow=c(2,1))

plot(H1, col="white", xaxt="n",xpd=TRUE, xlim= c(0, 8), ylim=c(0.0,0.5), ylab="f(x)", xlab="x", font.lab=2, "yaxs"="i", main="N=100, M=20, n=10", las=1, font.axis=2 ) axis(side=1, at=c(0,2,4,6,8), font.axis=2) lines(c(0:8), H1, type="h", lwd=5, col="BLUE") box(which="figure")

plot(H2, col="white", xaxt="n",xpd=TRUE, xlim= c(0, 8), ylim=c(0.0,0.5), ylab="f(x)", xlab="x", font.lab=2, "yaxs"="i", main="N=16, M=8, n=8", las=1, font.axis=2 ) axis(side=1, at=c(0,2,4,6,8), font.axis=2) lines(c(0:8), H2, type="h", lwd=5, col="BLUE") box(which="figure") box(which="outer")

</R>


Beispiele

Prüfungsfragen

Einem Prüfling wird ein Gesamtkatalog mit 10 Prüfungsfragen vorgelegt.

Der Prüfling weiß, dass der zuständige Prüfer von diesen 10 Fragen 6 Fragen so schwer formuliert hat, dass kein Prüfling sie beantworten könnte.

Von diesen 10 Fragen darf der Prüfling 3 Fragen für seine Prüfung selbst zufällig auswählen.

N = 10 Fragen

M = 4 Fragen besitzen Eigenschaft A, beantwortbar zu sein

n = 3 Fragen werden zufällig gezogen (ohne Zurücklegen)

X = "Anzahl der Fragen mit der Eigenschaft A unter n gezogenen"

Wertebereich von X: \max(0, n - (N - M))\leq x \leq \min(n, M) , d.h.\ 0 \leq X \leq 3

Motivation der Anwendung der hypergeometrischen Verteilung:

  • endliche Gesamtheit von Prüfungsfragen,
  • Zurücklegen macht leider keinen Sinn bei Prüfungsfragen,
  • deshalb keine Unabhängigkeit der Ziehungen,
  • daraus resultiert, dass sich P(A) verändert, je nachdem was der Prüfling schon gezogen hat.

Wie groß ist die Wahrscheinlichkeit, dass der Prüfling drei beantwortbare Fragen zieht?

 f_{H}(3;10,4,3)=\frac{{4 \choose 3}\cdot {10-4 \choose 3-3}}{{10 \choose 3}} =\frac{4\cdot 1}{120}=\frac{1}{30}

Wie groß ist die Wahrscheinlichkeit, dass der Prüfling mindestens eine beantwortbare Frage zieht?

P(X \geq 1) = 1 - P(X = 0)

P(X = 0) = f_H(0;10,4,3) = \frac{{4\choose 0} \cdot{10 - 4 \choose 3 - 0}}{{10 \choose 3}} = \frac{1 \cdot 20}{120} = \frac{1}{6}

Als Ergebnis auf die Frage erhält man somit:

P(X \geq 1) = 1 - \frac{1}{6} = \frac{5}{6}

Immobilienberater

Ein Immobilienberater weiß aus langjähriger Erfahrung, dass es bei 70% seiner 20 Mandanten, die er jährlich berät, zu einem Vertragsabschluss kommt.

Auch in diesem Jahr berät der Immobilienberater 20 neue Mandanten.

Es wird angenommen, dass die Wahrscheinlichkeit für einen Vertragsabschluss auch für diese Gesamtheit gilt.

Wie groß ist die Wahrscheinlichkeit, dass sich von 4 zufällig ausgewählten Mandanten mindestens die Hälfte zu einem Vertragsabschluss entscheidet?

Die Gesamtheit besteht aus einer endlichen Anzahl N = 20 Mandanten.

Von den 20 Mandanten entscheiden sich M = 14 Mandanten zu einem Vertragsabschluss (Eigenschaft A) und bei N - M = 6 Mandanten kommt es nicht zu einem Vertragsabschluss, d.h. es gibt nur zwei mögliche Ereignisse im Ergebnis des Zufallsexperimentes.

Es werden n = 4 Mandanten zufällig ausgewählt. Ein Zufallsauswahlmodell mit Zurücklegen würde sachlogisch keinen Sinn machen, so dass ohne Zurücklegen ausgewählt wird.

Die Zufallsvariable X wird als "Anzahl der Mandanten mit Vertragsabschluss" definiert, die aufgrund des beschriebenen Zufallsexperimentes

H(N; M; n) = H(20;14; 4)\, verteilt ist.

Wegen \max (0, n - (N - M)) ist der kleinste mögliche Wert von X gleich 0, d.h. bei keinem der 4 Mandanten kommt es zu einem Vertragsabschluss.

Da n<M ist der größte mögliche Wert von X gleich 4. Der Wertebereich von X ist somit:

0 \leq x \leq 4.

Gesucht ist die Wahrscheinlichkeit P(X \geq 2), die sich als P(X = 2) + P(X = 3 ) + P(X = 4 )\, berechnen lässt.

f_H(2;20,14,4) = \frac{{14 \choose 2}\cdot {20 - 14 \choose 4 - 2}}{{20 \choose 4}} = \frac{91 \cdot 15}{4845} = 0,2817

f_H(3;20,14,4) = \frac{{14 \choose 3}\cdot {20 - 14 \choose 4 - 3}}{{20 \choose 4}} = \frac{364 \cdot 6}{4845} = 0,4508

f_H(4;20,14,4) = \frac{{14 \choose 4}\cdot {20 - 14 \choose 4 - 4}}{{20 \choose 4}} = \frac{1001 \cdot 1}{4845} = 0,2066

Somit resultiert: P(X \geq 2) = 0,2817 + 0,4508 + 0,2066 =0,9391.

Eine Berechnung über das Gegenereignis ist ebenso möglich. Diese bedeutet in vielen Fällen einen erheblich geringeren Rechenaufwand:

 P(X \geq 2) = 1 - P(X \leq 1) = 1 - P(X=1) - P(X=0) = 0,9391

Die Wahrscheinlichkeit, dass sich von 4 zufällig ausgewählten Mandanten (aus den 20 Mandanten des Immobilienberaters) mindestens die Hälfte zu einem Vertragsabschluss entscheidet, beträgt 0,9391.

Versicherungsvertreter

Ein Versicherungsvertreter verkauft in einer Stadt insgesamt 100 Lebensversicherungspolicen, die sich in 40 Kapitallebensversicherungen und 60 Risikolebensversicherungen aufteilen.

Es werden 5 Lebensversicherungen zufällig und ohne Zurücklegen ausgewählt.

Wie groß ist die Wahrscheinlichkeit, dass sich darunter genau 2 Kapitallebensversicherungen befinden?

Die Gesamtheit besteht aus einer endlichen Anzahl N = 100 Lebensversicherungen.

Im Ergebnis des Zufallsexperimentes (Ziehen einer Lebensversicherung) gibt es nur zwei mögliche Ereignisse:

Kapitallebensversicherung (interessierende Eigenschaft A), deren Anzahl M = 40 ist, und Risikolebensversicherung (Komplementärereignis), deren Anzahl N - M = 60 beträgt.

Die Zufallsvariable X wird als "Anzahl der Kapitallebensversicherungen unter 5 ausgewählten Lebensversicherungen" definiert.

X ist aufgrund des Zufallsauswahlmodells ohne Zurücklegen H(N; M; n) = H(100; 40;5)-verteilt.

Wegen \max (0, n - (N - M)) ist der kleinste mögliche Wert von X gleich 0, d.h. keine der 5 gezogenen Lebensversicherungen ist eine Kapitallebensversicherung.

Da n<M ist der größte mögliche Wert von X gleich 5.

Der Wertebereich von X ist somit: 0\leq x\leq  5.

Gesucht ist der Wert der Wahrscheinlichkeitsfunktion an der Stelle X = 2, d.h. P(X = 2)=f_{H}(2;100;40;5):

f_H(2;100,40,5) = \frac{{40 \choose 2}\cdot{100 - 40 \choose 5 - 2}}{{100 \choose 5}} = \frac{\frac{40!}{2! \cdot 38!} \cdot \frac{60!}{3! \cdot 57!}}{\frac{100!}{5! \cdot 95!}} = 0,3545

Wird z.B. bei sonst gleichen Ausgangsbedingungen die Anzahl der Ziehungen auf n = 10 erhöht, so bleibt die inhaltliche Bestimmung der Zufallsvariablen X erhalten, jedoch verändert sich ihr Wertebereich auf 0\leq x \leq 10 und X ist H(100;40; 10)-verteilt.

Es wird nach der Wahrscheinlichkeit gefragt, dass sich genau 4 Kapitallebensversicherungen unter den 10 ausgewählten Lebensversicherungen befinden, d.h. P(X = 4):

f_H(4;100,40,10) = \frac{{40 \choose 4}\cdot {100 - 40 \choose 10 - 4}}{{100 \choose 10}} = 0,2643