Loi hypergéométrique

From MM*Stat International

Revision as of 16:41, 17 March 2020 by Siskosth (talk | contribs) (Bot: Automated import of articles *** existing text overwritten ***)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


La loi hypergéomérique peut être vue comme celle du résultat d’une expérience aléatoire ayant les caractéristiques suivantes :

  • On considère N objets
  • M objets présentent une caractéristique d’intérêt, N-M ne la présentent pas, i.e.  seuls deux événements , A (succès) et 
\bar{A} (échec) sont susceptibles d’être obtenus
  • On sélectionne aléatoirement n éléments parmi N

On fait subir à chaque objet tiré une épreuve de Bernoulli portant sur l’événement A. On voit que la probabilité P(A) n’est pas constante et que les épreuves effetuées ne sont pas indépendantes. La variable aléatoire X, définie comme le nombre de succès A pour n tentatives, est de loi hypergéométrique de paramètres N,M, et n. Sa fonction de masse est la suivante : f_H(x;N,M,n) = \left\{ 
\begin{array}{ll}
\frac{\left( 
\begin{array}{c}
M \\ 
x
\end{array}
\right) \cdot \left( 
\begin{array}{c}
N - M \\ 
n - x
\end{array}
\right)}{\left( 
\begin{array}{c}
N \\ 
n
\end{array}
\right)} \quad & \text{pour}\ x = max[0,n-(N-M)], \dots ,min[n,M] \\ 
&  \\ 
0 \quad & \text{sinon}
\end{array}
\right. On note : X \sim H(N,M,n). L’espérance et la variance d’une loi hypergeometric H(N,M,n) sont données par : E(X) = n \cdot 
\frac{M}{N} Var(X) = n \cdot \frac{M}{N} \cdot \left( 1- \frac{M}{N} \right) \cdot \frac{
N-n}{N-1} La loi hypergéométrique dépend de trois paramètres N, M, et n. La forme, la position, et la variance de la loi hypergéométrique sont fonctions de ces paramètres. Cet exemple interactif permet de faire varier les valeurs de ces trois paramètres de façon à juger de leur effet sur la fonction de masse de la loi hypergéométrique H(N,M,n). Nous conseillons de faire d’abord varier chaque paramètre séparément, ce qui permet d’isoler l’influence du paramètre en question sur l’aspect de la loi hypergéométrique. Il est de plus possible de calculer les probabilités d’obtention des différentes valeurs de x. ———

Fr s2 23 e1 3.gif

Un agent d’assurance arrive à vendre 100 assurences-vie dans une même ville. Quarante d’entre elles sont financées par capitalisation et sixante d’entre elles ont de type classique (risque). I =l sélectionne (au hasard et sans remise) cinq contrats d’asurance-vie. Quelle est la probabilité qu’il tombe exactement sur deux contrat d’assurance par capitalisation ? On a un total de N=100 contrats. Le type de contrat est un caractère à deux valeurs : “Capitalisation” (propriété A) avec un effectif de M = 40 et “risque” (événement complémentaire), avec un effectif N - M = 60. La variable aléatoire X définie comme le “nombre de contrats de type capitalisation parmi cinq contrats choisi au hasard”. La variable aléatoire X est obtenue via un tirage au hasard sans répétition; ceci, joint aux observations faites plus haut, permet de conclure qu’elle est de loi hypergéométrique H(N;M;n) = H(100;40;5). La plus petite valeur susceptible d’être prise par X est 0 = (max[0, n - (N - M)]), ceci correspond au cas où aucun des 5 contrats tirés au hasard n’est de type capitalisation. La plus grande valeur susceptible d’être prise par X est n < M, i.e. 5. X est susceptible de prendre chacune des valeurs :0 \leq x \leq 5 Nous souhaitons déterminer la valeur prise par la fonction de masse en x = 2, i.e. P(X = 2) = f_H(2;100;40;5): f_H(2;100,40,5) = {\frac{\left( 
\begin{array}{c}
40 \\ 
2
\end{array}
\right) \cdot \left( 
\begin{array}{c}
100 - 40 \\ 
5 - 2
\end{array}
\right)}{\left( 
\begin{array}{c}
100 \\ 
5
\end{array}
\right)}} = \frac{\frac{40!}{2! \cdot 38!} \cdot \frac{60!}{3! \cdot 57!}}{
\frac{100!}{5! \cdot 95!}} = 0.3545 Faisons croître le nombre d’épreuves (nombre de contrats choisi au hasard) jusqu’à n=10. Les arguments précédent restent valides; seules les valeurs susceptibles d’être prises par X changent; il s’agit alors de 0 \leq x \leq 10; la variable aléatoire X suit uneloi hypergéométrique H(100;40;10). On souhaite connaître la probabilité d’avoir exactement 4 contrat de type capitalisation sur dix contrats d’assurance-vie tirés au hasard i.e.déterminer P(X = 4): f_H(4;100,40,10) = {\frac{\left( 
\begin{array}{c}
40 \\ 
4
\end{array}
\right) \cdot \left( 
\begin{array}{c}
100 - 40 \\ 
10 - 4
\end{array}
\right)}{\left( 
\begin{array}{c}
100 \\ 
10
\end{array}
\right)}} = 0.2643

Fr s2 23 e 4.gif

Un agent immobilier sait d’expérience que 70% de ses 20 clients annuels signent un contract avec lui. Cette année, il a encore 20 clients. on suppose que la probabilité de signer un contrat reste inchangée pour ces 20 nouveaux clients. Quelle est la probabilité que la moitié au moins des clients signe le contrat ? On a un total de N = 20 clients. Parmi ces 20 clients, M=14 clients signent le contract (propriété A) et N-M clients ne le signent pas. Ceci signifie qu’on a un caractère à deux valeurs. On choisit n=4 clients au hasard. Le modèle avec remise est clairement inapproprié On a donc recours au modèle sans remise. La variable aléatoire X est définie comme le “nombre de clients qui signent le contrat”. D’après la description précédente, on peut affirmer que X suit une loi hypergéométrique :H(N;M;n) = H(20;14;4). La plus petite valeur susceptble d’être prise par X est 0 = (max[0,n - (N - M)]), i.e. aucun des 4 clients ne signe le contrat. n < M est la plus grande valeur susceptible d’être prise par X; dans notre situation, celle-ci est égale à 4. X est susceptible de prendre les valeurs :0 \leq x \leq 4. On souhaite déterminer la probabilité P(X \geq 2). Ceci peut être fait de la façon suivante : P(X = 2) + P(X = 3 ) + P(X = 4 ). f_H(2;20,14,4) = {\frac{\left( 
\begin{array}{c}
14 \\ 
2
\end{array}
\right) \cdot \left( 
\begin{array}{c}
20 - 14 \\ 
4 - 2
\end{array}
\right)}{\left( 
\begin{array}{c}
20 \\ 
4
\end{array}
\right)}} = \frac{91 \cdot 15}{4845} = 0.2817 f_H(3;20,14,4) = {\frac{\left( 
\begin{array}{c}
14 \\ 
3
\end{array}
\right) \cdot \left( 
\begin{array}{c}
20 - 14 \\ 
4 - 3
\end{array}
\right)}{\left( 
\begin{array}{c}
20 \\ 
4
\end{array}
\right)}} = \frac{364 \cdot 6}{4845} = 0.4508 f_H(4;20,14,4) = {\frac{\left( 
\begin{array}{c}
14 \\ 
4
\end{array}
\right) \cdot \left( 
\begin{array}{c}
20 - 14 \\ 
4 - 4
\end{array}
\right)}{\left( 
\begin{array}{c}
20 \\ 
4
\end{array}
\right)}} = \frac{1001 \cdot 1}{4845} = 0.2066 Ceci implique que : P(X \geq 2) = 0.2817 + 0.4508 + 0.2066 = 0.9391. La probabilité qu’au moins deux clients parmi quatre clients, choisis au hasard parmi 20 clients, décident de signer le contrat est égale à 0.9391. Un étudiant doit répondre à 10 questions. Il sait que 6 questions parmi les 10 posées sont tellement difficiles qu’aucun autre étudiant n’arrivera à y répondre. Il doit choisir au hasard 3 questions parmi les 10. N = 10 questionsM = 4 questions présentent la caractéristique A : il est possible d’y répondren = 3 questions choisies au hasard X = nombre de question présentant la caractéristique A parmi n questions choisies au hasard Valeurs susceptibles d’être prises par X : max[0, n - (N - M)] \leq x 
\leq min(n, M) , i.e. 0 \leq X \leq 3 Motivation du recours à la loi Hypergéometrique :

  • nombre fini de questions,
  • Une “remise” des questions n’a aucun sens dans une telle situation,
  • par conséquent, les “tirages” ne sont pas indépendants,
  • Ceci implique que P(A) dépend des questions précédemment tirées.

Quelle est la probabilité qu’un étudiant tire 3 questions “correctes” ? f_H(3;10,4,3) = {\frac{\left( 
\begin{array}{c}
4 \\ 
3
\end{array}
\right) \cdot \left( 
\begin{array}{c}
10 - 4 \\ 
3 - 3
\end{array}
\right)}{\left( 
\begin{array}{c}
10 \\ 
3
\end{array}
\right)}} = \frac{4 \cdot 1}{120} = \frac{1}{30} Quelle est la probabilité qu’un étudiant tire au moins une question a laquelle il peut répondre ? P(X \geq 1) = 1 - P(X = 0) P(X = 0) = f_H(0;10,4,3) = {\frac{\left( 
\begin{array}{c}
4 \\ 
0
\end{array}
\right) \cdot \left( 
\begin{array}{c}
10 - 4 \\ 
3 - 0
\end{array}
\right)}{\left( 
\begin{array}{c}
10 \\ 
3
\end{array}
\right)}} = \frac{1 \cdot 20}{120} = \frac{1}{6} On en déduit que : P(X \geq 1) = 1 - 1/6 = 5/6 De même que pour la distribution binômiale, la distribution Hypergéométrique est basée sur une expéreince aléatoire n’admettant que deux résultats possibles. La différence avec la distribution binômiale vient de ce que les tirages successifs ont effectuées sans remise, ce qui signifie que les tirages ne sont pas mutuellement indépendants. Le nombre d’objet décroît donc à chaque tirage, ce qui implique que n\leq N. De plus, on voit que le nombre d’objets vérifiant la propriété 
A peut également varier, cequi peut modifier la probabilité de tirer un objet vérifiant la propriété A d’un tirage à l’autre.

  • Chaque tirage est effectué en une unique étape et sans remise , i.e. chaque objet ne peut être tiré qu’une seule fois en n tirages (impossibilité des répétitions).

    On suppose qu’on effectue n tirages et qu’on s’intéresse au nombre total d’objets tirés vérifiant la propriété A, i.e. la variable aléatoire X = {nombre d’objets vérifiant A obtenus en 
n tirages }

    L’ordre d’obtention des objets tirés n’intervient pas dans la détermination du nombre d’objets vérifiant A, i.e. n’a aucune part à la détermination de \{X=x\}. En faisant appel à des résultats de combinatoire, on peut calculer le nombre de façons de tirer n objets, sans remise, parmi N. Celui-ci est donné par le nombre de combinaisons sans répétitions :

    \left( 
\begin{array}{c}
N \\ 
n
\end{array}
\right)

  • De combien de façons peut-on obtenir \{X=x\} ?On a nécessairement x\leq M, i.e., on ne peut tirer plus d’objets vérifiant l apropriété A qu’on n’en a au total. De même, 
n-x\leq N-M. Comme les tirages sont effectués sans remise, un objet vérifiant A ne peut être tiré plus d’une fois (pas de répétitions). L’ordre d’obtention des objets véifiant A n’intervient pas dans la détermination de l’événement \{X=x\} . Le nombre de façons de choisir x objets parmi M objets vérifiant la propriété A est égal à :

    \left( 
\begin{array}{c}
M \\ 
x
\end{array}
\right)

    De façon analogue, le nombre de façons de choisir n-x objets parmi N-M objets ne vérifiant pas A est donné par :

    \left( 
\begin{array}{c}
N-M \\ 
n-x
\end{array}
\right)

    La mise en correspondance d’une façon de choisir x objets vérifiant A parmi M et d’une façon de choisir n-x objets ne vérifiant pas A parmi N-M (ce qui donne un tirage de n objets) équivaut à une réalisation de \{X=x\}. Le nombre de façons d’obtenir l’événement \{X=x\} est donc donné par : \left( 
\begin{array}{c}
N-M \\ 
n-x
\end{array}
\right) \cdot \left( 
\begin{array}{c}
N-M \\ 
n-x
\end{array}
\right) La probabilité recherchée eput être obtenue en utilisant la définition classique (dûe à Laplace) de la probabilité comme rapport (cas favorables)/(cas possibles) : P(X=x)=f(x)=\frac{\left( 
\begin{array}{c}
N-M \\ 
n-x
\end{array}
\right) \cdot \left( 
\begin{array}{c}
N-M \\ 
n-x
\end{array}
\right) }{\left( 
\begin{array}{c}
N \\ 
n
\end{array}
\right) }
\,.

La valeur maximale que X est susceptible de prendre est n lorsque n\leq
M, et M lorsque M<n. Par conséquent : x_{\max }=\min (n;\,M). Quant à la valeur minimale de X, on a : x\geq 0 (toujours). lorsque 
n est supérieur au nombre d’objets vérifiant la propriété A
, alors on a : x\geq n-(N-M). D’où il vient : x_{\min }=\max [0;\,n-(N-M)]. Notons M/N=p. Alors, E(X)=n\cdot \frac{M}{N}=n\cdot p Var(X)=n\cdot \frac{M}{N}\cdot \left( 1-\frac{M}{N}\right) \cdot \frac{N-n}{
N-1}=n\cdot p\cdot (p-1)\cdot \frac{N-n}{N-1} Ainsi, la distribution H(M,N,n) a la même espérance que la distribution binômiale correspondante B(n,M/N), mais sa variance est inférieure en raison de la multiplication par le rapport (N-n)/(N-1). Ceci peut s’expliquer par le fait que lors de tirages sans remise, on utilise au fur et à mesure l’information dont on dispose. La constante 
(N-n)/(N-1) est appelée correction de continuité. La fonction de masse de la distribution hypergéometrique est mise ci-dessous sous la forme d’un diagramme de probabilités. A titre d’illustration, on prend N=100,\ M=20,\ n=10 puis N=16,\ M=8,\ n=8.

Fr s2 23 m 7.gif