La distribuzione ipergeometrica

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


La distribuzione ipergeometrica si basa su un evento aleatorio con le seguenti caratteristiche:

  • presenta un numero finito totale degli elementi N
  • degli N elementi, M presentano la caratteristica A, mentre i restanti N-M elementi non la presentano, quindi ci sono solo due eventi possibili A e \bar{A}
  • dagli N elementi ne vengono scelti casualmente n

Cià significa che in un tale esperimento le estrazioni avvengono senza reinserimento, non sono quindi indipendenti le une dalle altre e di conseguenza la probabilità P(A) non à costante. La variabile casuale X, che contiene il numero delle estrazioni di A dopo la ripetizione n volte dell’esperimento ha una distribuzione ipergeometrica con i parametri N,M, e n, se la sua funzione di probabilità à data da: 
 f_H(x;N,M,n) = \left\{
        \begin{array}{ll}
          \frac{ \left(
               \begin{array}{c}
                M \\
                x
               \end{array} \right)
            \cdot \left(
                \begin{array}{c}
                N - M   \\
                n - x
                \end{array} \right)}{ \left(
                                        \begin{array}{c}
                                        N \\
                                        n
                                        \end{array} \right)} \quad &
\text{per}\ x = max[0,n-(N-M)], \dots ,min[n,M] \\
        \\
        0 \quad &\text{altrimenti}
        \end{array} \right. e viene indicata:  X \sim H(N,M,n). La speranza matematica e la varianza della distribuzione ipergeometrica H(N,M,n) sono: E(X) = n \cdot \frac{M}{N} Var(X) = n \cdot \frac{M}{N} \cdot \left( 1- \frac{M}{N} \right) \cdot
\frac{N-n}{N-1} La distribuzione ipergeometrica dipende dai parametri N, M, e n che ne determinano la forma, la posizione e la varianza. Con questo esempio interattivo la studente ha la possibilità di scegliere i valori di questi parametri e di vederne la distribuzione H(N,M,n) graficamente. Suggeriamo di cambiare solo un parametro per volta mantenendo gli altri costanti per osservarne l’effetto sulla distribuzione. Si puà inoltre calcolare la probabilità per determinati valori di X. ———

En s2 23 e1 3.gif

Un agente assicurativo vende in una città in totale 100 polizze vita, di cui 40 sono sul capitale e 60 sul rischio. Vengono scelte a caso e senza reinserimento 5 polizze vita.
Qual’à la probabilità che su queste 5 esattamente 2 siano sul capitale?
In totale abbiamo N=100 polizze. Il risultato dell’esperimento aleatorio puà essere costituito solo dai due eventi: la polizza sul capitale con M=40 (caratteristica A) e quella sul rischio con N-M=60 (evento complementare). La variabile casuale X à definita come il “numero di polizze sul capitale tra le 5 estratte" ed ha una distribuzione ipergeometrica:
H(N;M;n) = H(100;40;5).
Il valore minimo di X à 0 = (max[0, n - (N - M)]), ovvero nessuna delle polizze estratte à sul capitale. Il valore massimo à n < M, ovvero 5. L’intervallo di definizione di X à quindi:
0 \leq x \leq 5 Cerchiamo la probabilità x = 2, ovvero P(X = 2) = f_H(2;100;40;5):  
f_H(2;100,40,5) = {\frac{\left(
                        \begin{array}{c}
                                40\\
                                 2
                        \end{array} \right) \cdot \left(
                        \begin{array}{c}
                                100 - 40 \\
                                5 - 2
                        \end{array} \right)}{\left(
                        \begin{array}{c}
                                100\\
                                5
                        \end{array} \right)}} = \frac{\frac{40!}{2! \cdot 38!}
\cdot \frac{60!}{3! \cdot 57!}}{\frac{100!}{5! \cdot 95!}} = 0.3545 Se aumentiamo le estrazioni portandole a n=10 mantenendo la definizione della variabile casuale X invariata, l’intervallo di definizione della variabile cambia: 0 \leq x \leq 10 e la distribuzione diventa H(100;40;10). Se cerchiamo la probabilità che esattamente 4 polizze siano sul capitale sulle 10 estratte, ovvero P(X = 4)abbiamo: 
 f_H(4;100,40,10) = {\frac{\left(
                        \begin{array}{c}
                                40\\
                                 4
                        \end{array} \right) \cdot \left(
                        \begin{array}{c}
                                100 - 40 \\
                                 10 - 4
                        \end{array} \right)}{\left(
                        \begin{array}{c}
                                100\\
                                 10
                        \end{array} \right)}} = 0.2643

En s2 23 e 4.gif

Un agente immobiliare sa per esperienza che il 70% dei suoi 20 clienti annuali firmerà un contratto. Anche quest’anno l’agente ha 20 nuovi mandanti. Supponiamo che la probabilità di concludere un contratto rimane anche per questo gruppo costante. Qual’à la probabilità che di 4 clienti scelti a caso almeno la metà decida di concludere un contratto?
Abbiamo N = 20 clienti. Di questi 20 clienti, M=14 concluderanno un contratto (caratteristica A) mentre N-M=6 non lo concluderanno, ovvero ci sono solo due possibili risultati.
Scegliamo n=4 clienti a caso senza reinserire i clienti già selezionati (non avrebbe senso). La variabile casuale X viene definita come “numero dei clienti che conclude un contratto” e ha una distribuzione ipergeometrica:
H(N;M;n) = H(20;14;4).
Il valore minimo che X puà assumere à 0 in quanto (max[0,n - (N - M)]), ovvero nessuno dei clienti scelti concluderà un contratto, il valore massimo di X à n < M ovvero in questo caso 4. L’intervallo in cui X à definito à:
0 \leq x \leq 4. La probabilità P(X \geq 2)puà essere calcolata come segue
P(X = 2) + P(X = 3 ) + P(X = 4 ). 
 f_H(2;20,14,4) = {\frac{\left(
                        \begin{array}{c}
                                14\\
                                 2
                        \end{array} \right) \cdot \left(
                        \begin{array}{c}
                                20 - 14 \\
                                4 - 2
                        \end{array} \right)}{\left(
                        \begin{array}{c}
                                20\\
                                4
                        \end{array} \right)}} = \frac{91 \cdot 15}{4845} =
0.2817 
 f_H(3;20,14,4) = {\frac{\left(
                        \begin{array}{c}
                                14\\
                                 3
                        \end{array} \right) \cdot \left(
                        \begin{array}{c}
                                20 - 14 \\
                                4 - 3
                        \end{array} \right)}{\left(
                        \begin{array}{c}
                                20\\
                                4
                        \end{array} \right)}} = \frac{364 \cdot 6}{4845} =
0.4508 
 f_H(4;20,14,4) = {\frac{\left(
                        \begin{array}{c}
                                14\\
                                 4
                        \end{array} \right) \cdot \left(
                        \begin{array}{c}
                                20 - 14 \\
                                4 - 4
                        \end{array} \right)}{\left(
                        \begin{array}{c}
                                20\\
                                4
                        \end{array} \right)}} = \frac{1001 \cdot 1}{4845} =
0.2066 Abbiamo quindi: P(X \geq 2) = 0.2817 + 0.4508 + 0.2066 = 0.9391. La probabilità che almeno la metà dei 4 clienti selezionati a caso (su 20) concluda un contratto à dello 0.9391. Uno studente sta facendo un esame e ha di fronte una lista di 10 domande; di queste lo studente sa che 6 sono state formulate in modo cosà difficile che nessuno riesce a rispondere. Inoltre lo studente puà scegliere casualmente 3 domande. N = 10 domande
M = 4 domande hanno la caratteristica A di poter essere risposte
n = 3 domande scelte a caso
X = “numero delle domande con carattersitica A tra le n scelte a caso”
Valori possibili di X sono: max[0, n - (N - M)] \leq x \leq min(n, M) , ovvero 0 \leq X \leq 3 Utilizziamo una distribuzione ipergeometrica per i seguenti motivi:

  • il numero di domande à finito,
  • il reinserimento e quindi la ripetizione delle domande non à possibile,
  • le estrazioni non sono indipendenti,
  • cià implica che P(A) dipende dalle domande già estratte.

Qual’à la probabilità che lo studente scelga tre domande a cui à possibile rispondere? 
 f_H(3;10,4,3) = {\frac{\left(
                        \begin{array}{c}
                                4\\
                                3
                        \end{array} \right) \cdot \left(
                        \begin{array}{c}
                                10 - 4 \\
                                3 - 3
                        \end{array} \right)}{\left(
                        \begin{array}{c}
                                10\\
                                3
                        \end{array} \right)}} = \frac{4 \cdot 1}{120} =
\frac{1}{30} Qual’à la probabilità che lo studente scelga almeno una risposta a cui sia possibile rispondere? P(X \geq 1) = 1 - P(X = 0) 
 P(X = 0) = f_H(0;10,4,3) = {\frac{\left(
                        \begin{array}{c}
                                4\\
                                0
                        \end{array} \right) \cdot \left(
                        \begin{array}{c}
                                10 - 4 \\
                                3 - 0
                        \end{array} \right)}{\left(
                        \begin{array}{c}
                                10\\
                                3
                        \end{array} \right)}} = \frac{1 \cdot 20}{120} =
\frac{1}{6} Di conseguenza la risposta à: P(X \geq 1) = 1 - 1/6 = 5/6 Come per la distribuzione binomiale anche i risultati della distribuzione geometrica possono solo essere gli eventi A o \bar{A}.
A differenza della distribuzione binomiale tuttavia le estrazioni avvengono senza reinserimento e quindi non sono pià indipendenti le une dalle altre. Effettuando le estrazioni senza reinserire gli elementi, il numero degli elementi totali si riduce da estrazione a estrazione e quindi deve valere n \leq N. Inoltre da estrazione a estrazione cambia la composizione degli elementi in rapporto alla caratteristica A e quindi la probabilità di estrarre un elemento con la caratteristica A. Per determinare la funzione di probabilità:

  • Dato che ciascuna estrazione viene effettuata solo una volta e senza reinserimento, ogni elemento compare solo una volta nelle n estrazioni (senza ripetizione). Nella ripetizione n volte dell’estrazione siamo interessati al numero complessivo di volte in cui l’evento A si verifica, ovvero indaghiamo la variabile casuale X= {Numero degli eventi A in n prove}. L’ordine degli n elementi estratti non influenza in alcun modo il numero di eventi A verificatisi (ovvero X=x). Grazie al calcolo combinatorio possiamo calcolare il numero di possibilità di estrarre n elementi da N, senza reinserimento e senza considerazione dell’ordine. Questo numero à dato dalle combinazioni senza ripetizione:
    
\left(\begin{array}{c}
N \\
n
\end{array}\right)

  • Quante possibilità ci sono di ottenere {X=x}? Innanzi tutto deve valere x \leq M in quanto non possono venir estratti pià elementi con caratteristica A di quanti non siano disponibili e quindi analogamente n-x \leq N-M. Dato che non avviene il reinserimento gli elementi estratti con caratteristica A non possono ripresentarsi (senza ripetizione). Inoltre per la determinazione di {X=x} non ha alcuna importanza l’ordine di estrazione degli elementi con caratteristica A. Quindi il numero di possibilità di estrarre x elementi con caratteristica A da M elementi à dato da:
    
\left(\begin{array}{c}
M \\
x
\end{array}\right)
    Analogamente si puà procedere per il numero di possibilità di estrarre n-x da N-M elementi senza caratteristica A:
    
\left(\begin{array}{c}
N-M \\
n-x
\end{array}\right)
    Ogni possibilità di estrarre x elementi con caratteristica A da M elementi deve essere quindi combinata con la possibilità di estrarre n-x da N-M elementi senza la caratteristica A per ottenere il gli n elementi estratti. Quindi numero delle possibilità {X=x} à dato da: 
\left(\begin{array}{c}
M\\
x
\end{array}\right)\cdot\left(\begin{array}{c}
N-M\\
n-x
\end{array}\right)

    Utilizzando la definizione classica di probabilità data da Laplace otteniemo la probabilità cercata come quoziente:
    
P(X=x) = f(x) = \frac{\left(\begin{array}{c}
M\\
x
\end{array}\right)\cdot\left(\begin{array}{c}
N-M\\
n-x
\end{array}\right)}{\left(\begin{array}{c}
N \\
n
\end{array}\right)}

Per la determinazione dell’intervallo dei valori in cui à compresa X:
L’estremo inferiore dell’intervallo su cui à definita X à n se n \leq M e M se M < n quindi vale:
x_{max} = min (n,M)
Per l’estremo superiore x \geq 0. Nel caso in cui n sia pià grande del numero di elementi senza caratteristica A allora vale x \geq n-(N-M). Di conseguenza:
x_{min} = [0,n-(N-M)] Per la determinazione della speranza matematica e della varianza:
Ponendo M/N=p, otteniamo E(X) = n \cdot \frac{M}{N} = n\cdot p Var(X) = n \cdot \frac{M}{N} \cdot \left( 1- \frac{M}{N} \right) \cdot
\frac{N-n}{N-1} = n \cdot p \cdot (1 - p) \cdot \frac {N-n}{N-1} La distribuzione H(N,M,n) ha la stessa media della distribuzione binomiale corrispondente B(n,M/N), la varianza invece à pià piccola del fattore (N-n)/(N-1). Cià dipende dal fatto che estraendo senza reinserire non vengono eliminate le informazioni già acquisite. Il fattore (N-n)/(N-1) viene indiacto come correzione finita. La rappresentazione grafica della funzione di probabilità della distribuzione geometrica à un diagramma a linee, per esempio per
N=100, M=20, n=10 e N=16, M=8, n=8 abbiamo i seguenti grafici:

En s2 23 m 7.gif