Distribución Hipergeométrica

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


La distribución Hipergeométrica se basa en un con las siguientes características:

  • El número total de elementos es N
  • De los N elementos, M elementos tienen la propiedad y N-M elementos no tienen la esta propiedad, es decir, sólo dos sucesos, A y \bar{A} son posibles
  • seleccionamos aleatoriamente n elementos de N

Esto significa, que para cada experimento, la probabilidad P(A) no es constante y que las extracciones (sucesos) ahora ya no son independientes. La variable aleatoria X, que es el número de éxitos A tras n repeticiones del experimento aleatorio tiene una distribución Hipergeométrica de parámetros N,M, y n, y la función de probabilidad es la siguiente: f_H(x;N,M,n) = \left\{
        \begin{array}{ll}
          \frac{ \left(
               \begin{array}{c}
                M \\
                x
               \end{array} \right)
            \cdot \left(
                \begin{array}{c}
                N - M   \\
                n - x
                \end{array} \right)}{ \left(
                                        \begin{array}{c}
                                        N \\
                                        n
                                        \end{array} \right)} \quad &
\text{ para }\ x = max[0,n-(N-M)], \dots ,min[n,M] \\
        \\
        0 \quad &\text{otro caso}
        \end{array} \right. Su notación es:  X \sim H(N,M,n). El valor esperado y la varianza de la distribución Hipergeométrica H(N,M,n) son: E(X) = n \cdot \frac{M}{N} Var(X) = n \cdot \frac{M}{N} \cdot \left( 1- \frac{M}{N} \right) \cdot
\frac{N-n}{N-1} La distribución hipergeométrica depende de los parámetros N, M, y n. Estos parámetros influyen en la forma, localización y dispersión. Este ejemplo interactivo nos permite modificar los valores de estos parámetros y obtener el gráfico de la función de probabilidad de H(N,M,n). Recomendamos cambiar únicamente el valor de un parámetro cada vez manteniendo los otros constantes. Esto nos permitirá estudiar la influencia de este parámetro en la forma de la distribución hipergeométrica. Además, se puede calcular las probabilidades para los valores seleccionados de x. Es s2 23 e1 3.gif Un agente de seguros tiene en la la ciudad 100 seguros de vida. 40 de ellos en fondos fijos y 60 en riesgo. Selecciona (aleatoriamente y sin devolución) cinco seguros. ?‘Cuál es la probabilidad de seleccionar exactamente dos contratos de fondos fijos?. Tenemos en total N=100 contratos. El resutado de un experimento aleatorio (tipo de contrato en el seguro) puede ser dos sucesos: del tipo fondo fijo (propiedad A) con M = 40 y del tipo con riesgo (suceso complementario), con N - M = 60. La variable aleatoria X se define como “número de contratos de tipo fondo fijo entre cinco contratos elegidos aleatoriamente”. La variable aleatoria X está basada en el muestreo aleatorio repetido sin reemplazamiento y por lo tanto tiene una distribución Hipergeométrica H(N;M;n) = H(100;40;5).
El valor más pequeño de X es 0 = (max[0, n - (N - M)]), es decir, ninguno de los cinco contratos elegidos aleatoriamente es de tipo fondo fijo. El valor mas alto de X es n < M, es decir, 5. Los posibles valores de X son por tanto:
0 \leq x \leq 5 Queremos calcular el valor de la función de probabilidad para x = 2, i.e. P(X = 2) = f_H(2;100;40;5): f_H(2;100,40,5) = {\frac{\left(
                        \begin{array}{c}
                                40\\
                                 2
                        \end{array} \right) \cdot \left(
                        \begin{array}{c}
                                100 - 40 \\
                                5 - 2
                        \end{array} \right)}{\left(
                        \begin{array}{c}
                                100\\
                                5
                        \end{array} \right)}} = \frac{\frac{40!}{2! \cdot 38!}
\cdot \frac{60!}{3! \cdot 57!}}{\frac{100!}{5! \cdot 95!}} = 0.3545 Supongamos que incrementamos el número de repeticiones (contratos elegidos aleatoriamente) a n=10. El resto de argumentos permanece constante, sólo los posibles valores de la variable aleatoria X han cambiado: 0 \leq x \leq 10. La variable aleatoria X tiene una distribución Hipergeométrica H(100;40;10). Calculamos la probabilidad de que existan exactamente 4 contratos de fondo fijo entre los diez elegidos aleatoriamente
es decir ¶(X = 4): f_H(4;100,40,10) = {\frac{\left(
                        \begin{array}{c}
                                40\\
                                 4
                        \end{array} \right) \cdot \left(
                        \begin{array}{c}
                                100 - 40 \\
                                 10 - 4
                        \end{array} \right)}{\left(
                        \begin{array}{c}
                                100\\
                                 10
                        \end{array} \right)}} = 0.2643 Es s2 23 e 4.gif Un agente inmobiliario sabe por su experiencia que el 70% de sus 20 clientes, renuevan el contrato. Supongamos que el agente tiene 20 clientes. ?‘Cuál es la probabilidad de que al menos la mitad de cuatro seleccionados aleatoriamente renueven el contrato?. Tenemos en total N = 20 clientes. De los 20 clientes, M=14 clientes renuevan el contrato (propiedad A) y N-M clientes no. Esto significa que este experimento tienen dos posibles resultados. Elegimos n=4 clientes aleatoriamente. Claramente, no tiene sentido utilizar un modelo con devolución (repetición). Por lo tanto, usaremos un modelo sin repetición. La variable aleatoria X se define como “número de clientes que renuevan el contrato”. X tiene una distribución Hipergeométrica :
H(N;M;n) = H(20;14;4). El valor más pequeño de X es 0 = (max[0,n - (N - M)]), es decir, ninguno de los cuatro clientes renueva el contrato. n < M es el valor más alto posible, en este caso 4. Los posibles valores de X son:
0 \leq x \leq 4. Queremos encontrar la probabilidad P(X \geq 2). Puede ser calculada como
P(X = 2) + P(X = 3 ) + P(X = 4 ). f_H(2;20,14,4) = {\frac{\left(
                        \begin{array}{c}
                                14\\
                                 2
                        \end{array} \right) \cdot \left(
                        \begin{array}{c}
                                20 - 14 \\
                                4 - 2
                        \end{array} \right)}{\left(
                        \begin{array}{c}
                                20\\
                                4
                        \end{array} \right)}} = \frac{91 \cdot 15}{4845} =
0.2817 f_H(3;20,14,4) = {\frac{\left(
                        \begin{array}{c}
                                14\\
                                 3
                        \end{array} \right) \cdot \left(
                        \begin{array}{c}
                                20 - 14 \\
                                4 - 3
                        \end{array} \right)}{\left(
                        \begin{array}{c}
                                20\\
                                4
                        \end{array} \right)}} = \frac{364 \cdot 6}{4845} =
0.4508 f_H(4;20,14,4) = {\frac{\left(
                        \begin{array}{c}
                                14\\
                                 4
                        \end{array} \right) \cdot \left(
                        \begin{array}{c}
                                20 - 14 \\
                                4 - 4
                        \end{array} \right)}{\left(
                        \begin{array}{c}
                                20\\
                                4
                        \end{array} \right)}} = \frac{1001 \cdot 1}{4845} =
0.2066 Que implica que: P(X \geq 2) = 0.2817 + 0.4508 + 0.2066 = 0.9391. La probabilidad de que al menos la mitad de los cuatro clientes seleccionados aleatoriamente (de un total de 20) decidan renovar el contrato es 0.9391. Un estudiante tiene que completar un test con diez preguntas. El estudiante debe contestar 3 preguntas elegidas aleatoriamente de esas 10. El estudiante sabe que 6 de las 10 preguntas son tan dificiles que nadie tiene posibilidad de acertarlas. N = 10 preguntas
M = 4 preguntas con propiedad A, pueden ser contestadas
n = 3 preguntas elegidas aleatoriamente
X = “número de preguntas con propiedad A entre las n preguntas elegidas aleatoriamente”
Los posibles valores de X son: max[0, n - (N - M)] \leq x \leq min(n, M) , es decir,  0 \leq X \leq 3 Razones por las que se usa la distribución Hipergeométrica:

  • número finito de preguntas,
  • la devolución (repetición) de preguntas no tiene sentido en este caso,
  • por lo tanto, las elecciones no son independientes,
  • esto implica que P(A) depende de lo que ha ocurrido anteriormente.

?‘Cuál es la probabilidad de que un estudiante saque 3 preguntas “buenas”? f_H(3;10,4,3) = {\frac{\left(
                        \begin{array}{c}
                                4\\
                                3
                        \end{array} \right) \cdot \left(
                        \begin{array}{c}
                                10 - 4 \\
                                3 - 3
                        \end{array} \right)}{\left(
                        \begin{array}{c}
                                10\\
                                3
                        \end{array} \right)}} = \frac{4 \cdot 1}{120} =
\frac{1}{30} ?‘Cuál es la probabilidad de que un estudiante seleccione al menos una pregunta que puede contestar? P(X \geq 1) = 1 - P(X = 0) P(X = 0) = f_H(0;10,4,3) = {\frac{\left(
                        \begin{array}{c}
                                4\\
                                0
                        \end{array} \right) \cdot \left(
                        \begin{array}{c}
                                10 - 4 \\
                                3 - 0
                        \end{array} \right)}{\left(
                        \begin{array}{c}
                                10\\
                                3
                        \end{array} \right)}} = \frac{1 \cdot 20}{120} =
\frac{1}{6} Por lo tanto: P(X \geq 1) = 1 - 1/6 = 5/6 De forma similar a la distribución Binomial, la distribución Hipergeométrica está basada en un experimento aleatorio que sólo tiene dos posibles resultados. La diferencia entre la distribución Binomial es que ahora realizamos extracciones sin reemplazamiento lo que hace que las distintas extracciones ya no sean mutuamente independientes. Claramente, el número de objetos decrece con cada extracción. esto significa que n \leq N.
Además de esto, el número de objetos con la propiedad A también cambia, lo que supone una modificación en la probabilidad de extraer un objeto con la propiedad A.

  • Cada extracción se realiza una única vez sin reemplazamiento, es decir, cada ojeto puede salir sólo una vez en las n extracciones (no hay repetición)
    Suponiendo n extracciones, estamos interesados en el total de objetos con la característica A, en otras palabras, la variable aleatoria X = {número de objetos con la propiedad A obtenidos en n extracciones }
    El orden de los objetos sacados no juega ningun papel en el número de objetos sacados con la propiedad A, es decir, no afecta a la hora de determinar \{ X
= x
\}. Utilizando la combinatoria, podemos calcular el número de posibilidades de sacar n elementos de N sin reemplazamiento. Es el número que resulta de realizar combinaciones sin repetición:

    \left( \begin{array}{c}
            N\\
            n\\
            \end{array}
           \right)

  • ?‘De cuántas formas distintas podemos obtener \{ X = x \} ?
    Tenemos x \leq M, es decir, no podemos seleccionar más objetos con la propiedad A de los que hay en total, de forma análoga, n - x \leq N - M. Dado que extraemos sin reemplazamiento, un elemento con la propiedad A no puede ser sacado varias veces (no hay repetición). El orden de los objetos con la propiedad A no afecta en el resultado de \{X = x \}. El número de posibilidades en la elección de x objetos con la propiedad A de M posibles objetos :

    \left( \begin{array}{c}
             M\\
             x\\
             \end{array}
            \right)

    De forma análoga, el número de posibilidades de elegir n
- x objetos sin la propiedad A de N - M es:

    \left(\begin{array}{c}
            N-M\\
            n-x\\
           \end{array}
           \right)

    Cada posible elemento x con la propiedad A de entre los M resultados, con una probabilidad de elegir n-x sin la propiedad A entre N-M objetos (esto nos da el número de objetos extraidos n) nos lleva al suceso \{X=x\}. El número de posibilidades de obtener el suceso \{X=x\} es por lo tanto \left(\begin{array}{c}
            N-M\\
            n-x\\
           \end{array}
           \right) \cdot \left(\begin{array}{c}
                                            N-M\\
                                            n-x\\
                                           \end{array}
                                   \right) La probabilidad puede ser obtenida utilizando la definición clásica (Laplace) de la probabilidad como la fracción P(X=x) = f(x) = \frac{ \left(\begin{array}{c}
            N-M\\
            n-x\\
           \end{array}
           \right) \cdot \left(\begin{array}{c}
                                            N-M\\
                                            n-x\\
                                           \end{array}
                                   \right)
}
{
        \left( \begin{array}{c}
             N\\
             n\\
             \end{array}
            \right)
}
\,.


El valor más alto de X es n para n
\leq M, y M para M < n. Esto implica que: x_{\max} = \min (n;\,M). Para el valor más pequeño de X tenemos: x
\geq 0 (siempre). Si n es mayor que el número de elementos sin la propiedad A, entonces tenemos que x
\geq n - (N-M). Implica que: x_{\min} = \max [0;\, n-(N-M)].
Denotando por M/N = p, tenemos: E(X) = n \cdot \frac{M}{N} = n\cdot p Var (X) = n \cdot \frac{M}{N} \cdot \left( 1 - \frac{M}{N} \right) \cdot
\frac{N-n}{N-1} = n \cdot p \cdot (p-1) \cdot \frac{N-n}{N-1} De esta manera, la distribución H(M,N,n) tiene el mismo valor esperado que el correspondiente a una distribución Binomial B(n,M/N), pero su varianza es menor gracias a la multiplicación de la fracción (N-n)/(N-1). Esto se puede explicar por el hecho de que para la extracción sin reemplazamiento no podemos utilizar la información que teníamos inicialmente. La constante (N-n)/(N-1) se denomina correción por continuidad. La función de probabilidad de la distribución Hipergeométrica se muestra mediante un gráfico de probabilidad. Para este caso, se ha elegido N = 100 ,\ M = 20 ,\ n = 10 a N = 16 ,\ M = 8 ,\ n
= 8. Es s2 23 m 7.gif