Distribuição Hipergeométrica

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


A distribuição hipergeométrica é baseada em um evento aleatório com as seguintes características:

  • número total de elementos é N
  • de N elementos, M elementos têm a propriedade N-M elementos não têm esta propriedade, ou seja, apenas dois eventos, A e \bar{A} são possíveis
  • nós escolhemos aleatoriamente n elementos de um total de N

Isto significa que a probabilidade P(A) não é constante e as retiradas (eventos) não são independentes neste tipo de experimento. A variável aleatória X, que contém número de sucessos A após n repetições do experimento tem uma distribuição hipergeométrica com parâmetros N, M e n, com função densidade de probabilidade: f_{H}(x;N,M,n)=\left\{
\begin{array}{ll}
\frac{\left(
\begin{array}{c}
M \\
x
\end{array}
\right) \cdot \left(
\begin{array}{c}
N-M \\
n-x
\end{array}
\right) }{\left(
\begin{array}{c}
N \\
n
\end{array}
\right) }\quad & \text{for}\ x=max[0,n-(N-M)],\dots ,min[n,M] \\
&  \\
0\quad & \text{otherwise}
\end{array}
\right. A forma curta da notação é: X \sim H(N,M,n). O valor esperado e a variância da distribuição hipergeométrica H(N,M,n): E(X) = n \cdot
\frac{M}{N} Var(X) = n \cdot \frac{M}{N} \cdot \left( 1- \frac{M}{N} \right) \cdot \frac{
N-n}{N-1} Uma distribuição hipergeométrica depende de parâmetros N, M e n. Estes parâmetros influenciam forma, localização e variância. Este exemplo interativo permite você mudar os valores destes parâmetros e obter desenhos de uma função de distribuição hipergeométrica. Nós sugerimos que você apenas mude os valor de uma parâmetro, mantendo os outros constantes, que irão ilustrar melhor os efeitos dos parâmetros na forma da distribuição hipergeométrica. Você também pode computar probabilidades para diferentes valores de x.

Pt s2 23 e1 3.gif

Um agente de seguros chega em uma cidade e vende 100 seguros de vida: 40 são apólices periódicas e as 60 restantes são apólices permanentes. Ele escolhe (aleatoriamente) cinco apólices de seguro de vida. Qual é a probabilidade de que ele escolha exatamente duas apólices periódicas. Existem N=100 apólices. Os resultados deste experimento (tipo de apólice de seguro) podem assumir um ou dois valores: o tipo periódico (propriedade A) com M = 40 e o tipo permanente (evento complementar), com N - M = 60. A variável aleatória X é definida como ”número de apólices periódicas em cinco apólices de seguro escolhidas aleatoriamente”. A variável aleatória X é baseada em experimentos de retiradas aleatórias sem reposição e tem uma distribuição hipergeométrica H(N;M;n) = H(100;40;5).O menor valor de X é 0 = (max[0, n - (N - M)]), ou seja,  nenhum dos 5 contratos escolhidos aleatoriamente é uma apólice de seguro periódica. O maior valor possível de X é n < M, ou seja, 5. O conjunto de valores possíveis de X é tal que:0 \leq x \leq 5 Nós precisamos computar o valor da função de probabilidade para x = 2, ou seja,   P(X = 2) = f_{H}(2;100;40;5): f_H(2;100,40,5) = {\frac{\left(
\begin{array}{c}
40 \\
2
\end{array}
\right) \cdot \left(
\begin{array}{c}
100 - 40 \\
5 - 2
\end{array}
\right)}{\left(
\begin{array}{c}
100 \\
5
\end{array}
\right)}} = \frac{\frac{40!}{2! \cdot 38!} \cdot \frac{60!}{3! \cdot 57!}}{
\frac{100!}{5! \cdot 95!}} = 0.3545 Suponha que nós aumentemos o número de retiradas (contratos escolhidos aleatoriamente) para n = 10. A única coisa que iria mudar no exemplo seria a extensão da variável X, que se tornaria 0 \leq x \leq 10. A variável aleatória X tem a seguinte distribuição hipergeométrica H(100;40;10). Se nós computarmos a probabilidade de que existam exatamente 4 apólices periódicas em 10 apólices aleatórias, ou seja  P(X = 4): f_H(4;100,40,10) = {\frac{\left(
\begin{array}{c}
40 \\
4
\end{array}
\right) \cdot \left(
\begin{array}{c}
100 - 40 \\
10 - 4
\end{array}
\right)}{\left(
\begin{array}{c}
100 \\
10
\end{array}
\right)}} = 0.2643

Pt s2 23 e 4.gif

Um agente de seguros sabe por experiência que 70% de seus 20 clientes renovam seus contratos. Suponha que este agente tenha 20 clientes. Qual é a probabilidade de que pelo menos metade de quatro clientes escolhidos aleatoriamente renove seus contratos? Nós temos um total de N = 20 clientes. Destes clientes, M=14 renovam suas apólices (propriedade A) e N-M clientes não renovam. O experimento tem apenas dois resultados possíveis. Nós escolhemos n=4 clientes aleatoriamente. Claramente, não faz sentido modelar esta variável aleatória com reposição. A variável aleatória X é definida como ”número de clientes que renovam seus contratos”. X tem distribuição hipergeométrica: H(N;M;n) = H(20;14;4). O menor valor possível de X é 0 = (max[0,n - (N - M)]), ou seja,  nenhum dos 4 clientes renova seus contratos. n < M é o maior valor possível de X, 4 neste exemplo. X pode assumit os seguintes valores:0 \leq x \leq 4. Nós precisamos encontrar a probabilidade P(X \geq 2), que pode ser computada como P(X = 2) + P(X = 3 ) + P(X = 4 ). f_H(2;20,14,4) = {\frac{\left(
\begin{array}{c}
14 \\
2
\end{array}
\right) \cdot \left(
\begin{array}{c}
20 - 14 \\
4 - 2
\end{array}
\right)}{\left(
\begin{array}{c}
20 \\
4
\end{array}
\right)}} = \frac{91 \cdot 15}{4845} = 0.2817 f_H(3;20,14,4) = {\frac{\left(
\begin{array}{c}
14 \\
3
\end{array}
\right) \cdot \left(
\begin{array}{c}
20 - 14 \\
4 - 3
\end{array}
\right)}{\left(
\begin{array}{c}
20 \\
4
\end{array}
\right)}} = \frac{364 \cdot 6}{4845} = 0.4508 f_H(4;20,14,4) = {\frac{\left(
\begin{array}{c}
14 \\
4
\end{array}
\right) \cdot \left(
\begin{array}{c}
20 - 14 \\
4 - 4
\end{array}
\right)}{\left(
\begin{array}{c}
20 \\
4
\end{array}
\right)}} = \frac{1001 \cdot 1}{4845} = 0.2066 Isto significa que: P(X \geq 2) = 0.2817 + 0.4508 + 0.2066 = 0.9391. A probabilidade de que pelo menos metade de quatro clientes (de um total de 20 clientes) decida renovar suas apólices é de 0.9391. Um estudante tem que completar um teste com dez questões. O estudante tem que responder 3 questões escolhidas aleatoriamente. O estudante sabe que 6 das 10 questões são tão difíceis que ninguém teria chance de respondê-las. N = 10 questõesM = 4 questões têm propriedade A, elas podem ser respondidasn = 3 questões escolhidas aleatoriamente o estudante tem que reponderX = ”número de questões com propriedade A entre n questões escolhidas aleatoriamente” Valores possíveis de X são: max[0, n - (N - M)] \leq x \leq min(n, M) , i.e. 0 \leq X \leq 3 Motivação para o uso da distribuição hipergeométrica:

  • número finito de questões,
  • repetição das questões não faz sentido nesta situação,
  • logo, as retiradas não são independentes,
  • isto significa que P(A) depende das questões previamente retiradas.

Qual é a probabilidade de que o estudante retire 3 questões ”boas”? f_{H}(3;10,4,3)={\frac{\left(
\begin{array}{c}
4 \\
3
\end{array}
\right) \cdot \left(
\begin{array}{c}
10-4 \\
3-3
\end{array}
\right) }{\left(
\begin{array}{c}
10 \\
3
\end{array}
\right) }}=\frac{4\cdot 1}{120}=\frac{1}{30} Qual é a probabilidade de que o estudante escolha pelo menos uma questão que ele possa responder? P(X \geq 1) = 1 - P(X = 0) P(X = 0) = f_H(0;10,4,3) = {\frac{\left(
\begin{array}{c}
4 \\
0
\end{array}
\right) \cdot \left(
\begin{array}{c}
10 - 4 \\
3 - 0
\end{array}
\right)}{\left(
\begin{array}{c}
10 \\
3
\end{array}
\right)}} = \frac{1 \cdot 20}{120} = \frac{1}{6} Segue-se que: P(X \geq 1) = 1 - 1/6 = 5/6 Assim como a distribuição binomial, a distribuição hipergeométrica é baseada em um experimento com apenas dois resultados possíveis. A distribuição hipergeométrica difere-se da distribuição binomial pelas retiradas sem reposição, o que significa que as retiradas da distribuição hipergeométrica não são independentes. Isto também significa que o número de ocorrências diminui com cada retirada. Isto significa que n \leq N. Além do mais, o número de resultados com propriedade A também muda e isto, logo, muda a probabilidade de retirar-se um objeto com a propriedade A.

  • Cada retirada é conduzida apenas uma vez e sem reposição, ou seja, cada objeto pode ser retirado apenas uma vez em n retiradas (sem repetição)

    Assumindo n retiradas, nós estamos interessados no número total de resultados com a propriedade A, ou seja, variáveis aleatórias X = {número de resultados com a propriedade A em um total de n retiradas }

    A ordem dos objetos retirados não importa para o número de objetos retirados com a propriedade A. Usando análise combinatória, pode-se calcular o número de resultados possíveis nos quais nós retiramos n objetos de um total de N sem reposições:

    \left(
\begin{array}{c}
N \\
n
\end{array}
\right)

  • Quantas maneiras diferentes existem para obter \{X=x\} ?Nós temos x\leq M, ou seja, nós não podemos retirar mais objetos com a propriedade A do que nós temos no total e, analogicamente, n-x\leq N-M. Uma vez que nós retiramos sem reposição, um objeto com a propriedade A não pode ser retirado mais do que o número total de objetos no conjunto (sem repetição). A ordem em que estes resultados são retirados não tem impacto sobre os resultados que nós observamos. O número total de combinações dos resultados observados x com a propriedade A de um total de M resultados é:

    \left(
\begin{array}{c}
M \\
x
\end{array}
\right)

    De modo oposto, os n-x resultados sem a propriedade A retirados de um total de N-M objetos é:

    \left(
\begin{array}{c}
N-M \\
n-x
\end{array}
\right)

    Cada elemento possível x com a propriedade A de um total de M resultados, com qualquer possibilidade de escolher n-x sem a propriedade A de um total de N-M objetos (isto gera no total n objetos retirados) leva ao evento \{X=x\}. O número de possibilidades de obter o evento \{X=x\} é então \left(
\begin{array}{c}
N-M \\
n-x
\end{array}
\right) \cdot \left(
\begin{array}{c}
N-M \\
n-x
\end{array}
\right) A probabilidade desejada pode ser obtida usando a clássica (Laplace) definição da probabilidade como a proporção P(X=x)=f(x)=\frac{\left(
\begin{array}{c}
N-M \\
n-x
\end{array}
\right) \cdot \left(
\begin{array}{c}
N-M \\
n-x
\end{array}
\right) }{\left(
\begin{array}{c}
N \\
n
\end{array}
\right) }
\,.

O maior valor possível de X é n para n\leq M, e M para M<n. Isto significa que: x_{\max }=\min (n;\,M). O menor valor possível de X é: x\geq 0 (sempre). Se n é maior que o número de elementos sem a propriedade A, então nós temos que 
x\geq n-(N-M). Isto significa que: x_{\min }=\max [0;\,n-(N-M)]. Seja M/N=p, nós temos o seguinte: E(X)=n\cdot \frac{M}{N}=n\cdot p Var(X)=n\cdot \frac{M}{N}\cdot \left( 1-\frac{M}{N}\right) \cdot \frac{N-n}{
N-1}=n\cdot p\cdot (p-1)\cdot \frac{N-n}{N-1} A distribuição H(M,N,n) irá ter o mesmo valor esperado da correspondente distribuição binomial B(n,M/N). Entretanto, sua variância irá ser menor porque ela é multiplicada pela fração (N-n)/(N-1) já que retiradas sem reposição significam que nós não podemos usar mais a informação com a qual nós iniciamos o experimento. A constante (N-n)/(N-1) é chamada de uma correção de continuidade. A função de probabilidade da distribuição hipergeométrica é ilustrada no seguinte diagrama. Nós escolhemos os seguintes parâmetros para este exemplo: N=100,\ M=20,\ n=10 and N=16,\ M=8,\ n=8.

Pt s2 23 m 7.gif