Distribución de la proporción muestral

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Considerese una población dicotómica, con dos tipos de elementos, y que la proporción de elementos con la propiedad A es \pi siendo la proporción de elementos que no tienen la propiedad A 1 - \pi. Un elemento seleccionado aleatoriamente de esta población supone una variable aleatoria que toma valor 1 si el elemento seleccionado posee la propiedad A , y el valor 0 en otro caso. Se realiza un proceso de n selecciones de n variables aleatorias X_1,\dots,X_n en las que sólo es posible que se presente el valor 1 o 0. Sea X el número de elementos en la muestra de tamańo n con la propiedad A (es decir, X es igual a la frecuencia absoluta de elementos muestrales con la propiedad A). Entonces \widehat{\pi} = \frac{X}{n} = \frac{1}{n}
\sum\limits_{i=1}^n X_i es la proporción (en otras palabras, la frecuencia relativa) de elementos de la muestra de tamaño n con la propiedad A (proporción muestral). Tras la selección de una muestra, se observa un número específico de elementos muestrales x con la propiedad A, así como la proporción muestral de las realizaciones \rho = x/n. X y \widehat{\pi} varían de muestra a muestra (para un tamaño dado). Son estadísticos (es decir, funciones de la muestra) y variables aleatorias y su distribución muestral, valores esperados y varianza se puede obtener. Las distribuciones muestrales dependen fundamentalmente de

  • como se selecciona la muestra (con o sin reemplazamiento)
  • el tamaño de la población
  1. muetreo aleatorio simple (muestreo con reemplazamiento) Seleccionando una muestra aleatoria simple de la población anteriormente descrita se genera n experimentos de Bernoulli. Todas las variables muestrales tienen la siguiente distribución f(x_i, \pi) = \left\{
                        \begin{array}{ll}
                        \pi^{x_i} (1 - \pi)^{1 - x_i} \quad & \text{para } x_i = 0, \,1\\
                        0 & \text{ en otro caso}
                        \end{array} \right. con esperanza E(X_i) = \pi y varianza Var(X_i) = \pi \cdot
(1-\pi).

    En este caso X sigue una de parámetros n y \piX \sim B(n;\pi): f_B(x|n;\pi) = \left\{
                                \begin{array}{ll}
                                \left( \begin{array}{c} n\\ x \end{array} \right) \pi^x (1-\pi)^{n-x} & \text{ para } x = 0, 1, \dots, n\\
                                \\
                                0 & \text{ en otro caso}
                                \end{array} \right. con E(X) = n \cdot \pi, \ Var(X) = \sigma^2(X) = n \cdot \pi \cdot (1-\pi) Dado que \widehat{\pi} = X/n y 1/n es constante se obtiene que la proporción muestral \widehat{\pi} tiene la misma función de probabilidad que X. El valor esperado y la varianza de \widehat{\pi} son: E(\widehat{\pi}) = X(X/n) = E(X)/n = {(n \cdot \pi)}/n = \pi Var(\widehat{\pi}) = \sigma^2(\widehat{\pi}) = Var(X/n) = Var(X)/n^2 = {(n \cdot \pi \cdot (1-\pi))}/n^2 = \pi \cdot (1-\pi)/n

    De acuerdo con el teorema central del límite, para un tamaño sufientemente grande de n la distribución binomial se puede aproximar por la : X \approx N(\mu, \sigma), \ \text{con}\ \mu = E(X) = n \cdot \pi \ \text{y} \ \sigma^2 = \sigma^2(X) = n \cdot \pi \cdot (1-\pi) y \widehat{\pi} \approx N(\mu, \sigma), \ \text{con}\ \mu = E(\widehat{\pi}) = \pi \ \text{y} \ \sigma^2 = \sigma^2(\widehat{\pi}) = \pi \cdot (1-\pi)/n,

    respectivamente. Se cosidera que el tamaño muestral es suficientemente grando para garantizar una buena aproximación si n
\cdot
\pi \geq 5 and n \cdot (1-\pi) \geq 5.

    Para obtener una mejora en la aproximación se debe usar la correción por continuidad, es decir, para calcular P(x_1 \leq
X \leq x_2) usando una distribución normal se debe usar z_1 = \frac{x_1 - 0,5 - np}{\sqrt{np(1-p)}} \qquad z_2 = \frac{x_2 + 0,5 - np}{\sqrt{np(1-p)}} y para la probabilidad se usaría P(p_1 \leq \widehat{\pi}
\leq p_2) z_1 = \frac{\frac{np_1 - 0,5}{n} -
\pi}{\sqrt{\frac{\pi (1-\pi)}{n}}} = \frac{\rho_1 - \frac{1}{2n}
- \pi}{\sqrt{\frac{\pi (1-\pi)}{n}}} \qquad
        z_2 = \frac{\frac{np_1 - 0,5}{n} - \pi}{\sqrt{\frac{\pi (1-\pi)}{n}}} = \frac{\rho_1 - \frac{1}{2n} - \pi}{\sqrt{\frac{\pi (1-\pi)}{n}}} \text{.}

  2. muestreo aleatorio sin reemplazamiento

    La diferencia entre reemplazamiento o no es sólo relevante para poblaciones de tamaño finito. Sea N el tamaño de la población, con M denotamos el número de elementos en la pobalación que tienen la propiedad A y sea n el tamaño muestral. Entonces \pi = M/N es la proporción de elementos de la población con la propiedad A. Los estadísticos X y \widehat{\pi} se definen de la siguiente forma.

    Bajo muestreo sin reemplazamiento X sigue una distribución hipergeométrica de parámetros N, M y nX \sim H(N,M,n): F_H(x;N,M,n) = \left\{ \begin{array}{ll}
                                \frac{\left( \begin{array}{c} M \\ x \end{array} \right) \, \left( \begin{array}{c} N-M \\ n-x \end{array} \right)}{\left( \begin{array}{c} N \\ n \end{array} \right)} \quad & \text{para } x = max[0, n-(N-M)], \dots, min[n,M]\\
                                \\
                                0 & \text{otro caso}
                                \end{array} \right.

    El valor esperado y varianza del estadístico X distribuido hipergeométricamente son: E(X) = n \cdot \frac{M}{N} = n \pi Var(X) = \sigma^2(X) = n \pi (1-\pi) \frac{N-n}{N-1} = n \cdot \frac{M}{N} \cdot \frac{N-M}{N} \cdot \frac{N-n}{N-1} El estadístico \widehat{\pi} tiene la misma función de probabilidad que X = n \cdot \widehat{\pi}. La esperanza y varianza de \widehat{\pi} son : E(\widehat{\pi}) = \frac{1}{n}E(X) = \pi Var(\widehat{\pi}) = \sigma^2(\widehat{\pi}) = \frac{1}{n^2} \sigma^2(X) = \frac{\pi (1-\pi)}{n} \cdot \frac{N-n}{N-1}

    Para N grande y M pequeño n / N la distribución hipergeométrica se puede aproximar aceptablemente mediante una distribución binomial con \pi = M / N. Regla: n / N \leq
0,05.

  3. De acuerdo con el teorema central del límite para tamaños de muestra suficientemente grandes la distribución hipergeométrica se puede aproximar por la distribución normal incluso en muestreo sin reemplazamiento.

    X \approx N(\mu, \sigma), \ \text{con} \ \mu = E(X) = n \cdot \pi \ \text{y} \ \sigma = \sigma(X) y \widehat{\pi} \approx N(\mu, \sigma), \ \text{con} \ \mu = E(\widehat{\pi}) = \pi \ \text{y} \ \sigma = \sigma(\widehat{\pi}), respectivamente. El tamaño muestral se considera suficientemente grande si n M / N \geq 5,\ n(1-M/N) \geq 5
\text{ y } n/N \leq 0,05. Para lograr una mejor aproximación es necesario aplicar la corrección por continuidad.

De una urna con N bolas, con una proporción de \pi bolas rojas, se extraen muestras de tamaño n sin reemplazamiento. Calcular la probabilidad de obtener muestras con proporciones de bolas rojas entre \pi_1 y \pi_2.

problema 1:

De la población de tamaño N = 5 y \pi =
0,4 se extrae una muestra de tamaño n = 3 sin reemplazamiento. La variable aleatoria X es la suma de 3 variables aleatorias y da el número de bolas rojas en la muestra y la variable aleatoria \pi = X / n da la proporción de bolas rojas en la muestra.

  • ?‘Cuál es la distribución del número y proporciíon de bolas rojas en la muestra?
  • ?‘Cuál es la probabilidad de que la proporción de bolas rojas de la muestra esté entre 1/3 y 2/3?

Debido a que la población es de tamaño finito y el muestreo es sin reemplazamiento entonces el estadístico X se distribuye hipergeométricamente: X \sim H ( N; M; n ) = H ( 5;2;3 ), y M = 0,4 \cdot
5 = 2.
La probabilidad que se ha de calcular es P(1/3 \leq
\widehat{\pi} \leq 2/3). Ya que X = n \cdot \widehat{\pi}, entonces x_1 = 3 \cdot 1/3 = 1 y x_2 = 3 \cdot 2/3 = 2, la probabilidad es igual a P(1 \leq X \leq 2). P(1
\leq X \leq 2) = f(1) + f(2) = 0,9\,\ \text{con}\ f(2) = 0,3\ \text{y}\ f(1) = 0,6\,.

Es s2 32 e 1.gif

problema 2:

De una población de tamaño N = 1000 y proporción \pi = 0,2 se toman muestras de tamaño n = 4 sin reemplazamiento. La variable aleatoria X como suma de 4 variables aleatorias da el número de bolas rojas en la muestra y la variable aleatoria \pi = X / n da la proporción de bolas rojas en la muestra.

  • ?‘Cuál es la distribución del número y proporción de bolas rojas en la muestra?
  • ?‘Cuál es la probabilidad de que la proporción de bolas rojas de la muestra esté entre 0,25 y 0,75?

Debido a que la muestra se ha obtenido sin reemplazamiento y que el tamaño de la población es finito, X tiene una distribución hipergeométrica X \sim H (1000;200;4 ).
Dado que la población es muy grande y como n / N = 0,004 < 0,05, X es aproximadamente una distribución binomial de parámetro \pi = M/N = 0,2, es decir X \approx B(4; 0,2). La misma distribución de probabilidad se puede utilizar para calcular las probabilidades para \widehat{\pi}. La probabilidad que se desea calcular P(0,25 \leq \widehat{\pi}
\leq 0,75). Como X = n \cdot \widehat{\pi} entonces x_1 = 4
\cdot 0,25 = 1 y x_2 = 4 \cdot 0,75 = 3, la probabilidad deseada en términos de X es P(1 \leq X \leq 3. P(1 \leq X \leq 3) = F_B(3) - F_B(0) = 0,9984 - 0,4096 =
0,5888 Se pueden obtener F_B(3) y F_B(1) a partir de la tabla de la función de distribución de una binomial B(4; 0,2).

Es s2 32 e 2.gif

problema 3:

De una población de tamaño N = 2500 y proporción \pi =
0,2 se toman muestras sin reemplazamiento de tamaño n = 100. La variable aleatoria X como suma de 100 variables muestrales da el número de bolas rojas en la muestra y la variable \pi =
X / n da la proporión de bolas rojas de la muestra.

  • ?‘Cuál es la distribución del número y proporción de bolas rojas en la muestra?
  • ?‘Cuál es la probabilidad de que la proporción de bolas rojas de la muestra esté entre 0,14 y 0,3?

Debido a que la muestra se obtiene sin reemplazamiento y que la población es finita, X sigue una distribución hipergeométrica X \sim H (2500;500;100 ).
Dado que la muestra de n = 100 es mayor que el criterio n \cdot M / N =
100 \cdot 0,2 = 20 \geq 5, n ( 1 - M / N ) = 80 \geq 5 y se satisface que n / N = 0,04 < 0,05, se puede usar como aproximación la distribución normal E(\widehat{\pi} = \pi = 0,2
Var(\widehat{\pi} = [\pi (
1- \pi) /n] \cdot [(N-n) / (N-1)] = 0,001537
\sigma(\widehat{\pi}) = 0,039 \approx 0,04.
Por lo tanto, la distribución hipergeométrica se aproxima por una normal N(0,2; 0,04). Para evitar complicaciones, se deshecha la corrección por continuidad. La probabilidad deseada P(0,14 \leq \widehat{\pi} \leq 0,3) puede ser calculada usando z_1  = ( 0,3 - 0,2 ) / 0,04 = 2,5 y z_2 = ( 0,14 - 0,2 ) / 0,04 = - 1,5 lo que lleva a P(0,14
\leq \widehat{\pi} \leq 0,3) = \Phi (2,5) - \Phi (- 1,5) = \Phi
(2,5) - (1 - \Phi (1,5)) = 0,99379 - (1 - 0,933193) = 0,9269\,
. \Phi (2,5) y \Phi (1,5) se puede obtener en las tablas de una distribución normal estandarizada.

Es s2 32 e 3.gif

De acuerdo con la agencia alemana de estadística habia 37,3 millones de hogares en Alemania en abril de 1996, el 35% de los cuales eran hogares de una sola persona.

problema 1:

De esta población, se seleccionan aleatoriamente con reemplazamiento n = 10 hogares.

  •  ?‘Cúal es la distribución de X (número de hogares unipersonales en la muestra) y \widehat{\pi} (proporción de hogares unipersonales en la muestra)?
  • Dar la esperanza, varianza y desviación típica de la distribución.
  • ?‘Cuál es la probabilidad de que la proporción de hogares unipersonales de la muestra sea mayor que 0,2 y menor que 0,5?

De N = 37,3 mill. de hogares en la población (tamaño finito) M = 13,055 mill. son hogares unipersonales. Elegiendo aleatoriamente n=10 hogares se generan 10 variables meustrales X_i, i = 1, \dots, 10 que toman el valor X_i = 1 si el i-esimo hogar seleccionado es un hogar unipersonal y X_i
= 0 en otro caso. La variable aleatoria X, que es la suma de 10 variables muestrales, da el número de hogares unipersonales en la muestra mientras que \widehat{\pi} = X/n da la proporción en la muestra. Bajo muestreo sin reemplazamiento X se distribuye hipergeométricamente: X \sim H(N; M; n) = H ( 37,3 \text{mil.}; 13,055 \ \text{mil.}; 10 ).
El estadístico \widehat{\pi} tiene como función de probabilidad X = n \cdot \widehat{\pi}. Dado que el tamaño de la población N es muy grande y como n/N =
10/(37,3 \cdot 10^6) < 0,05 es muy pequeño, el hecho de que la población sea finita puede ser ignorado y usar la distribución binomial \pi = M / N
= 0,35 como una aproximación: X \approx B(n; \pi) = B(10;
0,35). La misma distribución de probabilidad se mantiene para \widehat{\pi}

esperenza varianza desvición típica
E(X) = 10 \cdot 0,35 = 3,5 Var(X) = 10 \cdot 0,35 \cdot 0,65 = 2,275  \sigma (X) = 1,5083
E(\widehat{\pi}) = 0,35 Var(\widehat{\pi}) = 0,35 \cdot 0,65 / 10 = 0,02275 \sigma(\widehat{\pi}) = 0,1508

La probabilidad deseada P(0,2 < \widehat{\pi} < 0,5) se obtiene como:
debido a que X = n \cdot \widehat{\pi} se obtiene x_1
= 10 \cdot 0,2 = 2 y x_2 = 10 \cdot 0,5 = 5, y la probabilidad buscada es P(2 < X < 5). P(2 < X < 5) = P( X \leq 5) - P(X
\leq 2) = F_B(5) - F_B(2) = 0,9051 - 0,2616 = 0,6435\, , donde F_B(5) y F_B(2) se obtienen en las tablas de una distribución binomial B(10; 0,35).

problema 2:

De la población descrita anteriormente se toma una muestra sin reemplazamiento de tamaño n = 2000.

  • ?‘Cuúal es la distribución del número y proporción de hogares unipersonales?
  • Dar su esperanza, varianza y desviación típica.
  • ?‘Cuál es la probabilidad de que el número de hogares unipersonales en la muestra sea mayor o igual que 700 pero menor o igual que 725, d.h. 700 \leq X \leq 725 ?

Los estadísticos X e \widehat{\pi} se definen como en el problema 1. Dado que la población es muy grande y la muetra muy pequeña (en comparación con la población) es irrelevante si la muestra ha sido generada con o sin reemplazamiento y como aproximación se puede usar la distribución binomial.

esperanza varianza desvición típica
E(X) = 2000 \cdot 0,35 = 700 Var(X) = 2000 \cdot 0,35 \cdot 0,65 = 455  \sigma (X) = 21,33
E(\widehat{\pi}) = 0,35 Var(\widehat{\pi}) = 0,35 \cdot 0,65 / 2000 = 0,000114 \sigma(\widehat{\pi}) = 0,01067

No hay una tabla para una distribución binomial B(2000; 0,35) y por lo tanto habrá que calcularla: P(700 \leq X \leq 725 )
= P(X \leq 725) - P(X < 700) = F_B(725) - F_B(699) = 0,8839 -
0,4916 = 0,3923 Dado que el tamaño de la muestra n = 2000 es muy grande y se satisface el criterio n \cdot \pi = 2000 \cdot 0,35 = 700 \geq
5 y n(1-\pi) = 2000 \cdot 0,65 = 1300 \geq, como aproximación de la distribución binomial se usa la distribución normal X \approx N(700; 21,33)\, , \qquad
\widehat{\pi} \approx N(0,35; 0,01067)\, . con z_1 = \frac{700
- 0,5 - 700}{21,33} = -0,02344 \, , \qquad z_2 = \frac{725 + 0,5 -
700}{21,33} = 1,1955\, , se obtiene que P(700 \leq X \leq
725) \approx \Phi(1,1955) - \Phi(-0,02344) = \Phi(1,1955) - ( 1 -
\Phi(0,02344)) = =0,884054 - (1 - 0,509351) = 0,3934 Comparando los cálculos con el resultado exacto de utilizar la distribución binomial, el error de la aproximación normal se puede considerar insignificante.