Intervalo de confianza para la proporción

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Supongamos la existencia de una población dicotómica, donde una fracción \pi de sus elementos tiene la propiedad A y una fracción 1-\pi no. Queremos estimar un intervalo para \pi, es decir, un intervalo de confianza para el parámetro desconocido \pi. Extraemos una muestra aleatoria de tamaño n de tal forma que las variables muestrales X_1, \dots, X_n son independientes e idénticamente distribuidas como una Bernoulli (ver capítulo Distribución binomial). Se ha visto que la fracción en la muestra \widehat{\pi} = \frac{X}{n} = \frac{1}{n} \sum\limits_{i=1}^n X_i con esperanza y varianza E(\widehat{\pi}) = \pi \, , \quad Var(\widehat{\pi}) = \frac{\pi(1-\pi)}{n} es un estimador insesgado y consistente de \pi (ver capítulo propidades de los estimadores). Dado que es bastante dificil construir un intervalo de confianza para muestras pequeñas, sólo vamos a invsestigar la situación en la que el tamaño muestral n es suficientemente grande. En este caso la variable aleatoria estandarizada Z = \frac{\widehat{\pi} - \pi}{\sigma(\widehat{\pi})} = \frac{\widehat{\pi} - \pi}{\sqrt{\frac{\pi(1-\pi)}{n}}} se aproxima por una normal aplicando el teorema central del límite: Z \sim N(0;1). Por lo tanto, se concluye que se cumple P \left( -z_{1-\frac{\alpha}{2}} \leq \frac{\widehat{\pi} - \pi}{\sigma(\widehat{\pi})} \leq z_{1-\frac{\alpha}{2}} \right) \approx 1-\alpha \, , z_{1-\alpha /2} es la probabilidad 1-\alpha dada por la distribución normal estandar. Todavía no podemos construir un intervalo de confianza para \pi, dado que \pi es desconocido asi como la varianza del estimador \widehat{\pi}. Esta varianza se debe estimar. Substituyendo el parámetro desconocido \pi por \widehat{\pi}, se obtiene un estimador de la varianza de \widehat{\pi}: \widehat{\sigma}^2(\widehat{\pi}) = \frac{\widehat{\pi}(1-\widehat{\pi})}{n} \, . De P \left( -z_{1-\frac{\alpha}{2}} \leq \frac{\widehat{\pi} - \pi}{\sigma(\widehat{\pi})} \leq z_{1-\frac{\alpha}{2}} \right) \approx 1-\alpha se obtiene el nivel de confianza: P \left( \widehat{\pi} -z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\widehat{\pi}(1- \widehat{\pi})}{n}} \leq \pi \leq  \widehat{\pi} + z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\widehat{\pi}(1- \widehat{\pi})}{n}}  \right) \approx 1-\alpha \, . Por lo que para muestras grandes un intervalo de confianza aproximado es el dado por: \left[ \widehat{\pi} -z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\widehat{\pi}(1- \widehat{\pi})}{n}} \, ; \,  \widehat{\pi} + z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\widehat{\pi}(1- \widehat{\pi})}{n}}  \right] Para una buena aproximación de la distribución normal, el tamaño muetral debe ser n
\geq 30, pero debería de ser mucho mayor, por ejemplo n \geq 100. Para una muestra dada el intervalo de confianza es \left[ p -z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{p(1- p)}{n}} \, ; \,  p + z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{p(1- p)}{n}}  \right] \, , donde p = x/n es la frecuencia relativa de los elementos con propiedad A y x el número absoluto en la muestra.

  • El intervalo de confianza es simétrico con respecto a la probabilidad. P \left( \pi < \widehat{\pi} -z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\widehat{\pi}(1- \widehat{\pi})}{n}} \right) = \frac{\alpha}{2} \, ; \, P \left( \widehat{\pi} + z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\widehat{\pi}(1- \widehat{\pi})}{n}} < \pi \right) = \frac{\alpha}{2} \, .
  • El intervalo de confianza es simétrico respecto a la estimación puntual. Los extremos del intervalo tienen la misma distancia respecto a \widehat{\pi}.
  • La amplitud L del intervalo y el error E L = 2 z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\widehat{\pi}(1- \widehat{\pi})}{n}} \, , \quad E = z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\widehat{\pi}(1- \widehat{\pi})}{n}} son variables aleatorias, dado que dependen mediante \widehat{\pi} de la muestra aleatoria.
  • La amplitud L del intervalo de confianza y el error E también dependen del nivel de confianza 1-\alpha y de n.

Tenemos una muestra de N=3250 empleados de una compañia de seguros. Se mide la siguiente variable dicotómica:
X1 = empleado es cliente de la empresa Accident Ltd
X2= pertenece al equipo de campo
X3= tiene un coche de la compañia
X4 = tiene aptitud profesional
Estas son variables dicotómicas que toman el valor 0 o 1. 1 significa “si” y 0 significa “no”. La proporción \pi de la existencia de esta propiedad en la población es desconocida para todas las variables X1,
\dots, X4. Para la muestra dada, encuentra la estimación puntual y por intervalo de \pi. Sólo queremos estimar mediante una aproximación por intervalo \pi utilizando la distribución normal. En este ejemplo tienes la ocasión de estudiar la influencia en el intervalo de confianza del nivel de significación y del tamaño muestral. Recomendamos alterar uno solo de los valores y mantener el otro constante. Por favor, decide

  • la variable que se va analizar
  • el tamaño muestral n
  • el nivel de confianza 1-\alpha (como un número decimal, por ejemplo 0,95)

Resultados:
Como resultados del ejemplo interactivo se obtiene

  1. el intervalo de confianza con arreglo al nivel de confianza elegido

Si seleccionas la misma variable aleatoria una vez más, pero con diferente nivel de confianza o tamaño muestral, también se mostrará el resultado previo para comparar. Es s2 45 f 4.gif Dado que el secretario general de un partido F quiere saber cuales son las posibilidades de su partido de entrar en el parlamento en las proximas elecciones, ordena realizar una encuesta. El instituto de estudios sociales realiza la siguiente pregunta a n=2000 ciudadanos elegidos aleatoriamente:
"Si hay elecciones el proximo domingo a ?‘qué partido votaría?"
De acuerdo a los 103 ciudadanos que declararon que votarían al partido F. Para un nivel de significacón de 1-\alpha= 0,95 se estima la fracción \pi de votantes de F . Desde un punto de vista estadístico se tiene que tener en cuenta los siguientes aspectos:

  • A fin de lograr que un ciudadano encuestado por su opinión no lo sea una segunda vez, se selecciona un modelo sin reemplazamiento.
  • Dado que la población de ciudadanos es muy grande, el hecho de que tengamos una extracción sin reemplazamiento no es relevante. La distribución de la población no se ve alterada por esta razón. Por lo tanto la muestra se puede considerar como aleatoria simple.
  • Como el interés está centrado en el partido F, el suceso A se define como “vota a F” y el suceso complementario \bar A como “no vota a F”. Sólo existen dos posibles sucesos en este experimento. La población es dicotómica. La fracción de votantes de F es \pi = P(A).
  • Puesto que el tamaño muestral es muy grande (n=2000), se puede construir un intervalo de confianza aproximado mediante \left[ \widehat{\pi} - z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\widehat{\pi}(1-\widehat{\pi})}{n}} \, ; \, \widehat{\pi} + z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\widehat{\pi}(1-\widehat{\pi})}{n}} \right] que tiene el nivel de confianza aproximado 1-\alpha = 0,95. De la tabla de la función de distribución de una normal estandar se obtiene para 1-\alpha/2 = 0,97 el valor z_{0,975} = 1,96

De los resultados de la muestra se obtiene un estimador puntual p= 103/2000= 0,0515 y un intervalo de confianza \left[ 0,0515 - 1,96 \cdot \sqrt{\frac{0,0515 \cdot 0,9485}{2000}} \, ; \, 0,0515 + 1,96 \cdot \sqrt{\frac{0,0515 \cdot 0,9485}{2000}} \right] = = [0,0418 \, ; \, 0,0612] \, . El intervalo [4,18 % ; 6,12 %] incluye el 5 %, que es necesario para entrar en el parlamento. Por lo que no está claro si a un nivel de confianza del 95 % el partido va a estar en el parlamento o no. La varianza del estimador \widehat{\pi} Var (\widehat{\pi}) = \sigma^2 (\widehat{pi}) = \frac{\pi ( 1 - \pi)}{n} es desconocida, dado que el parámetro \pi es desconocido. Esta varianza tiene que ser estimada para substituir \pi por su estimador \widehat{\pi}. Esto se justifica por el hecho de que la esperanza de de \widehat{\pi}
(1-\widehat{\pi}) converge a \pi (1-\pi), si se incrementa n: \lim_{n \rightarrow \infty} E[\widehat{pi}(1-\widehat{pi})] = \pi(1-\pi) \, . Esto se ve a continuación. Primero tenemos E[\widehat{\pi}(1-\widehat{\pi})] = E \left[ \frac{X}{n} \left( 1 - \frac{X}{n} \right) \right] = \frac{1}{n} E(X) - \frac{1}{n^2} E(X^2) De las reglas para calcular con valores esperados, se obtiene que Var (X)= E(X^2)
- [E(X)]^2. Por lo tanto E(X^2)= Var (X) + [E(X)]^2. X, el número de elementos con la propiedad A en la muestra tienen una distribución de bernoulli con E(X) = n \pi y Var (X) = n \pi (1-\pi). En consecuencia E(X^2) = Var (X) + [E(X)]^2= n \pi (1-\pi) + [n \pi]^2. Se usan estos resultados para derivar \begin{align}
E[\widehat{pi}(1-\widehat{pi})] & = & E \left[ \frac{X}{n} \left( 1 - \frac{X}{n} \right) \right] = \frac{1}{n}
E(X) - \frac{1}{n^2} E(X^2)\\ & = & \frac{1}{n} n \pi - \frac{1}{n^2} [n \pi (1-\pi) + (n \pi)^2]\\ & = &
\frac{1}{n} \left[ n \pi - \frac{1}{n}(n \pi - n \pi^2 + n^2 \pi^2) \right]\\ & = & \frac{1}{n} (n \pi - \pi +
\pi^2 - n \pi^2) = \frac{\pi}{n} ( n - 1 + \pi - n \pi)\\ & = & \frac{\pi}{n} (n-1)(1-\pi) = \frac{n-1}{n} \pi
(1-\pi)\, .\\\end{align} Cuando n \rightarrow \infty (n-1)/n converge a 1, y \lim_{n \rightarrow \infty} \frac{n-1}{n} \pi (1-\pi)=\pi (1-\pi) \, .