Obtención del tamaño muestral

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


El tamaño del intervalo de confianza generalmente depende tanto del como del tamaño muestral n. Un incremento del nivel de confianza 1-\alpha manteniendo constante el tamaño muestral n supone, en ceteris paribus, un intervalo de confianza más ancho. Mayor confianza de que el verdadero valor del parámetro \vartheta esté en el intervalo implica que la afirmación de encontrar el verdedero valor dentro de dicho intervalo sea menos precisa. Incrementar el tamaño muestral n manteniendo constante el nivel de confianza 1-\alpha, implica un intervalo más pequeño, y un incremento en la precisión. Por lo tanto, controlando el nivel de confianza y el tamaño muestral conjuntamente, podemos controlar el intervalo de confianza. Hasta ahora, hemos asumido que para la construcción de un intervalo de un parámetro \vartheta tanto el nivel de confianza 1-\alpha como el tamaño muestral n están dados. En muchas aplicaciones, sin embargo, es necesario encontrar un intervalo con una determinada confianza y un nivel de precisión, es decir, estamos dando un nivel de confianza 1-\alpha y una anchura de intervalo. La pregunta es: ?‘Qué tamaño debe tener la muestra respecto a estas condiciones? El problema se puede ilustrar para el intervalo de confianza de la media \mu y la proporción \pi. Restringimos nuestra investigación a muestras aleatorias simples, o al caso en que el tamaño muestral es suficientemente grande que permita este tipo de muestreo simple.

(a) Intervalo de confianza de \mu

Supongamos una población que tiene una distribución normal.
El tamaño muestral exacto puede sólo ser encontrado si la amplitud del tamaño muestral ya no es una variable aleatoria, es decir, ya no depende de la realización de la muestra aleatoria. Esto es sólo posible si la varianza \sigma^2 de la población es conocida. La amplitud del intervalo de confianza para \mu I = 2 \cdot e = 2 \cdot
z_{1-\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}} depende del nivel de confianza 1-\alpha y del tamaño muestral n. Si la amplitud I (o el error de estimación deseado e) y el nivel de confianza 1-\alpha están dados, el tamaño muestral será el menor número entero que cumpla la condición n \geq \frac{4
\sigma^2 z^2_{1-\frac{\alpha}{2}}}{I^2} = \frac{\sigma^2 z^2_{1-\frac{\alpha}{2}}}{e^2} \, .. A fin de obtener el intervalo de confianza para la amplitud requerida I y el nivel de confianza 1-\alpha, n tiene que ser mayor que el valor encontrado. Si la varianza \sigma^2 es desconocida, la amplitud del intervalo para \mu L = 2 \cdot e = 2 \cdot
t_{n-1;1-\frac{\alpha}{2}} \cdot \frac{S}{\sqrt{n}} depende a través de la desviación típica S también de la realización de la muestra. A fin de obtener t_{n-1;1-\alpha /2} de la tabla de la distribución t, necesitamos – aparte de 1-\alpha – los grados de libertad n-1 y por lo tanto el tamaño muestral. Para encontrar el tamaño muestral n para la amplitud dada I y el nivel de confianza dado 1-\alpha, se han desarrollado procedimientos secuenciales.

(b) Intervalo de confianza para \pi

Si aproximamos por la distribución normal, la amplitud del intervalo de confianza para \pi está dada por L = 2 \cdot z_{1-\frac{\alpha}{2}} \cdot \sqrt{\frac{\widehat{\pi}(1-\widehat{\pi})}{n}} \, . Realizando lguna operación: n \geq \frac{4 \cdot z_{1-\frac{\alpha}{2}}^2 \widehat{\pi} \cdot (1-\widehat{\pi})}{L^2} =\frac{z_{1-\frac{\alpha}{2}}^2 \cdot \widehat{\pi} \cdot (1-\widehat{\pi})}{E^2} \, . Sin embargo, para la amplitud requerida I del intervalo de confianza o el error estandar e y el requerido nivel de confianza 1-\alpha, encontramos un gran problema:
El tamaño muestral desconocido n depende mediante \widehat{\pi} de la realización de la muestra, que todavía no es conocido. Generalmente, hay dos formas de obtener una estimación de n:

  • \widehat{\pi} se substituye por p, el resultado es una pre-muestra.
  • Usamos un valor inicial \pi, para el cual el producto \pi (1-\pi) es máximo. Esto es verdad para \pi = 0,5 y 1-\pi = 0,5. Para encontrar el tamaño muestral n este es el caso menos favorable, dado que para otro \pi podríamos encontrar un valor menor para n. Por ello, el tamaño muestral requerido es el número más pequeño n para el cual se cumple n \geq \frac{4 \cdot z_{1-\frac{\alpha}{2}}^2 \cdot \frac{1}{2} \cdot \frac{1}{2}}{I^2} = \frac{z^2}{I^2} = \frac{z^2}{4 e^2}\, .

Para construir un intervalo de confianza de una amplitud dada I y nivel de confianza dado 1-\alpha, el tamaño muestral, n, tiene que ser tan grande como n. Más aún, necesitamos tener cuidado de que el tamaño muestral n sea siempre lo suficientemente grando para garantizar que aproximamos la distribución por una normal. Tenemos la población de empleados de una compañia de seguros y observamos las siguientes variables:
X1 =ganancia en DM
X2 = número de contratos cerrados
X3 = número de días de ausencia debido a enfermedad
X4 = horas semanales trabajadas
Por conveniencia, suponemos que las variables X1, \dots, X4 tienen distribución normal. La media \mu y \sigma^2 de las variables de la población es desconocida. Sin embargo, debido a la larga experiencia en este tipo de negocios podemos suponer las siguientes varianzas:

\sigma^2_1 = 18,92  \sigma^2_2 = 7,54
\sigma^2_3 = 4,03 \sigma^2_4 = 12,24

?‘Cómo de grande debe ser el tamaño muestral para encontrar un intervalo de confianza para \mu al nivel de confianza 1-\alpha y una amplitud dados? Con este ejemplo, tienes la oportunidad de estudiar la imfluencia del tamaño muestral en la calidad del intervalo de confianza, es decir, la amplitud del intervalo de confianza y el nivel de confianza. Recomendamos modificar únicamente uno de los dos parámetros, y no ambos a la vez. Por favor, decide

  • las variables analizadas
  • la amplitud del intervalo de confianza I
  • el nivel de confianza 1-\alpha (como un número decimal, por ejemplo 0,95)

El secretario general de un pequeño partido quiere saber si su partido obtendrá el 5% de los votos en la siguientes elecciones que son necesarios para entrar en el parlamento. Para ello, concerta una cita con un estadístico para hablar de esta encuesta. Durante la conversación el estadístico destaca los siguientes asuntos:

  • A fin de obtener la proporción exacta de votantes de este partido, se debería preguntar a todos los votantes (es decir, toda la población).
  • La proporción de votantes permite sólo una afirmación imprecisa sobre el verdadero valor de la fracción.
  • Un intervalo de confianza permite inferencia en un intervalo de incertidumbre “controlado”.
  • La amplitud y el nivel de confianza se pueden elegir de acuerdo con los deseos del político.
  • Cuanto menor sea la amplitud del intervalo y mayor el nivel de confianza, mayor será el tamaño muestral.

De acuerdo con las propiedades deseables del intervalo, el estadístico calcula el tamaño muestral mediante la fórmula n \geq \frac{4 \cdot z^2_{1-\frac{\alpha}{2}} \cdot \widehat{\pi} \cdot (1-\widehat{\pi})}{L^2} =\frac{z^2_{1-\frac{\alpha}{2}} \cdot \widehat{\pi} \cdot (1-\widehat{\pi})}{E^2}\, . Como \widehat{\pi} es desconocido, el estadístico usa de acuerdo con lo dicho por el político la mayor proporción de votos imaginable:10 %. En este caso, el estadístico está en el lado “seguro”, ya que el tamaño muestral basado en una proporción de votos de 10% es suficientemente grande respecto a la amplitud del intervalo y el nivel de confianza requeridos, incluso si \widehat{\pi} es menor que 10 %. La empresa Bimmelbahn quiere estudiar la puntualidad de sus trenes en una determinada zona. Esto supone incluir alguna especifiación sobre el retraso medio y la proporción de trenes puntuales. La empresa Bimmelbahn quiere encontrar un intervalo de confianza basado en una muestra aleatoria. 1. Pregunta:
?‘Cómo de grande tiene que ser la muestra elegida para obtener un intervalo de confianza para el retraso medio a un nivel de confianza 1-\alpha = 0,90 y un error de 30 min ?
Queremos suponer que la variable aleatoria X ={duración del retraso} tiene una distribución normal con media E(X) = \mu y varianza Var (X) = \sigma^2. De acuerdo con esta pregunta estamos buscando un intervalo de confianza para \mu. En la tabla de la distribución normal encontramos que para una probabilidad dada de 0,90 se tiene un valor z_{1-\alpha/2} =z_{0,95} = 1,645. Como \sigma^2 es también desconocida, usamos los datos la zona anterior. Suponemos que la desviación típica \sigma^2 = 68,8 de la zona anterior se mantiene en la zona actual. Por lo tanto, el tamaño de muestra necesario es n \geq \frac{\sigma^2 z^2_{1-\frac{\alpha}{2}}}{e^2} =\frac{68,8^2 \cdot 1,645^2}{30^2} = 14,23\, . La muestra tiene que ser al menos de 15, a fin de cumplir los resquisitos de confianza y precisión.
2. Pregunta:
?‘Cómo de grande debe ser la muestra seleccionada para construir un intervalo de confianza para la proporción \pi a un nivel de confianza 1-\alpha = 0,95 y un error de 0,05 ?
Si el tamaño muestral tiene que ser lo sucientemente grande como para cumplir los requisitos, con toda seguridad podemos aproximar la distribución por la normal (regla: n \geq 100), encontramos en la tabla de la normal que para una probabilidad dada 1-\alpha=0,95 se tiene el valor z_{1-\alpha/2} = z_{0,975} = 1,96. Como en la fórmula para encontrar n n \geq \frac{4 \cdot z^2_{1-\frac{\alpha}{2}} \cdot \widehat{\pi} \cdot
(1-\widehat{\pi})}{L^2} = \frac{z^2_{1-\frac{\alpha}{2}} \cdot \widehat{\pi} \cdot (1-\widehat{\pi})}{E^2} \widehat{\pi} es desconocido, es necesario volver a tomar los datos de la zona anterior, en la que la fracción de trenes con retraso era \pi = 0,867. Sin embargo, debido a la gran cantidad de sitios que están en construccion, asi como al mal tiempo, es dudoso que este valor sea igual para la zona actual. Por lo tanto, a fin de obtener el tamaño muestral n fijamos \pi = 0,5. Con respecto al tamaño muestral estamos asegurando, dado que otro valor de \pi produce un tamaño muestral menor. Introduciendo estos valores: n \geq \frac{z^2}{4e^2} = \frac{1,96^2}{4 \cdot 0,05^2} = 384,16 \, . A fin de cumplir las condiciones sobre la confianza y la exactitud del intervalo de confianza para el parámetro desconocido \pi de la puntualidad de los trenes, necesitamos un tamaño muestral de n al menos n=385.