Intervalo de confianza para la media

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Supongamos una variable aleatoria X con esperanza desconocida E(X) =\mu para la cual se puede hacer una estimacion de intervalos. Sean X_1, \dots, X_n las de una muestra aleatoria simple de tamaño n de esta población. Esto ya se ha visto que la media muestral \bar X = \frac{1}{n} \sum\limits_{i=1}^n X_i es un estimador puntual adecuado para la esperanza poblacional desconocida E(X)=\mu ya que es un estimador insesgado y consistente. La varianza y la desviación típica de \bar X son para el caso de una muestra aleatoria simple (ver Cap. Distribuciones muestrales): Var (\bar X) = \sigma^2 (\bar X) = \frac{\sigma^2}{n} \sigma(\bar X) = \frac{\sigma}{\sqrt{n}}\, . Para la construcción de un intervalo de confianza (central) y simétrico para \mu:

  • empezamos con el estimador \bar X ,
  • la desviación típica \sigma(\bar X) se usa como medida de exactitud
  • un factor c como múltiplo de la desviación típica de \bar X, se toma en consideración el que incluye el nivel de confianza 1-\alpha.

Para construir un intervalo [V_u ; V_o] = [\bar X - c \cdot \sigma(\bar X) ; \bar X + c \cdot \sigma(\bar X)] Tras substituir \sigma(\bar X) [V_u ; V_o] = \left[ \bar X - c \cdot \frac{\sigma}{\sqrt{n}} ; \bar X + c \cdot \frac{\sigma}{\sqrt{n}} \right] un intervalo de confianza con nivel de confianza P \left( \bar X - c \cdot \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar X + c \cdot \frac{\sigma}{\sqrt{n}} \right) = 1-\alpha \, , las dos condiciones para un intervalo de confianza se deben cumplir: La primera condición se cumple:
V_u \leq V_o para cualquier muestra x_1,
\dots, x_n. Cumplimiento de la segunda condición:
P(V_u \leq \mu \leq V_o) = 1-\alpha, donde la probabilidad debe ser (aproximadamente) determinada sin información previa del verdadero valor del parámetro \mu, Presuponiendo el conocimiento de la distribución del estimador \bar X y por lo tanto la distribución de X en la población. Esto normalmente provoca bastantes problemas en la práctica, debido a que generalmente la distirbución de X no es conocida. Consideremos los siguientes casos:

  • X en la población tiene distribución normal.
  • la distribución de X en la población es arbitraria, pero se pueden obtener muestras de tamaño grande.

Otro problema es que dentro de los límites del intervalo, la desviación típica \sigma de la variable aleatoria X de la población. Por lo que se debe discriminar entre dos posibilidades, a saber:

  • \sigma es conocida y
  • \sigma es desconocida.

Intervalo de Confianza para la media si la varianza es conocida.

Población con distribución Normal

Supongamos una variable aleatoria X con distribución normal en la población y con E(X)=\mu y Var(X)=\sigma^2: X \sim N(\mu ; \sigma) Además, supongamos una varianza conocida \sigma^2 y una esperanza desconocida \mu que esta sujeta a estimación. Por lo tanto, se extrae un a muestra aleatoria de tamaño n. Las variables muestrales X_1, \dots, X_n son independientes y están identicamente distribuidas como normales con E(X)=\mu y Var(X) = \sigma^2: X_i \sim N(\mu ; \sigma) \ \text{para todo} \ i \, . >De aquí, se obtiene, qeu el estimador \bar X tiene también una distribución normal con E(\bar X) = \mu y Var(\bar X) = \sigma^2(\bar X) = \sigma^2/n: \bar X \sim N(\mu, \sigma(\bar X)) \, . La variable aletoria estandarizada Z = \frac{\bar X - \mu}{\sigma(\bar X)} = \frac{\bar X - \mu}{\frac{\sigma}{\sqrt{n}}} = \frac{\bar X - \mu}{\sigma} \sqrt{n} tiene una distribución normal estandarizada: Z \sim N(0 ; 1). Para la variable aleatoria estandarizada se puede especificar un intervalo de fluctuación central donde Z son realizaciones con una probabilidad de confianza dada P(z_{\alpha /2} \leq Z \leq z_{1- \alpha /2}) = 1- \alpha. Donde z_{\alpha /2} se puede considerar como el \alpha /2 - cuantil y z_{1 - \alpha /2} como el (1-\alpha
/2) - cuantil de la distribución normal estandar. Debido a la simetría de la distribución normal estandarizada se cumple que |z_{\alpha /2}| = |z_{1-\alpha /2}| \ \text{a} \ z_{\alpha /2} = - z_{1-\alpha /2} Por lo tanto P(- z_{1-\alpha /2} \leq Z \leq z_{1-\alpha /2}) = 1-\alpha. Para la probabilidad 1-\alpha se encuentra en las tablas de la distribución normal estandarizada el correspondiente z_{1-\alpha
/2}. Tras substituir Z y algunas operaciones se obtiene: P \left( -z_{1-\frac{\alpha}{2}} \leq Z \leq z_{1-\frac{\alpha}{2}} \right) = 1-\alpha P \left( -z_{1-\frac{\alpha}{2}} \leq \frac{\bar X - \mu}{\sigma} \sqrt{n} \leq z_{1-\frac{\alpha}{2}} \right) = 1-\alpha P \left( -z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \leq \bar X - \mu \leq z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \right) = 1-\alpha P \left(\bar X - z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar X + z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \right) = 1-\alpha \, . Donde en la última expresión se da el intervalo de confianza para \mu. La constante c como múltiplo de la desviación típica del estimador está dada como c= z_{1-\alpha
/2}. Se satisfacen las condiciones de un intervalo de confianza, dado que la distribución es conocida (distribución normal estandarizada) y no depende del parámetro desconocido \mu. \left[ \bar X - z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \, ; \, \bar X + z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \right] es un intervalo de confianza para el parámetro desconocido \mu de una variable aleatoria X con distribución normal y con la varianza conocida \sigma^2 a un nivel de confianza de P \left(\bar X - z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar X + z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \right) = 1-\alpha \, . Se extrae una muestra con valores muestrales x_1, \dots, x_n sabiendo entonces que \bar x = \frac{1}{n} \sum\limits_{i=1}^n x_i es la media aritmética de esta muestra (como una realización de \bar X) y \left[ \bar x - z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \, ; \, \bar x + z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \right] el correspondiente intervalo de confianza para esta muestra. La interpretación general de los intervalos de confianza es válida sin restricciones.

  • El intervalo de confianza está estimando la probabilidad de un intervalo de confianza simétrico, dado que P \left(\mu < \bar X - z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \right) = \frac{\alpha}{2} \ , \ P \left( \bar X + z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} < \mu \right) = \frac{\alpha}{2} \, .
  • Otra característica de simetría es su simetría en relación a la estimación puntual. Los límites del intervalo están a la misma distancia de \bar X. Esta distancia, es decir, la mitad de la amplitud del intervalo, se puede considerar en este caso como un error de estimación y se puede simbolizar como e: e = z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}
  • La amplitud del intervalo de confianza I = \left(\bar X + z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \right) - \left( \bar X - z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \right) = 2 z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} y el error de estimación e no dependen de las variables muestrales X_1, \dots, X_n. Con \sigma, n y 1-\alpha dados, se obtienen diferentes estimaciones de intervalos de muestra a muestra. Sin embargo estos intervalos estimados tienen todos la misma amplitud fija, es decir, el mismo error de estimación.
  • La amplitud del intervalo de confianza y el error de estimación dependen de la desviación típica de la población \sigma, y el tamaño muestral n, y debido a z_{1-\alpha /2} del nivel de confianza dado. Cuanto mayor (menor) es la desviación típica \sigma más ancho (fino) es el intervalo en ceteris paribus. Cuanto mayor (menor) es el nivel de confianza 1-\alpha más grande (pequeño) es z_{1-\alpha /2} y más grande (pequeño) es el intervalo en ceteris paribus. Cuanto mayor (menor) es el tamaño muestral n más pequeño (grande) es el intervalo en ceteris paribus. De la iteracción del nivel de confianza y del tamaño muestral se puede controlar el intervalo de confianza.

Distribución Desconocida de la Población

Si la distribución de la variable aleatoria X en la población es desconocida, es decir, X se distribuye de forma arbitraria, entonces no podemos hacer indicaciones precisas sobre distribución del estimador \bar X. Sin embargo, por consideraciones anteriores acerca del teorema central del límite sabemos que la distribución de \bar X converge, incrementando el tamaño muestral, n a la distribución normal. Por lo tanto, con un tamaño de muestra n suficientemente grande el estimador \bar X se distribuye aproximadamente como una normal: \bar X \approx N(\mu ; \sigma(\bar X)) y la variable aleatoria estandarizada Z tiene una distribución aproximadamente normal estandar: Z \approx N(0 ; 1) \, . Como regla, se considera un tamaño suficiente n \geq 30. Por lo tanto \left[ \bar x - z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \, ; \, \bar x + z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \right] es un intervalo de confianza para el parámetro desconocido \mu, que aproximadamente tiene el intervalo de confianza P \left(\bar X - z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar X + z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \right) = 1-\alpha \, .

Intervalo de confianza para la media cuando la varianza es desconocida.

Distribución Normal en la Población

Como en 1.1 se cumple x \sim N(\mu ; \sigma)\, ,\ X_i \sim N(\mu ; \sigma) \ \text{for all}i \ \text{and } \bar X \sim N(\mu ; \sigma(\bar X)) \, La variable aleatoria estandarizada Z ahora no está determinada dado que \sigma^2 es desconocida. La varianza \sigma^2 tiene que ser estimada de la muesta. Un estimador adecuado es la varianza muestral S^2 = \frac{1}{n-1} \sum\limits_{i=1}^n (X_i - \bar X)^2 \, . Para la estandarización, se usa la desviación típica S como raiz cuadrada de S^2: T = \frac{\bar X - \mu}{S} \sqrt{n} \, . La variable aleatoria T sigue, en una muestra aleatoria de tamaño n, una distribución t con f= n-1 grados de libertad: T \sim t(n-1) Se puede obtener un intervalo de variación central para la variable aleatoria estandarizada T, tal que T adopta realizaciones con una probabilidad de confianza de P(t_{f;\alpha /2} \leq T \leq t_{f;1-\alpha /2}) = 1-\alpha. Así t_{f;\alpha /2} es un \alpha /2 - cuantil y t_{f;1-\alpha /2} es un (1-\alpha /2) / cuantil de la distribución t. Debido a la simetría de la distribución t se cumple |t_{f;\alpha /2}| = |t_{f; 1-\alpha /2}| \ \text{a} \ t_{f;\alpha /2} = - t_{f; 1-\alpha /2} \, , Porl lo tanto P( - t_{f;1-\alpha /2} \leq T \leq t_{f;1-\alpha /2}) = 1-\alpha \, . Para la probabilidad 1-\alpha se obtiene de las tablas de la distribución t t_{f;1-\alpha /2}. De esta forma la distribución es conocida y no depende del parámetro desconocido \mu. Substituyendo T y realizando algunas operaciones se obtiene un intervalo de confianza. \left[ \bar X - t_{n-1;1-\frac{\alpha}{2}} \cdot \frac{S}{\sqrt{n}} \, ; \, \bar X + t_{n-1;1-\frac{\alpha}{2}} \cdot \frac{S}{\sqrt{n}} \right] que es el intervalo de confianza para el parámetro desconocido \mu de una variable aleatoria X que se distribuye normalmente con varianza desconocida \sigma^2 a un nivel de significación P \left( \bar X - t_{n-1;1-\frac{\alpha}{2}} \cdot \frac{S}{\sqrt{n}} \leq \mu \leq \bar X + t_{n-1;1-\frac{\alpha}{2}} \cdot \frac{S}{\sqrt{n}} \right) = 1- \alpha \, . Tras obtener una muestra y evaluar los valores muestrales x_1,
\dots, x_n se obtiene:

  • las estimaciones puntuales \bar x y s
  • y el intervalo estimado \left[ \bar x - t_{n-1;1-\frac{\alpha}{2}} \cdot \frac{s}{\sqrt{n}} \, ; \, \bar x + t_{n-1;1-\frac{\alpha}{2}} \cdot \frac{s}{\sqrt{n}} \right]

Dado que la distribución t converge a una N(0;1), incrementando los grados de libertad y por tanto el tamaño muestral n, aproximadamente se puede usar z_{1-alpha
/2} en lugar de t_{n-1;1-\alpha
/2} si el tamaño muestral es suficiente (n>30). Entonces se puede obtener aproximadamente un intervalo.

  • El intervalo de confianza es simétrico en términos de probabilidad.
  • El intervalo de confianza es simétrico respecto a la estimación puntual. Los límites del intervalo están a la misma distancia de \bar X .
  • Tanto la amplitud L del intervalo de confianza com el error de estimación E dependen, L = 2 t_{n-1;1-\frac{\alpha}{2}} \cdot \frac{S}{\sqrt{n}} \, , \quad E = t_{n-1;1-\frac{\alpha}{2}} \cdot \frac{S}{\sqrt{n}} via S, de las variables muestrales X_1, \dots, X_n y por lo tanto son variables aleatorias. Para un tamaño muestral n y nivel de confianza 1-\alpha dados, se obtienen diferentes estimaciones de intervalos de muestra a muestra, que también puede enseñar diferentes amplitudes y errores de estimación.
  • La amplitud del intervalo de confianza y del error de estimación dependen del tamaño muestral n y via t_{n-1;1-\alpha /2} del nivel de confianza dado 1-\alpha.
  • Como los cuantiles t_{n-1;1-\alpha /2} de la distribución t son mayores que los cuantiles z_{1-\alpha /2} de la distribución normal estandarizada los intervalos de confianza son mayores si la varianza no se conoce, comparándola a cuando lo es. Un indicador de esta pérdida de información. Una incertidumbre adiccional entorno a \sigma^2 está “insertada” en la distribución t.

Distribución Desconocida en la Población

Si la variable aleatoria X no tiene distribución normal y la varianza \sigma^2 es desconocida, el intervalo de confianza \left[ \bar x - z_{1-\frac{\alpha}{2}} \frac{S}{\sqrt{n}} \, ; \, \bar x + z_{1-\frac{\alpha}{2}} \frac{S}{\sqrt{n}} \right] \, , se puede usar bajo el supuesto de tener un tamaño muestral n grande. Este intervalo de confianza tiene el nivel de confianza P \left(\bar X - z_{1-\frac{\alpha}{2}} \frac{S}{\sqrt{n}} \leq \mu \leq \bar X + z_{1-\frac{\alpha}{2}} \frac{S}{\sqrt{n}} \right) = 1-\alpha \, . Esto se puede atribuir al hecho de que:

  • Con una población con distribución arbitraria, la variable aleatoria estandarizada Z tiene un tamaño lo sufientemente grande como para tener aproximadamente una distribución normal (aplicación del teorema central del límite);
  • El estimador S^2 es un estimador consistente de \sigma^2 y por lo tanto S también es consistente, esto es, se puede asumir que una muestra de tamaño n grande S varía poco entorno al verdader valor \sigma;
  • la variable aleatoria T, donde \sigma ha sido substituida por S, tiene aproximadamente una distribución normal si el tamaño muestral es lo suficientemente grande.

Supongamos una población de N=500 empleados asegurados. Se estudia la siguiente característica:
X1= provisón anual en DM
X2 = contratos de seguros mensuales finalizados
X3 = días de enfermedad por año
X4= horas semanales trabajadas.
La esperanza \mu, la varianza \sigma^2 y la distribución de la variable en la población son desconocidas. Obtener una estimación puntual y por intervalo de la esperanza \mu bajo el supuesto de una muestra aleatoria simple. Con este ejemplo tienes la posibilidad de estudiar la influencia del nivel de confianza y del tamaño muestral en la amplitud del intervalo. Es aconsejable cambiar sólo uno de los dos valores y dejar el otro constante. Por favor, decide sobre

  • la variable analizada
  • el tamaño muestral n
  • el nivel de confianza 1-\alpha (como un decimal, por ejemplo 0,95)

Indicación: Considera con estas decisiones que información tienes sobre la población. Resultado:
Este ejemplo interactivo devuelve

  1. el correspondiente Box-plot

si se selecciona la misma variable varias veces, pero se seleccionan distintos niveles de confianza o tamaños muestrales, entonces en la siguiente ventana de resultados también se muestra el intervalo antiguo (para comparar). El departamento de marketing de un fabricante de lámparas necesita valores de la vida media de una bombilla específica. Desde un punto de vista estádistico ocurren las siguientes consideraciones:

  • La inclusión de toda la población, es decir, la producción total de este tipo de bombillas, no es posible por dos razones:

    • Dado que en el futuro se van a producir más bombillas, la población total no está determinada completamente.

    • La determinación del tiempo de vida de las bombillas implica la destrucción de estas.

    Por lo tanto, se necesita extraer una muestra de esta población.

  • A fin de evitar errores de sesgo, se selecciona una muestra aleatoria.

  • La selección de una muestra aleatoria simple (muestra aleatoria con devolución) no tiene sentido en este caso porque se produce la destrucción de las bombillas. Por lo tanto se usará una muestra aleatoria sin restricciones (muestra aleatoria sin devolución).

  • Dado que la producción total es muy grande, el hecho de extraer una muestra sin reemplazamiento no implica nada, ya que la distribución en la población no sufre cambios significativos tras cada extracción. Por esta razón la muestra se puede considerar como una muestra aleatoria simple.

  • Aparte de la estimación puntual de la media de vida desconocida \mu también se va a mostrar un intervalo de confianza simétrico a un nivel de confianza 1-\alpha = 0,95.

  • No hay información sobre la distribución de la variable aleatoria X = {tiempo de vida} y la varianza \sigma^2. Si se toma un tamaño de muestra n lo suficientemente grande se puede usar como aproximación el intervalo de confianza \left[ \bar X - z_{1-\frac{\alpha}{2}} \frac{S}{\sqrt{n}} \, ; \, \bar X + z_{1-\frac{\alpha}{2}} \frac{S}{\sqrt{n}} \right] para el nivel de confianza aproximado P \left( \bar X - z_{1-\frac{\alpha}{2}} \frac{S}{\sqrt{n}} \leq \mu \leq \bar X + z_{1-\frac{\alpha}{2}} \frac{S}{\sqrt{n}} \right) \approx 1-\alpha Para el nivel de confianza dado 1-\alpha - 0,95 la tabla de la distribución normal estandar devuelve z_{1-\alpha/2} = z_{0,975} = 1,96.

  • A fin de garantizar por una parte una aproximación correcta mediante una distribución normal y por otra parte reducir el coste mediante una muestra pequeña, el tamaño muestral se debe elegir lo mas pequeño posible. En este sentido, una buena elección es n = 50.

La muestra especificada devuelve las siguientes estimaciones puntuales:

tiempo de vida medio en la muestra \bar x: 1600 horas
Varianza s^2 en la muestra: 8100 horas^2
desviación típica s en la muestra: 90 hours

La estimación por intervalos: \begin{align}
\left[ 1600 - 1,96 \frac{90}{\sqrt{50}} \, ; \, 1600 + 1,96 \frac{90}{\sqrt{50}} \right] & = & [1600 - 24,95 \, ; \, 1600 + 24,95]\\
& = & [1575,05 \, ; \, 1624,95]\\\end{align} Dado que se ha seleccionado una probabilidad de 0,95 (muy cercana a la unidad) para la estimación, se supone el intervalo que ha sido obtenido para el tamaño muestral n=50 contiene el verdadero valor \mu. >Desde un punto de vista del departamento de marketing, el resultado es insatisfactorio ya que, por razones psicológicas, en la publicidad no han hecho ninguna mención sobre el límite superior de la duración media. Por lo tanto, desean un intervalo que no tenga límite por la parte superior, es decir, se debe determinar un intervalo con una sola cola. Con el nivel de confianza P \left( \bar X - z_{1-\alpha} \frac{S}{\sqrt{n}} \leq \mu \right) = 1-\alpha = 0,95 la tabla de la distribución normal suministra z_{1-\alpha}= z_{0,95}= 1,645. Con la misma muestra el resultado obtenido del límite inferior es: v_u = 1600 - 1,645 \cdot \frac{90}{\sqrt{50}} = 1600 - 20,94 = 1579,06 \ \text{hodin} y el correspondiente intervalo estimado de una cola [1579,06 \, ; \, + \infty)\, . También para este resultado se puede aplicar una interpretación similar: Debido a la alta probabilidad de 0,95 se supone que se obtiene una intervalo estimado de una cola para un tamaño muestral n=50 que contiene el verdadero valor \mu. Es s2 44 f 18.gif Para una población de N=2000 hogares, sea X la variable aleatoria que representa el ingreso neto de los hogares (en DM). La media del ingreso medio de los hogares de esta población, es decir, su esperanza E(X)=\mu, es desconocida y objeto de estimación. Además de la estimación puntual se va suministrar un intervalo de confianza para un nivel de confianza de 1-
\alpha = 0,95. Para estimar \mu se usa como estimador la media muestral \bar X = \frac{1}{n} \sum\limits_{i=1}^n X_i \, . Una muestra aleatoria de tamaño n da los valores muestrales x_1, \dots, x_n. Substituyendo estos valores en el estimador se obtiene \bar x = \frac{1}{n} \sum\limits_{i=1}^n x_i como estimación puntual del ingreso medio de los hogares de la población. La especificación del intervalo está influenciada de manera decisiva por la información disponible sobre la población.

Población con Distribución Normal

1.1 Intervalo de confianza para \mu con desviación típica desconocida \sigma Supongamos de nuevo la variable aleatoria X (ingreso neto de los hogares). Además, la variable aleatoria tiene una distribución normal en la población con desviación típica \sigma= 1012,8 DM: X
\sim N(\mu;1012,8). Gracias a esta información \left[ \bar X - z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}\, ; \, \bar X + z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \right] es el intervalo de confianza para \mu de X (ingreso neto de los hogares) a un nivel de confianza P \left( \bar X - z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar X + z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \right) = 1-\alpha Para el valor dado 1-\alpha = 0,95 se obtiene de la distribución normal estandar N(0,1): z_{1-\alpha/2}= z_{0,975} = 1,96. Substitutyendo \sigma y z_{1-\alpha/2} P \left( \bar X - 1,96 \frac{1012,8}{\sqrt{n}} \leq \mu \leq \bar X + 1,96 \frac{1012,8}{\sqrt{n}} \right) = 0,95 y \left[ \bar X - 1,96 \frac{1012,8}{\sqrt{n}} \, ; \, \bar X + 1,96 \frac{1012,8}{\sqrt{n}} \right] Tras obtener una muestra \left[ \bar x - 1,96 \frac{1012,8}{\sqrt{n}} \, ; \, \bar x + 1,96 \frac{1012,8}{\sqrt{n}} \right] es el correspondiente intervalo de confianza, donde sólo es necesario substituir el valor del estimador puntual \bar x y n. Una muestra aleatoria simple de tamaño n=20 de la población anterior da los siguientes valores muestrales. Tabla 1: Valores muestrales del ingreso neto de los hogares para un tamaño de muestra n=20 (ordenados por tamaño)

i Ingreso neto de los hogares (DM) x_i i Ingreso neto de los hogares (DM) x_i
1 800 11 2500
2 1200 12 2500
3 1400 13 2500
4 1500 14 2700
5 1500 15 2850
6 1500 16 3300
7 1800 17 3650
8 1800 18 3700
9 2300 19 4100
10 2400 20 4300

La media del ingreso neto de los hogares en esta muestra es \bar x = 48\,300/20 = 2\,415 DM y es el estimador puntual para la media poblacional del ingreso neto por hogar. La correspondiente estimación por intervalo de esta muestra es: \begin{align}
\left[ 2415 - 1,96 \frac{1012,8}{\sqrt{20}} \, ; \, 2415 + 1,96 \frac{1012,8}{\sqrt{20}} \right] & = & [2415 - 443,88\, ; \, 2415 + 443,88]\\
& = & [1971,12 \, ; \, 2858,88]\\\end{align} De esta estimación por intervalo no se puede decir nada de si el verdadero valor \mu de la media poblacional del ingreso medio por hogar se encuentra en el intervalo o no. Dado que para el proceso de estimación del intervalo se ha seleccionado un nivel de confianza de 0,95 (muy cercano a la unidad), se supone que el intervalo obtenido para un tamaño muestral de n=20 contiene el verdadero valor \mu. Para mostrar algunos problemas relacionados con los intervalos de confianza, se obtuvieron otras 24 muestras de tamaño n=20 de la misma población. Se calculó la media de ingreso neto por hogar \bar x y una estimación por intervalos para cada una de las muestras (ver tabla inferior). Table 2: media de ingreso neto por hogar y estimación por intervalo para 25 muestras aleatorias de tamaño n=20

i \bar x v_u v_o i \bar x v_u v_o
1 2413,40 1969,52 2857,28 14 2126,50 1682,62 2570,38
2 2317,00 1873,12 2760,88 15 2243,15 1799,27 2687,03
3 2567,50 2123,62 3011,38 16 2361,25 1917,37 2805,13
4 2060,90 1617,02 2504,78 17 2607,25 2163,37 3051,13
5 2363,50 1919,62 2807,38 18 2319,55 1875,67 2763,43
6 2774,30 2330,42 3218,18 19 2203,85 1759,97 2647,73
7 2298,80 1854,92 2742,68 20 2395,25 1951,37 2839,13
8 72241,15 1797,27 2685,03 21 2659,00 2215,12 3102,88
9 1915,30 1471,42 2359,18 22 2168,50 1724,62 2612,38
10 2062,15 1618,27 2506,03 23 2110,30 1666,42 2554,18
11 2267,75 1823,87 2711,63 24 1884,90 1441,02 2328,78
12 2163,10 1719,22 2606,98 25 2415,00 1971,12 2858,88
13 2635,00 2191,12 3078,88

El siguiente gráfico muestra las 25 estimaciones puntuales y por intervalo. Únicamente por razones demostrativas se muestra la verdadera media \mu de la población mediante una linea de puntos. Fig. 1: Estimación puntual y por intervalos para 25 muestras aleatorias de tamaño n=20 Es s2 44 f 8.gif Bajo estos resultados se pueden extraer diferentes características de los intervalos de confianza:

  • Los limites V_u y V_o del intervalo de confianza son variables aleatorias, que da diferentes valores de muestra a muestra debido a los distintos valores muestrales x_i, \ i = 1, \dots, 20 y los correspondientes valores estimados \bar x)

  • 23 intervalos estimados (92 %) incluyen el verdadero valor \mu y 2 intervalos (num. 9 y num. 24; 8 %) no lo incluyen. ?‘Está esto en oposicicón con el nivel de confianza fijo 0,95?

    La respuesta es NO, dado que el nivel de confianza se refiere a un número grande de muestras y obviamente 25 no lo es.

  • Las 25 estimaciones por intervalo tienen la misma amplitud de 887,76 y el mismo error de estimación 443,88, dado que la desviación típica \sigma de la población se supone conocida.

1.2 Intervalo de Confianza de \mu con Desviación Típica Desconocida \sigma Supongamos de nuevo que la variable aleatoria X (ingreso neto de los hogares) se distribuye normalmente donde la desviación típica es desconocida: X \sim N(\mu ; \sigma). Para determinar el intervalo de confianza para \mu se debe estimar la varianza \sigma^2, usando el estimador S^2. Debido a esta información \left[ \bar X - t_{n-1;1-\frac{\alpha}{2}} \frac{S}{\sqrt{n}}\, ; \, \bar X + t_{n-1;1-\frac{\alpha}{2}} \frac{S}{\sqrt{n}} \right] es el intervalo de confianza del parámetro desconocido \mu de la variable aleatoria X (ingreso neto de los hogares) al nivel de confianza P \left( \bar X - t_{n-1;1-\frac{\alpha}{2}} \frac{S}{\sqrt{n}} \leq \mu \leq \bar X + t_{n-1;1-\frac{\alpha}{2}} \frac{S}{\sqrt{n}} \right) = 1-\alpha Para el nivel de confianza dado 1-\alpha = 0,95 la tabla de la distribución t da: t_{n-1;1-\alpha/2}= t_{19;0,975} = 2,093. Tras extraer una muestra \left[ \bar x - 2,093 \frac{s}{\sqrt{n}} \, ; \, \bar x + 2,093 \frac{s}{\sqrt{n}} \right] es la correspondiente estimación por intervalo, donde es necesario substituir las estimaciones puntuales de \bar x, s asi como el valor n. Para ilustrar esta modificación en la determinación del intervalo de confianza vamos a utilizar de nuevo las 25 muestras aleatorias simples de tamaño n=20 usadas en la sección 1.1. Por ejemplo no. 25, donde los valores muestrales son los de la tabla 1, la media de ingreso neto por hogar es \bar x= 48\,300/20= 2\,415 DM, desviación típica s = 1001,06 DM y una estimación por intervalo \begin{align}
\left[ 2415 - 2,093 \frac{1001,065}{\sqrt{20}} \, ; \, 2415 + 2,093 \frac{1001,065}{\sqrt{20}} \right] & = & [2415 - 468,51 \, ; \, 2415 + 468,51]\\
& = & [1946,49 \, ; \, 2883,51]\, .\\\end{align} La interpretación es idéntica a la anterior. La tabla 3 contiene la media del ingreso neto por hogar \bar x, la desviación típica s, la estimación por intervalo y el error de estimación e para las 25 muestras. Tabla 3: Media de ingreso neto por hogar (DM) \bar x, Desviación Típica s, Estimación por Intervalo y Error de Estimación e para 25 muestras de tamaño n=20

i \bar x s v_u v_o e
1 2413,40 1032,150 1930,34 2896,46 483,06
2 2317,00 872,325 1908,74 2825,26 408,26
3 2567,50 1002,008 2098,55 3036,45 468,95
4 2060,90 812,365 1680,71 2441,09 380,19
5 2363,50 1376,648 1719,22 3007,78 644,28
6 2774,30 1213,779 2206,24 3342,63 568,06
7 2298,80 843,736 1903,92 2693,68 394,88
8 2241,15 1116,827 1718,46 2763,84 522,69
9 1915,30 1113,122 1394,35 2436,25 520,95
10 2062,15 856,069 1661,50 2462,80 400,65
11 2267,75 1065,227 1769,21 2766,29 498,54
12 2163,10 1040,966 1675,92 2650,28 487,18
13 2635,00 1154,294 2094,78 3175,22 540,22
14 2126,50 1103,508 1610,05 2642,95 516,45
15 2243,15 1126,913 1715,74 2770,56 527,41
16 2361,25 1166,260 1815,43 2907,07 545,82
17 2607,25 848,019 2210,37 3004,13 396,88
18 2319,55 941,236 1879,04 2760,06 440,51
19 2203,85 974,980 1747,55 2660,15 456,30
20 2395,25 899,461 1974,29 2816,21 420,96
21 2659,00 969,720 2205,16 3112,84 453,84
22 2168,50 763,222 1811,31 2525,69 357,19
23 2110,30 1127,608 1582,57 2638,03 527,73
24 1884,90 928,420 1450,39 2319,41 434,51
25 2415,00 1001,065 1946,49 2883,51 468,51

El siguiente gráfico muestra las 25 estimaciones puntuales y por intervalos. Además se muestra mediante una linea discontinua la verdadera media \mu sólo por razones demostrativas. Fig. 2: Estimación por intervalos para 25 muestras de tamaño n=20 Es s2 44 f 9.gif En este caso sólo un intervalo no contiene al verdadero valor del parámetro \mu de la media del ingreso neto por hogar (la muestra no. 24). De la Tab. 3 y Fig. 2 se puede ver que es razonable que la amplitud L de los intervalos y el error de estimación E cambien entre las muestras ya que son variables aleatorias. La razón es que la desviación típica de la población \sigma es desconocida, y tiene que ser estimada produciendo distintos resultados.

Población con distribución Arbitraria y Desviación Típica Desconocida

El caso que en la práctica ocurre con más frecuencia es el siguiente. La distribución de la variable aleatoria X y la desviación típica \sigma de la población son desconocidas. A fin de ser capaces de indicar un intervalo de confianza, se ha de seleccionar una muestra con tamaño muestral n lo suficientemente grande, para poder aplicar el teorema central del límite. Se elige n=100. Entonces \left[ \bar X - z_{1-\frac{\alpha}{2}} \frac{S}{\sqrt{n}} \, ; \, \bar X + z_{1-\frac{\alpha}{2}} \frac{S}{\sqrt{n}} \right] es un intervalo de confianza aproximado para el parámetro desconocido \mu de la variable aleatoria X (ingreso neto de los hogares) a un nivel de significación P \left( \bar X - z_{1-\frac{\alpha}{2}} \frac{S}{\sqrt{n}} \leq \mu \leq \bar X + z_{1-\frac{\alpha}{2}} \frac{S}{\sqrt{n}} \right) \approx 1-\alpha Para el nivel dado 1-\alpha - 0,95 la tabla de la distribución normal devuelve el valor z_{1-\alpha/2}= z_{0,975} = 1,96. La Fig. 3 enseña los valores de la estimación puntual y los intervalos de confianza para 50 muestras aleatorias simples. Además, se muestra el verdadero valor de la media \mu de la población con una linea de puntos por motivos demostrativos. Fig. 3: Estimación por intervalos de 50 muestras aleatorias de tamaño n=100 Es s2 44 f 10.gif De nuevo observamos que la amplitud L de los intervalos y que el error de estimación E cambia de muestra a muestra y por lo tanto son variables aleatorias, esto se debe a que no se conoce la desviación típica de la población. De las 50 estimaciones por intervalos, 2 (4 %) de ellos no tienen contienen el verdadero valor del parámetro \mu. Intervalo de confianza para \mu en el caso de una población con distribución normal y varianza desconocida \sigma^2 Supongamos una variable aleatoria X con distribución normal X con parámetros desconocidos \mu y \sigma^2. Se puede obtener una estimación por intervalos para la esperanza desconocida \mu. Por lo tanto se obtiene: X \sim N(\mu; \sigma), \quad X_i \sim N(\mu; \sigma)\ \text{para todo } \ i \ \text{y} \ \bar X \sim N(\mu, \sigma(\bar X))\, . La variable aleatoria estandarizada Z Z = \frac{\bar X - \mu}{\sigma} \sqrt{n} no está determinada ya que \sigma es desconocida. Por lo que no es posible una afiliación con la distribución normal estandar N(0,1). Más aún, la distribución normal N(\mu, \sigma(\bar X)) no es adecuada dado que \sigma(\bar X) no es independiente de \mu, que es una condición básica para un intervalo de confianza. La varianza desconocida \sigma^2 es estimada mediante la varianza muestral S^2 - \frac{1}{n-1} \sum\limits_{i-1}^n (X_i - \bar X)^2 y para la estandarización se usa la desviación típica S: T = \frac{\bar X - \mu}{S} \sqrt{n} \, . Entonces ?‘Qué distribución tiene la variable aleatoria T? Por razones ilustrativas tanto el numerador como el denominador se han dividido por \sigma y tras ciertas operaciones: T = \frac{\frac{\bar X - \mu}{\sigma} \sqrt{n}}{\frac{S}{\sigma}} - \frac{\frac{\bar X - \mu}{\sigma} \sqrt{n}}{\sqrt{\frac{s^2}{\sigma^2}}} = \frac{\frac{\bar X - \mu}{\sigma} \sqrt{n}}{\sqrt{\frac{1}{n-1} (n-1) \frac{S^2}{\sigma^2}}} \, . El numerador se corresponde con la variable aleatoria Z que tiene una distribución normal estandar. La variable aleatoria del denominador (n-1) S^2 / \sigma^2 se distribuye como una Chi-cuadrado con f= n-1 grados de libertad como se ha visto en la sección Distribución de la Varianza Muestral. Por lo que la variable aleatoria T es la fracción entre una variable aleatoria normal estandar y la raiz cuadrada de una variable aleatoria con distribución Chi-cuadrado divida por los grados de libertad, por lo que la variable obtenida se distribuye como una t. Conclusión:
La variable aleatoria T en una muestra aleatoria de tamaño n sigue una distribución t con f=n-1 grados de libertad: T \sim t(n-1) \, . La distribución de T no depende de \mu ni de \sigma^2. Intervalo de Variación Central En parrafos anteriores (por ejemplo en la desigualdad de Tschebyschev, la distribución normal, las distribucioens muestrales) hemos hablado del intervalo de variación central de una variable. Si ahora la variable es un estimador \widehat{\Theta} del parámetro desconocido \vartheta la pregunta que surge es por qué no usar el intervalo de variación central como una estimación por intervalos. Vamos a ver como la definición de intervalo de variación central se puede aplicar en el contexto de estimadores: Un intervalo de variación central para un parámetro \widehat{\Theta} es una región con extremos fijos alrededor del parámetro \vartheta donde la variable aleatoria \widehat{Theta} tiene realizaciones con una probabilid de 1
- \alpha y donde las dos regiones fuera del intervalo tienen la misma probabilidad: \alpha/2: [ \vartheta - k \, ; \, \vartheta + k] con la probabilidad P (\vartheta - k \leq \widehat{\Theta} \leq \vartheta + k) = 1-\alpha \, , donde P(\widehat{\Theta} \leq \vartheta - k) = P(\vartheta - k \leq \widehat{\Theta}) = \alpha/2 y P(\widehat{\Theta} \leq \vartheta - k) + P(\vartheta - k \leq \widehat{\Theta}) = \alpha \, . Por lo tanto, el intervalo de variación se puede determinar si se conoce la distribución de la variable aleatoria \widehat{\vartheta} y del parámetro \vartheta. Dos características del intervalo de variación son contrarias a la idea de intervalo de confianza:

  • el parámetro \vartheta de la población debe ser conocido, lo cual no es cierto para la estimación por intervalos.
  • el intervalo de variación es una área, donde el estimador \widehat{\Theta} tiene realizaciones con una probabilidad 1-\alpha, mientras que en el intervalo de confianza se debe determinar un área en el que el parámetro \vartheta esté con la probabilidad dada.

Sin embargo, se puede encontrar un intervalo de confianza central si se realizan ciertas operaciones en la desigualdad de la expresión de probabilidad. primero \vartheta y después \widehat{\Theta} se substraen de ambas partes de la desigualdad: \begin{align}
P(\vartheta - k \leq \widehat{\Theta} \leq \vartheta + k) & = & 1 - \alpha\\ P(-k \leq \widehat{\Theta} -
\vartheta \leq + k) & = & 1 - \alpha\\ P(- \widehat{\Theta} - k \leq - \vartheta \leq - \widehat{\Theta} + k) & =& 1 - \alpha\\\end{align} Multiplicando ambas partes por -1 modifica el signo de la desigualdad dado que tenemos el valor negativo \vartheta en el medio de la ecuación: P(\widehat{\Theta} + k \geq \vartheta \geq \widehat{\Theta} - k) = 1 - \alpha \, . Reescribiendo los términos P(\widehat{\Theta} - k \leq \vartheta \leq \widehat{\Theta} + k) = 1 - \alpha \, , que indica el nivel de confianza que tiene el intervalo de confianza central [\widehat{\Theta} - k \, ; \, \widehat{\Theta} + k]\, En contraste con el intervalo de variación, donde los extremos eran medidas fijas, los extremos del intervalo de confianza son aleatorios, dado que contienen \widehat{\Theta} como variable aleatoria.