Distribución de la varianza muestral

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Considerese la variable poblacional X con E(X) = \mu y Var(X)
= \sigma^2. Se extrae una muestra aleatoria de tamaño n de esta población. La varianza muestral se basa en la suma de desviaciones al cuadrado de las variables muestrales X_i, i = 1,
\dots, n con respecto a la media. Dependiendo del tipo de información disponible acerca de la media, existen diferentes definiciones de la varianza muestral

  1. Si la media de la población E(X) = \mu es conocida la varianza muestral está dada por S^{\star 2} = \frac{1}{n} \sum\limits_{i=1}^n (X_i - \mu)^2

  2. si E(X) = \mu es desconocida entonces debe ser estimada por la media muestral \bar X y la varianza muestral se calcula como S^2 =
\frac{1}{n-1} \sum\limits_{i=1}^n (X_i - \bar X)^2

    De forma análoga a la estadística descriptiva, la varianza muestral puede ser calculada como S^{/2} = \frac{1}{n}
\sum\limits_{i=1}^n (X_i - \bar X)^2 Ver la página “Información” para más versiones de la varianza muestral.

La derivación de la distribución de las varianzas muestrales S^{\star 2} y S^2 se darán bajo el caso de distribución normal de la población, es decir X \sim N(\mu. \sigma), y muestreo aleatorio simple. Bajo estos supuestos, las variables muestrales X_i, i = 1, \dots, n son independientes e idénticamente distribuidas con E(X_i)=\mu y Var(X_i)=\sigma_2: X_i \sim N(\mu, \sigma) \ \text{for each} i
= 1, \dots, n Más aún, la media muestral \bar X también tiene distribución normal con E(\bar X) = \mu y Var (\bar X) =
\sigma^2(\bar X) = \sigma^2/n: \bar X \sim N(\mu, \sigma)
\text{.}

Distribución de la varianza muestral S^{\star 2}

De la definición S^{\star 2} se obtiene que: nS^{\star 2} =
\sum\limits_{i=1}^n (X_i - \mu)^2 y tras dividirlo por \sigma^2 \frac{nS^{\star 2}}{\sigma^2} = \frac{1}{\sigma^2}
\sum\limits_{i=1}^n (X_i - \mu)^2 = \sum\limits_{i=1}^n \left(
\frac{X_i - \mu}{\sigma} \right) ^2 \text{.} Para ver las implicaciones de este resultado observar que

  • (X_i - \mu)/\sigma son variables aleatorias estandarizadas, i=1, \dots, n
  • Todas tienen una distribución normal estandar ya que X_i se distribuyen normalmente.
  • Son independientes debido al muestreo aleatorio simple.
  • nS^{\star 2}/\sigma^2 es la suma de cuadrados de variables aleatorias normales independientes.

Por lo tanto, nS^{\star 2}/\sigma^2 sigue una distribución chi-cuadrado de parámetro f. Aparentemente, la distribución de S^{\star 2} no se puede derivar directamente usando variables aleatorias transformadas n
S^{\star 2}/ \sigma^2. Dado que n y \sigma^2 son meramente constantes, este resultado nos va a permitir hacer afirmaciones estadísticas sobre S^{\star 2}. El parámetro f es igual a los grados de libertad, es decir, el número de términos independientes en la suma de cuadrados que es igual al número de variables aleatorias estandarizadas X_i - \mu)/\sigma. De este modo, f = n como toda X_i es independiente bajo muestreo aleatorio simple. El valor esperado y varianza de S^{\star 2} están dados por: E(S^{\star 2}) = \sigma^2, \qquad Var(S^{\star 2}) = 2 \sigma^4
/n \text{.}

Distribución de la varianza muestral S^2

La derivación de la distribución de S^2 es semejante a la de S^{\star 2}. De la definición de S^2 se obtiene que: (n-1) S^2 = \sum\limits_{i=1}^n (X_i - \bar X)^2 y tras dividir por \sigma^2 \frac{(n-1) S^2}{\sigma^2} =
\frac{1}{\sigma^2} \sum\limits_{i=1}^n (X_i - \bar X)^2 =
\sum\limits_{i=1}^n \left( \frac{X_i - \bar X}{\sigma} \right) ^2
\text{.} Por el mismo razonamiento que anteriormente se obtiene que (n-1)S^2 / \sigma^2 se distribuye como una chi-cuadrado de parámetro f. Como antes, la distribución de S^2 no se puede derivar directamente, únicamente inderéctamente mediante la variable aleatoria transformada (n-1)S^2/\sigma^2. Esto nos permite hacer afirmaciones probabísticas sobre S^2 dado que n y \sigma^2 son meramente constantes. El parámetro f, los grados de libertad, es ahora igual a f =
n - 1. Esto se debe a que la media muestral es el promedio de n variables muestrales: \bar X = \sum\limits_i X_i/n. La media muestral tiene la propiedad de que la suma de las desviaciones de las variables muestrales con respecto a la media muestral es siempre cero: \sum\limits_{i=1}^n (X_i - \bar X) =
\sum\limits_{i=1}^n X_i - n \bar X = 0 \text{.} Debido a esta relación lineal las X_i - \bar X, i = 1, \dots, n son conjuntamente no independientes. Sólo n-1 variables aleatorias son independientes y se varían libremente. La realización de la n-esima variable se determina para satisfacer la restricción anterior de la suma igual a cero. Esta propiedad es válida incluso tras elevar al cuadrado o dividir por \sigma^2. Por lo tanto, para (n-1)S^2/\sigma^2 el número de sumandos indepedientes y los grados de libertad f es igual a n - 1. El valor esperado y varianza S^2 son: E(S^2) = \sigma^2 ,
\qquad Var(S^2) = 2 \sigma^4 / (n-1)

intervalo central de variación:

Para varianza \sigma^2 conocida y una población distribuida mediante una normal, se puede calcular la probabilidad de que la varianza muestral S^{\star 2} tome un valor en el intervalo central con una determinada probabilidad 1 - \alpha. P \left( v_1 \leq \frac{nS^{\star 2}}{\sigma^2} \leq v_2 \right) = 1-
\alpha La probabilidad de que nS^{\star 2}/\sigma^2 esté fuera del intervalo está dada por: P \left( \frac{nS^{\star
2}}{\sigma^2} < v_1 \right) = \frac{\alpha}{2} \, ; \quad P
\left( \frac{nS^{\star 2}}{\sigma^2} > v_2 \right) =
\frac{\alpha}{2} Con f = n los extremos del intervalo se pueden obtener en la tabla de la distribución chi-square v_1
= \chi^2_{\frac{\alpha}{2};n} \, ; \quad v_2 = \chi^2_{1-
\frac{\alpha}{2};n} Entonces, P \left(
\chi^2_{\frac{\alpha}{2};n} \leq \frac{nS^{\star 2}}{\sigma^2}
\leq \chi^2_{1 - \frac{\alpha}{2};n} \right) = 1- \alpha Reordenando se obtiene el intervalo central de variación: P
\left( \frac{ \sigma^2 \chi^2_{\frac{\alpha}{2};n}}{n} \leq
S^{\star 2} \leq \frac{\sigma^2 \chi^2_{1 -
\frac{\alpha}{2};n}}{n} \right) = 1- \alpha Usando f = n - 1, un razonamiento similar lleva a un para S^2: P \left( \frac{ \sigma^2
\chi^2_{\frac{\alpha}{2};n}}{n-1} \leq S^{\star 2} \leq
\frac{\sigma^2 \chi^2_{1 - \frac{\alpha}{2};n}}{n-1} \right) = 1-
\alpha

Es s2 33 f 9.gif

Para medir la uniformidad del tiempo necesaria para determinada tarea se usa habitualmente la varianza. El tiempo que un trabajador necesita para completar la tarea es la variable poblacional X. Supongamos que X está distribuida como una normal con E(X) = \mu y Var(X) = \sigma^2. Se selecciona una muestra aleatoria de tamañon. Dado que la población está comprendida por todas las posibles medidas de tiempo necesarias por el mismo trabajador para acabar la misma tarea es bastante grande y la muestra puede ser tratada como generadas por un muestreo aleatorio simple. Las variables muestrales X_i = “i-esima medición del tiempo necesario para completar la tarea" (i = 1, \dots, n) son por tanto independientes y distribuidas como una normal.

problema 1:

se extrae una muestra aleatoria de tamaño n = 15.
?‘Cuál es la probabilidad de que la varianza muestral S^2 tome un valor en el intervalo [0,5 \cdot \sigma^2 ; 1,5 \cdot
\sigma^2]? Esto es, la probabilidad que se ha de calcular es P(0,5 \sigma^2 \leq S^2 \leq 1,5 \sigma^2).
Para solucionar el problema, cada lado se multiplica por (n-1) /
\sigma^2: \begin{align}
        P(0,5 \sigma^2 \leq S^2 \leq 1,5 \sigma^2)      & = & P \left( \frac{n-1}{\sigma^2} 0,5 \sigma^2 \leq \frac{n-1}{\sigma^2} S^2 \leq \frac{n-1}{\sigma^2} 1,5 \sigma^2 \right)\\
                                                                                                & = & P \left( (n-1) \cdot 1,5 \leq \frac{n-1}{\sigma^2} S^2 \leq (n-1) \cdot 1,5 \right)\\\end{align} Utilizando n - 1 = 14 se obtiene que: P(0,5 \sigma^2 \leq S^2
\leq 1,5 \sigma^2) = P \left( 7 \leq \frac{n-1}{\sigma^2} S^2
\leq 21 \right) La probabilidad de que S^2 tome un valor entre 0,5 \cdot \sigma^2 y 1,5 \cdot \sigma^2 es idéntica a la probabilidad de que la variable transformada (n-1) S^2 /
\sigma^2 tome un valor entre 27 y 21. La variable aleatoria (n-1) S^2 / \sigma^2 se distribuye como una chi-cuadrado con f = n - 1 = 14 grados de libertad que implica que la probabilidad puede ser encontrada usando la tabla de la función de distribución de una chi-cuadrado o calcular. \begin{align}
        P(0,5 \sigma^2 \leq S^2 \leq 1,5 \sigma^2)      & = & P \left( 7 \leq \frac{n-1}{\sigma^2} S^2 \leq 21 \right)\\
                                                                                                & = & P \left( \frac{n-1}{\sigma^2} S^2 \leq 21 \right) - P \left( \frac{n-1}{\sigma^2} S^2 \leq 7 \right)\\
                                                                                                & = & 0,8984 - 0,0653 = 0,8331\\\end{align} La probabilidad de que S^2 tome un valor en el intervalo [0,5
\cdot \sigma^2 y 1,5 \cdot \sigma^2] es igual a 0,8331. El siguiente gráfico muestra la función de densidad de la distribución chi-cuadrado para f = 14, donde el símbolo Y es una simplificación de (n-1)S^2 / \sigma^2.

Es s2 33 f 8.gif

problema 2:

El objetivo es determinar el intervalo central de variación de la varianza muestral S^2 para una porbabilidad 1 -\alpha= 0,95 con la misma población que en el problema 1 y utilizando el tamaño muetral n = 30. Debido a que P \left( v_1 \leq \frac{(n-1) S^2}{\sigma^2} \leq v_2
\right) = 0,95 y P \left( \frac{(n-1) S^2}{\sigma^2} \leq v_1
\right) = 0,025 \ ; \qquad P \left( \frac{(n-1) S^2}{\sigma^2}
\leq v_2 \right) = 0,975 se obtiene de las tablas de una distribución chi-cuadrado con f = 29 grados de libertad v1 = 16,05 y v2 = 45,72. Entonces, P \left(
16,05 \leq
\frac{(n-1) S^2}{\sigma^2} \leq 45,72 \right) = 0,95 Con probabilidad 0,95, la variable aleatoria transformada (n -
1)S^2 / \sigma^2 toma algún valor en el intervalo [16,05;
45,72]. Reordenando da el intervalo central de variación para S^2: P \left( \frac{16,05 \sigma^2}{n-1} < S^2 < \frac{45,72
\sigma^2}{n-1} \right) = 0,95 P (0,5534 \sigma^2 < S^2 <
1,5766 \sigma^2) = 0,95 Con probabilidad 0,95 la varianza muestral S^2 toma valores en el intervalo [0,5534 \sigma^2;
1,5766 \sigma^2]. Los extremos del intervalo se pueden determinar sólo si la varianza poblacional \sigma^2 de la variable X = “tiempo requerido para una determinada labor" es conocida.

\mu es conocida

La varianza muestral está dada como S^{\star 2} = \frac{1}{n}
\sum\limits_{i=1}^n (X_i - \mu)^2 \begin{align}
        E(S^{\star 2}) & = & E \left[ \frac{1}{n} \sum\limits_{i=1}^n (X_i - \mu)^2 \right] = \frac{1}{n} E \left[ \sum\limits_{i=1}^n (X_i - \mu)^2 \right]\\
                                        &= & \frac{1}{n} \sum\limits_{i=1}^n E[(X_i - \mu)^2] \ \frac{1}{n} \sum\limits_{i=1}^n \sigma^2 = \frac{1}{n} n \sigma^2\\
                                        &= & \sigma^2\\\end{align} Esta derivación tiene en cuenta que todas las variables muestrales X_i tienen la misma varianza Var (X_i) = E[(X_i -
\mu )^2] = \sigma^2. La varianza de una variable aleatoria distribuida como una chi-cuadrado de parámetro f está dada por 2f. Dado que n S^{\star 2} / \sigma^2 tiene una distribución chi-cuadrado de parámetro f = n se obtiene que: Var
\left( \frac{n S^{\star 2}}{\sigma^2} \right) = \frac{n^2}{\sigma^2} Var(S^{\star 2}) = 2n y por lo tanto Var
(S^{\star 2}) = \frac{2 \sigma^4}{n}\,
.

\mu es desconocida

La varianza muestral está ahora dada por S^2 = \frac{1}{n-1}
\sum\limits_{i=1}^n (X_i - \bar X)^2 Primero, se derivarán unos resultados intermedios. En principio, la varianza de una variable aleatoria se puede escribir como: \begin{align}
        Var(X) & = & E[(X-E(X))^2] = E[X^2 - 2XE(X) + (E(X))^2]\\
                        &= & E(X^2) - 2 E(X)E(X) + [E(X)]^2\\
                        &= & E(X^2) - [E(X)]^2\\\end{align} Esto implica que E(X^2) = Var(X) + [E(X)]^2 Este resultado es aplicado a las variables muestrales X_i y la media muestral \bar X: \begin{align}
        E(X_i^2) & = & Var(X_i) + [E(X_i)]^2 = \sigma^2 + \mu \\
        E(\bar X^2) & = & Var(\bar X) + [E(\bar X)]^2 = \frac{\sigma^2}{n} + \mu \\\end{align} Además \begin{align}
        E \left[ \sum\limits_{i=1}^n (X_i - \bar X)^2 \right]   & = & E \left[ \sum\limits_{i=1}^n X_i^2 - 2 \bar X \sum\limits_{i=1}^n X_i + n \bar X^2 \right] = E \left[ \sum\limits_{i=1}^n X_i^2 - 2n \bar X^2 + n \bar X^2 \right]\\
                                                                                                        & = & E \left[ \sum\limits_{i=1}^n X_i^2 - n \bar X^2 \right] = E \left[ \sum\limits_{i=1}^n X_i^2 \right] - E \left[ n \bar X^2 \right]\\
                                                                                                        & = & \sum\limits_{i=1}^n E(X_i^2) - n E(\bar X^2) = \sum\limits_{i=1}^n (\sigma^2 + \mu^2) - n (\frac{\sigma^2}{n} + \mu^2)\\
                                                                                                        & = & n \sigma^2 + n \mu^2 - \sigma^2 - n \mu^2\\
                                                                                                        & = & (n-1) \sigma^2\\\end{align} Por lo tanto, la esperanza de la varianza muestral S^2 está dada por E(S^2) = E \left[ \frac{1}{n-1} \sum\limits_{i=1}^n
(X_i - \bar X)^2 \right] = \frac{1}{n-1} E \left[
\sum\limits_{i=1}^n (X_i - \bar X)^2 \right] = \frac{1}{n-1}
(n-1) \sigma^2 = \sigma^2


Dado que (n-1) S^2 / \sigma^2 tiene una distribución chi-cuadrado de parámetro f = n - 1 se obtiene que Var
\left( \frac{(n-1)S^2}{\sigma^2} \right) =
\frac{(n-1)^2}{\sigma^4} Var(S^2) = 2(n-1) y por lo tanto Var(S^2) = \frac{2 \sigma^4}{(n-1)} \, .

(3) \mu es desconocida

En este caso se tiene la siguiente versión de la varianza muestral: S^{/2} =
\frac{1}{n} \sum\limits_{i=1}^n (X_i - \bar X)^2\, . Para derivar su valor esperado se van a utilizar los resultados intermedios calculados anteriormente, lo que implica que E(S^{/2}) = E \left[ \frac{1}{n} \sum\limits_{i=1}^n (X_i -
\bar X)^2 \right] = \frac{1}{n} E \left[ \sum\limits_{i=1}^n (X_i
- \bar X)^2 \right] = \frac{n-1}{n} \sigma^2 La esperanza de esta varianza muestral no es igual a la varianza poblacional \sigma^2. Esta es la razón por la que raramente se utiliza en estadística inductiva.