Contraste de diferencia de dos medias poblacionales

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


El parámetro desconocido que se desea contrastar ahora es la diferencia de la esperanza de dos poblaciones distintas, \mu_{1}-\mu_{2}. El contraste paramétrico está basado en las dos muestras que surgen de la población; por lo tanto, tendremos que trabajar con contrastes de dos muestras. Existen varias diferentes formas de construir un test para la diferencia de dos esperanzas poblacionales. Nuestro contraste va a satisfacer las siguientes condiciones:

  • Hay dos poblaciones. La variable aleatoria observada en la primera, X_{1} tiene esperanza E\left( X_{1}\right)=\mu_{1} y varianza Var\left(
X_{1}\right)=\sigma_{1}^{2}; Los parámetros de la variable aleatoria obaservada en la segunda población, X_{2}, son E\left( X_{2}\right)=\mu_{2} y Var\left(
X_{2}\right)=\sigma_{2}^{2}. Contrastamos para la diferencia de los dos valores esperados, dado que tenemos que estimar \mu_{1} y \mu_{2} porque son desconocidos.
  • Los tamaños de las dos poblaciones, N_{1} y N_{2}, son lo suficientemente grandes como para basar el test en extracciones de muestras aleatorias simples sin reemplazamiento. El tamaño muestral se denota por n_{1} y n_{2}, respectivamente.
  • Las dos muestras son independientes. Esto significa que han sido extraidas independientemente una de otra, por lo que no tienen ninguna información cruzada entre las dos muestras.
  • Las dos variables aleatorias X_{1} y X_{2} tiene una distribución normal (X_{1}\thicksim \N \left( \mu_{1}; \, \sigma_{1} \right) and X_{2}\thicksim \N \left(
\mu_{2}; \, \sigma_{2} \right)), o sus distribuciones se pueden aproximar suficientemente bien mediante el teorema central del límite. Para que esto sea posible, los tamaños muestrales n_{1} y n_{2} deben ser lo suficientemente grandes.

Existe una hipótesis de la diferencia, expresada en términos de \omega_{0}=\mu_{1}-\mu_{2}. Un caso especial, que tiene un interés particular, es la igualdad hipotética entre las dos medias poblacionales, es decir, \omega_{0}=0. El contraste se realizará con un nivel de significación de \alpha.

Hipótesis

Dependiendo de la aplicación que se va a realizar, se pueden utilizar contrastes de una cola o de dos: 1) Contraste de dos colas\text{H}_{0}: \mu_{1}-\mu_{2} = \omega_{0} \quad \text{versus } \quad \text{H}_{1}: \mu_{1}-\mu_{2} \neq \omega_{0}. 2) Contraste por la derecha\text{H}_{0}: \mu_{1}-\mu_{2} \leq \omega_{0} \quad \text{versus } \quad \text{H}_{1}: \mu_{1}-\mu_{2} > \omega_{0}. 3) Contraste por la izquierda\text{H}_{0}: \mu_{1}-\mu_{2} \geq \omega_{0} \quad
\text{ versus } \quad \text{H}_{1}: \mu_{1}-\mu_{2} < \omega_{0}. La elección del contraste adecuado se debe realizar teniendo en cuenta las consideraciones mostradas en la sección de contrastes de un sola muestra de \mu.

Estadístico de contraste y su distribución; regiones de decisión

Ya hemos visto (ver capítulo 6), que el estimador de la diferencia de dos esperanzas,D=\overline{X}_{1}-\overline{X}_{2}, donde \overline{X}_{1} y \overline{X}_{2} son las medias muestrales, es,\overline{X}_{1}=\frac{1}{n_{1}}\sum_{i=1}^{n_{1}}\,X_{1i} \quad
\overline{X}_{2}=\frac{1}{n_{2}}\sum_{i=1}^{n_{2}}\,X_{2i},y tiene distribución normal con esperanza E\left( D\right)=\omega=\mu_{1}-\mu_{2}. De la independencia de las dos variables muestrales, la varianza de la media diferencial es:Var\left(
D\right)=\sigma_{D}^{2}=\frac{\sigma_{1}^{2}}{n_{1}} + \frac{\sigma_{2}^{2}}{n_{2}}. Suponiendo que \omega_{0} es la distancia verdadera entre las dos esperanzas poblacionales: \omega = \omega_0. Entonces D tiene una distribución normal con esperanza E\left( D\right)=\omega_{0} y varianza \sigma_{D}^{2}. Para construir de forma apropiada un estadístico de contraste, tenemos que realizar la misma distinción en cuanto a nuestro conocimiento sobre las desviaciones típicas \sigma_{1} y \sigma_{2} en cada muestra individual. Comencemos con el supuesto sencillo (y poco realista) de que, por algún motivo misterioso, sabemos las dos desviaciones típicas de ambas poblaciones, \sigma_{1} y \sigma_{2}. Si conocemos \sigma_{1} y \sigma_{2}, la distribución de D está completamente especificada arriba, y podemos estandarizar D para asegurar la aplicabilidad de las tablas numéricas de la distribución normal estandar:V=\frac{D-\omega_{0}}{\sigma_{D}}=\frac{\left(
\overline{X}_{1}-\overline{X}_{2}\right) -
\omega_{0}}{\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}}. Bajo \text{H}_{0}, V tiene (al menos aproximadamente) una distribución estandar normal, y se utilizará la tabla de los valores numéricos de la inversa de la distribución acumulada normal estandar para calcular los valores críticos. Estos cuantiles de la normal transforman en las siguientes regiones de decisión para un contraste de con nivel de significación de \alpha:

Contraste Región de rechazo de \text{H}_{0} Región de aceptación de \text{H}_{0}
Dos colas \left\{ v\,|\, v<-z_{1-\alpha /2}\, \text{ or } \,v>z_{1-\alpha /2}\right\} \left\{ v\,|\, -z_{1-\alpha /2}\leq v \leq z_{1-\alpha
/2}\right\}
Por la derecha \left\{ v\,|\,
v>z_{1-\alpha}\right\} \left\{ v\,|\, v\leq z_{1-\alpha}\right\}
Por la izquierda \left\{ v\,|\, v<z_{-1-\alpha}\right\} \left\{ v\,|\, v\geq
-z_{1-\alpha}\right\}

Tenemos que estimar las cantidades desconocidas \sigma_{1} y \sigma_{2} mediante sus contrapartidas muestrales: S_{1}^{2}=\frac{1}{n_{1}-1}\, \sum_{1=1}^{n_{1}} \left(
X_{1i}-\overline{X}_{1}\right)^{2}, \quad S_{2}^{2}=\frac{1}{n_{2}-1}\,
\sum_{1=1}^{n_{2}} \left( X_{2i}-\overline{X}_{2}\right)^{2}. Suponiendo homogeneidad en las varianzas, es decir, la variable aleatoria que se estudia tiene la misma dispersión en las dos poblaciones, \sigma_{1}^{2}=\sigma_{2}^{2}, el estimador S^{2} de la varianza conjunta \sigma^{2} es la media aritmética ponderada de los estimadores de las varianzas S^{2}_{1} y S^{2}_{2}:S^{2}=\frac{\left( n_{1}-1\right)\,S_{1}^{2} +\left(
n_{2}-1\right)\, S_{2}^{2}}{n_{1} + n_{2}-2}. Por lo tanto, podemos escribir el estimador S_{D}^{2} de \sigma_{D}^{2} comoS_{D}^{2}=S^{2}\, \left( \frac{1}{n_{1}} +
\frac{1}{n_{2}}\right)=\frac{n_{1}+n_{2}}{n_{1}\, n_{2}}\,\frac{\left(
n_{1}-1\right)\,S_{1}^{2} +\left( n_{2}-1\right)\, S_{2}^{2}}{n_{1} + n_{2}-2}. Es estadístico de contraste V se calcula comoV=\frac{D-\omega_{0}}{\sigma_{D}}=\frac{\left(
\overline{X}_{1}-\overline{X}_{2}\right) - \omega_{0}}{\sqrt{\frac{n_{1}+n_{2}}{n_{1}\,
n_{2}}\,\frac{\left( n_{1}-1\right)\,S_{1}^{2} +\left( n_{2}-1\right)\cdot
S_{2}^{2}}{n_{1} + n_{2}-2}}},y tiene una distribución t con f=n_{1}+n_{2}-2 grados de libertad. Bajo el supuesto de varianzas heterogéneas, \sigma_{1}^{2}\neq\sigma_{2}^{2}, el estimador S_{D}^{2} sólo se puede aproximar comoS_{D}^{2}=\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}}. El estadístico de contraste se puede basar en esta aproximación, y usarV=\frac{D-\omega_{0}}{\sigma_{D}}=\frac{\left(
\overline{X}_{1}-\overline{X}_{2}\right) -
\omega_{0}}{\sqrt{\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}}}}como estadístico de contraste. Bajo la hipótesis nula, se puede aproximar V mediante una distribución t con f grados de libertad calculados como:f=\frac{\left(\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}}\right)^{2}}{\frac{1}{n_{1}-1}\,\left(
\frac{S_{1}^{2}}{n_{1}}\right)^{2} + \frac{1}{n_{2}-1}\,\left(
\frac{S_{2}^{2}}{n_{2}}\right)^{2}}. En ambos casos (variables homogeneas y heterogeneas) los valores críticos se obtienen de la tabla de la distribución t. La siguiente tabla muestra las regiones de decisión derivadas para los tres posibles situaciones (con un de \alpha).

Contraste Región de rechazo de \text{H}_{0} Región de aceptación de \text{H}_{0}
Dos colas \left\{ v\,|\, v<-t_{1-\alpha /2;f}\, \text{or } \,v>t_{1-\alpha /2;f}\right\} \left\{ v\,|\, -t_{1-\alpha /2;f}\leq v \leq
t_{1-\alpha /2;f}\right\}
Por la derecha \left\{ v\,|\,
v>t_{1-\alpha;f}\right\} \left\{ v\,|\, v\leq t_{1-\alpha;f}\right\}
Por la izquierda \left\{ v\,|\, v<t_{-1-\alpha;f}\right\} \left\{ v\,|\, v\geq
-t_{1-\alpha;f}\right\}

Ver que los cuantiles de la distribución t en la tabla superior se pueden aproximar por los cuantiles de la distribución normal, si ambos tamaños muetrales n_{1} y n_{2} son lo suficientemente grandes para justificar la aplicación del teorema central del límite (n_{1}>30 y n_{2}>30). Por lo tanto, las regiones de decisión resultantes son similares a las del caso de varianzas conocidas.

Muestreo y cálculo del estadístico de contraste

En base a una muestra concreta, se calculan dos medias muestrales \overline{x}_{1} y \overline{x}_{2}, y si se necesita, las desviaciones típicas empíricas s_{1} y s_{2}. introduciendo estos valores en la fórmula del estadístico se obtiene el valor del estadístico de contraste v.

Decisión de contrate e interpretación

La decisión de contraste e interpretación se realizan de la misma forma que para el contraste de una una única media. Considerese una población de 3100 supermercados con mostradores de quesos y carnes. Definimos
X_{1}:= ‘tiempo de espera en la cola, en minutos, en el mostrador de queso’ y
X_{2}:= ‘tiempo de espera en la cola, en minutos, en el mostrador de la carne’. Su suponemos que X_{1} y X_{2} tienen una distribución normal con esperanzas desconocidas \mu_{1} y \mu_{2}, y varianzas desconocidas pero iguales \sigma_{1}^{2}=\sigma_{2}^{2} (homegeneidad de varianza). Queremos contrastar a un nivel de significación de \alpha en base a dos muestras aleatorias simples de tamaño n_{1} y n_{2}, si el tiempo medio que los clientes tienen que esperar en la cola antes de ser servidos en ambos mostradores es igual, es decir, si la diferencia entre los parámetros verdaderos \mu_{1}-\mu_{2} es igual a \omega_{0}=0:\text{H}_{0}: \mu_{1}-\mu_{2} = 0 \quad \text{ versus } \quad
\text{H}_{1}: \mu_{1}-\mu_{2} \neq 0. En este ejemplo interactivo puedes realizar el contraste las veces que quieras. En cada repetición se generarán muestras aleatorias nuevas de X_{1} y X_{2} de acuerdo con los parámetros del test. Puedes

  • Observar repetidamente el contraste sin modificar ni el nivel de significación \alpha y los tamaños muestrals n_{1} y n_{2},
  • alterar \alpha para n_{1} n_{2} constantes,
  • modificar los tamaños muestrales n_{1} y n_{2}, manteniendo fijo el nivel de significación \alpha,
  • cambiar a la vez \alpha, n_{1} y n_{2}.

Es s2 53 e 4.gif Los seõres Schmidt y Maier, dos viejos banqueros, disfrutan de sus horas de comida discutiendo sobre la edad media de sus colegas. Primera disputa
Mr Schmidt cree que la edad media de las empleadas femeninas es distinta de la da los hombres—en opinión de Mr Maier esto no es cierto. Segunda disputa
Mr Schmidt incluso cree saber la dirección de esta desviación: las trabajadoras son más viejas de media, eso le parece a él. En oposición a la opinión de Schmidt, Maier considera que esto no es cierto. Tercera disputa
Como lo anterior no es suficiente para matar el aburrimiento que se produce tras llevar a cabo numerosas discusiones sobre el valor verdadero del Euro y el mejor entrenador para la selección nacional, Mr Schmidt decide pasar al ataque:‘De media, las mujeres de nuestro banco son 5 más jovenes que los hombres!’ Mr Maier es más que féliz desintiendo de esta afirmacón, aunque, extrañamente concede que la media masculina podría ser inferior a la femenina. Pero no puede cancelar la posibilidad de que estas impresiones subjetivas estén sujetas a un sesgo de examinar más criticamente a sus colegas femeninas (tanto Maier como Schmidt están casados). Para arreglar sus disputas y por lo tanto, dejar espacio para futuras confrontaciones, Maier y Schmidt deciden llevar a cabo una investigación estadística. Ellos mismos se sorprenden de estar de acuerdo con la idea del siguiente escenario: El contraste estadístico se basará en la diferencia de dos medias poblacionales \mu_{1}-\mu_{2}; el nivel de significación es \alpha. La variable aleatoria X_{1} recoge la edad de las mujeres del banco, X_{2} la edad de los hombres. Las esperanzas E\left( X_{1}\right)=\mu_{1}, E\left(
X_{2}\right)=\mu_{2} y varianzas Var\left( X_{1}\right)=\sigma_{1}, Var\left(
X_{2}\right)=\sigma_{2} son desconocidas. No se puede asumir homogeneidad de varianzas, Maier y Schmidt están de acuerdo. Además, no hay información apriori sobre la forma de la función de distribución de X_{1} y X_{2}. Consecuentemente, los tamaños muestrales n_{1} y n_{2} deben ser lo suficientemente grandes para poder justificar la aplicación del teorema central del límite. Maier y Schmidt saben que, aproximadamente, hay el mismo número de hombres y mujeres en el banco, y por lo tanto deben seleccionar tamaños muestrales similares: n_{1}=n_{2}=50. Preguntan a recursos humanos para que les ayuden en la investigación de campo. El departamento de personal puede suministrales inmediatamente los datos exactos, pero deciden tomar mustras aleatorias de tamaño 50, remplazando cada elemento tras cada extracción. Ellos afirman que las dos muestras de las poblaciones de hombres y mujeres puede considerarse como independientes. Se calculan las medias y varianzas para las dos muestras.

Estadístico de contraste y su distribución; regiones de decisión

Como \sigma_{1} y \sigma_{2} son desconocidos y Maier&Schmidt tienen que asumir heterogeneidad de varianzas, aplican el V=\frac{\left( \overline{X}_{1}-\overline{X}_{2}\right) -
\omega_{0}}{\sqrt{\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}}}},donde\overline{X}_{1}=\frac{1}{n_{1}}\sum_{i=1}^{n_{1}}\,X_{1i},
\quad \overline{X}_{2}=\frac{1}{n_{2}}\sum_{i=1}^{n_{2}}\,X_{2i}son las medias muestrales yS_{1}^{2}=\frac{1}{n_{1}-1}\, \sum_{1=1}^{n_{1}} \left(
X_{1i}-\overline{X}_{1}\right)^{2}, \quad S_{2}^{2}=\frac{1}{n_{2}-1}\,
\sum_{1=1}^{n_{2}} \left( X_{2i}-\overline{X}_{2}\right)^{2}son los estimadores de las varianzas poblacionales \sigma_{1} y \sigma_{2}. Como los tamaños muestrales satisfacen que n_{1}>30 y n_{2}>30, se puede aplicar el teorema central del límite, y la distribución de V puede, bajo \text{H}_{0}, aproximarse por la curva normal estandar. Por lo tanto, Maier&Schmidt aplican un contraste aproximado para \mu_{1}-\mu_{2}.

Primera disputa

Hipótesis

Mr Schmidts considera que, en general, no es necesario especificar en que dirección es la diferencia de edades. Por lo tanto, se especifica un test de dos colas \omega_{0}=0 como el siguiente:\text{H}_{0}: \mu_{1}-\mu_{2} = \omega_{0}=0 \quad \text{ versus }
\quad \text{H}_{1}: \mu_{1}-\mu_{2} \neq \omega_{0}=0,o, equivalentemente,\text{H}_{0}: \mu_{1}=\mu_{2} \quad \text{ versus } \quad
\text{H}_{1}: \mu_{1}\neq\mu_{2}.

Determinación de las regiones de decisión de \text{H}_{0}

El valor crítico superior que satisface P\left( V\geq
c_{u}\right)=1-\alpha /2=0.975 se puede obtener en la tabla de la distribución normal como el cuantil de orden 97.5: c_{u}=z_{0.975}=1.96. De la simetría de la distribución normal respecto a cero se obtiene el valor crítico inferior c_{l}=-z_{1-\alpha /2}=-1.96, tal que P\left( V\leq c_{l}\right)=\alpha /2=0.025. Por lo tanto, tenemos la siguientes regiones de decisión: Región de aceptación aproximada de \text{H}_{0}:
\left\{ v \, | \, -1.96 \leq v
\leq 1.96 \right\}. Región de rechazo aproximada de \text{H}_{0}:
\left\{ v \, | \,
v < -1.96 \, \text{ or } \, v>1.96\right\}.

Muestreo y cálculo del estadístico de contraste

El departamento de personal suministra los siguientes datos para las dos muestras: Mujeres administravas: \overline{x}_{1}=47.71, \quad s_{1}^{2}=260.875. Hombres administrativos: \overline{x}_{2}=41.80, \quad s_{2}^{2}=237.681. Utilizando \omega_{0}=0, Maier&Schmidt obtienen un valor del estadístico de contraste de v=1.87.

Decisión de contraste e interpretación

El valor del estadístico de contraste de v=1.87 está en la región de aceptación de \text{H}_{0}, y consecuentemente no se rechaza la hipótesis nula. Basandose en dos muestras aleatorias de tamaño n_{1}=n_{2}=50, Maier&Schmidt no pueden probar estadisticamente la existencia de diferencias significativas en las esperanzas poblacionales entre la edad de las mujeres y hombres del banco, \mu_{1} y \mu_{2}. Aceptando la hipótesis nula, Maier&Schmidt pueden estar incurriendo en una decisión errónea. En este caso, si en realidad, las medias de las dos poblaciones difieren. La probabilidad de cometer un error de tipo II ('\text{H}_{0}'|\text{H}_{1}) sólo se puede calcular para un determinado valor del parámetro verdadero, la regíon paramétrica de la se puede reducir a un punto paramétrico.

Segunda disputa

Hipótesis

Mr Schmidt cree que ahora tiene nuevos argumentos substanciosos en favor a su afirmación, e insiste en ponerla como la hipótesis alternativa y se calcula un nuevo contraste. Si la hipótesis nula es rechazada y por lo tanto se verifica la alternativa, se puede calcular la probabilidad máxima de error tipo I como \alpha y tener de este modo un respaldo científico para mantener su afirmación. El contraste resultante es un contraste por la derecha: \omega_{0}=0:\text{H}_{0}: \mu_{1}-\mu_{2} \leq \omega_{0}=0 \quad \text{ versus }
\quad \text{H}_{1}: \mu_{1}-\mu_{2} > \omega_{0}=0,o, equivalentemente,\text{H}_{0}:
\mu_{1}\leq\mu_{2} \quad \text{ versus } \quad \text{H}_{1}: \mu_{1}>\mu_{2}.

Determinación de las regiones de decisón de \text{H}_{0}

El valor crítico que satisface P\left( V\leq c\right)=1-\alpha
=0.95 se puede obtener en la tabla de la distribución normal estandar, y es c=z_{0.95}=1.645. Las regiones de decisión son por tanto: Región de aceptación aproximada de \text{H}_{0}:
\left\{ v \, | \, v \leq 1.645
\right\}. Región de rechazo aproximada de \text{H}_{0}:
\left\{ v \, | \,
v>1.645\right\}.

Muestreo y cálculo del estadístico del contraste

El departamento de recursos humanos da a Mr Maier y Mr Schmidt unas muestras con las siguientes caracteristicas: Mujeres administrativas en el banco: \overline{x}_{1}=51.71, \quad s_{1}^{2}=385.509. Hombres administrativos en el banco: \overline{x}_{2}=45.16, \quad s_{2}^{2}=283.985 Utilizando \omega_{0}=0, Maier&Schmidt calculan el valor del estadístico de contraste como v=1.79.

Decisión de contraste e interpretación

Como el valor del estadístico de contraste de v=1.87 está en la región de rechazo de \text{H}_{0}, la hipótesis nula se rechaza. Maier&Schmidt pueden mostrar, de acuerdo a dos muestras aleatorias e independientes de tamaño n_{1}=n_{2}=50, que la diferencia \mu_{1}-\mu_{2} es significativa a un nivel \alpha=0.05. Schmidt tiene razón en mantener su afirmación, ya que la media de edad de las mujeres en el banco es más alta que la de los hombres. La probabilidad de cometer una decisión erronea, es decir, la probabilidad del error tipo I P\left('\text{H}_{1}'|\text{H}_{0}\right), está limitada por el nivel de significación \alpha=0.05. Comparando con el contraste de dos colas, la región de rechazo de \text{H}_{0} no está compuesta por dos segmentos, ya que está localizada exclusivamente en la parte derecha de E\left( V\right)=0. Como el área bajo la curva de la normal que se corresponde con esta región es igual a la cantidad ‘entera’ \alpha, el valor crítico es menor que el de la versión de dos colas. Por está razón es más facil rechazar la hipótesis nula, para un mismo nivel de significación \alpha y tamaños muestrales n_{1} y n_{2} en el test de una cola que en el de dos para desviaciones del estadístico de contraste respecto al valor del límite del hipotético parámetro en la misma dirección.

Tercera disputa

Hipótesis

En la tercera afirmación, Mr Schmidt va más lejos, ya que cuantifica que la media de edad femenina es, al menos, 5 superior a la de los hombres. Llevando esto a la formalización del contraste, la diferencia hipotética es \omega_{0}=5. Maier está de acuerdo en adoptar la misma estructura de contraste que en la segunda disputa, dejando la afirmación de Schmidts como la hipótesis alternativa. El contraste por la derecha resultante es:\text{H}_{0}: \mu_{1}-\mu_{2} \leq
\omega_{0}=5 \quad \text{ versus } \quad \text{H}_{1}: \mu_{1}-\mu_{2} > \omega_{0}=5.

Determinación de las regiones de aceptación de \text{H}_{0}

El valor crítico para P\left( V\leq c\right)=1-\alpha =0.95 se puede obtener de la tabla de la distribución normal estandar: c=z_{0.95}=1.645. Las regiones de decisión aproximadas son las mismas que en la segunda disputa: Región de aceptación aproximada de \text{H}_{0}:
\left\{ v \, | \, v \leq 1.645
\right\}. Región de rechazo aproximada de \text{H}_{0}:
\left\{ v \, | \, v>1.645\right\}.

Muestreo y cálculo del estadístico de contraste

El servicio de recursos humanos suministra las siguientes estadísticas: Mujeres administrativas en el banco: \overline{x}_{1}=52.22, \quad s_{1}^{2}=321.914. Hombres administrativos en el banco: \overline{x}_{2}=43.13, \quad s_{2}^{2}=306.527 Esta vez, Maier&Schmidt calculan el valor del estadístico de contraste usando \omega_{0}=5, lo que produce v=1.154.

Decisión de contraste e interpretación

El valor del estadístico de contraste v=1.154 pertenece a la región de aceptación de \text{H}_{0}, y la hipótesis nula no será rechazada. En base a muetras aleatorias independientes de tamaño n_{1}=n_{2}=50, Maier&Schmidt no pueden verificar estadísticamente, que la diferencia \mu_{1}-\mu_{2} es significativamente mayor que 5. Por lo tanto, Schmidt no puede probar estadísticamente a un nivel de significación de \alpha=0.05, que la media de edad femenina en el banco es 5 mayor que la masculina en el banco. El contraste suministra una base objetiva de decisión para proponer un diferencia exactamente como 5—no se puede decir nada para diferencias positivas menores que 5 (ni para diferencias mayores que 5, debido a la posibilidad de cometer un error tipo II). De esta manera, si la media de la edad de las mujeres en el banco es mayor que la media de la edad de los hombres en el banco en la población, Mr Schmidt o ha exagerado la diferencia, o es víctima del error de tipo II, '\text{H}_{0}'|\text{H}_{1}, la probabilidad del cual sólo se puede calcular para valores específicos de la verdadera diferencia paramétrica de las dos poblaciones. La estudiante Sabine visita dos granjas para comprar huevos frescos. En las granjas existen dos razas diferentes de gallinas—una en cada granja. Sabine selecciona aleatoriamente 10 huevos de la primera granja y 15 huevos de la segunda. De regreso a casa, tiene la impresión de que los huevos que dan las gallinas de la primera granja son más pesados que los de la segunda. Para verificar esta sospecha, realiza un contraste estadístico a un nivel de significación de \alpha. Sabine compara las dos medias (de peso) contrastando la diferencia \mu_{1}-\mu_{2} de dos medias.

Hipótesis

Como Sabine tiene razón en creer que el peso medio de los huevos de una clas es superior al de la otra clase, lo indicado es realizar un contraste por una cara. Quiere probar estadisticamente que la primera granja produce huevos más pesados y que consecuentemente pone su conjetura como hipótesis alternativa, teniendo la esperanza de que su muestra rechazará la que es la negación de la creencia que ella tiene. Mediante este método, ella sabe que la probabilidad máxima de que la hipótesis nula sea cierta cuando se rechaza de acuerdo a la muestra que se tiene (error tipo I) no puede ser mayor que el nivel de significación \alpha. Ella puede formalizar el siguiente contraste\text{H}_{0}: \mu_{1}-\mu_{2} \leq 0 \quad \text{ versus } \quad
\text{H}_{1}: \mu_{1}-\mu_{2} > 0,o, equivalentemente,\text{H}_{0}:
\mu_{1}\leq\mu_{2} \quad \text{ versus } \quad \text{H}_{1}: \mu_{1}>\mu_{2}.

Estadístico de contraste y su distribución; regiones de decisión

Sabine ha escogido los huevos aleatoriamente—en particular, ella no se ha tratado de seleccionar los más grandes de cada granja. Naturalmente, ha muestreado sin reemplazamiento, pero podemos suponer que la población de huevos producidos diariamente en ambas granjas es suficientemente grande para justificar el supuesto de muestreo aleatorio simple. Claramente, Sabine ha obtenido las muestras independientemente, ya que ha muestreado dos granjas que no tienen relación entre si. Sabine supone que las variables aleatorias X_{1}: ‘peso del huevo en la primera granja’ y X_{2}: ‘peso del huevo en la segunda granja’ están : X_{1}\thicksim \N \left( \mu_{1}; \, \sigma_{1} \right) y X_{2}\thicksim \N \left( \mu_{2}; \, \sigma_{2} \right). Esperanzas E\left(
X_{1}\right)=\mu_{1} y E\left( X_{2}\right)=\mu_{2} y varianzas Var\left(
X_{1}\right)=\sigma_{1}^{2} y Var\left( X_{2}\right)=\sigma_{2}^{2} son desconocidas. Para simplificar, Sabine supone que las varianzas de ambas poblaciones son homogeneas: \sigma_{1}^{2}=\sigma_{2}^{2}. Este supuesto implica que un diferencial entre las esperanzas no puede ser debido a un diferencial en las varianzas—un supuesto bastante atrevido. A pesar de todo, admitiendo los supuestos anteriores (y la posibilidad de su violación), Sabine puede basar su contraste en la función de la muetraV=\frac{\left( \overline{X}_{1}-\overline{X}_{2}\right) -
\omega_{0}}{\sqrt{\frac{n_{1}+n_{2}}{n_{1}\, n_{2}}\,\frac{\left(
n_{1}-1\right)\,S_{1}^{2} +\left( n_{2}-1\right)\cdot S_{2}^{2}}{n_{1} + n_{2}-2}}}. Aquí, n_{1}=10 y n_{2}=15 son los tamaños muestrales, \overline{X}_{1} y \overline{X}_{2} son las medias muestrales, S_{1}^{1} y S_{1}^{2} son los estimadores de \sigma_{1}^{2} y \sigma_{2}^{2}. Bajo \text{H}_{0}, V tiene una distribución t con f=n_{1}+n_{2}-2=10+15-2=23 grados de libertad. En la tabla correspondiente encontramos el cuantil de orden t_{0.95;23}=1.714 que es el valor crítico c que satisface P\left( V\leq
c\right)=1-\alpha=0.95 y por lo tanto tiene las siguientes regiones de decisión: Región de aceptación de \text{H}_{0}: \left\{ v\,|\, v\leq 1.714\right\}. Región de rechazo de \text{H}_{0}: \left\{ v\,|\, v> 1.714\right\}.

Muestreo y cálculo del estadístico de contraste

Sabine pesa los huevos y calcula las medias aritméticas y varianzas de cada muestra: Primera raza: \overline{x}_{1}=65.700 \quad s_{1}^{2}=50.35. Segunda raza: \overline{x}_{2}=60.433 \quad s_{1}^{2}=42.46. Utilizando \omega_{0}=0 calcula el estadístico de contraste que le da un valor de v=1.91.

Decisión de contraste e interpretación

La realización del estadístico de contraste v=1.91 cae en la región de rechazo de \text{H}_{0}. Por lo tanto, Sabine no puede probar, estadisticamente en base a dos muestras aleatorias independientes de tamaños n_{1}=10 y n_{2}=15 y de \alpha=0.05, que la diferencia \mu_{1}-\mu_{2} de las medias poblacionales del peso de los huevos es significativamente negativa. Como la probabilidad de error de tipo I P\left( '\text{H}_{1}'|\text{H}_{0}\right) no puede exceder \alpha, Sabine tiene un respaldo científico para afirmar que los huevos de la primera granja son más pesados que los de la segunda granja—!‘de media!